[发明专利]多模态数据自动清洗与标注方法与系统在审
| 申请号: | 202010525080.8 | 申请日: | 2020-06-10 |
| 公开(公告)号: | CN111767805A | 公开(公告)日: | 2020-10-13 |
| 发明(设计)人: | 刘青松;胡炳然 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/735;G06F16/783;G10L17/00 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 数据 自动 清洗 标注 方法 系统 | ||
1.多模态数据自动清洗与标注方法,其特征在于,所述多模态数据自动清洗与标注方法包括如下步骤:
步骤S1,人脸信息分析步骤,其用于对视频中的画面成分进行人脸识别,以此获得满足预设质量条件的有效人脸图像帧及其对应的时间戳信息;
步骤S2,音频信息分析步骤,其用于对视频中的音频成分进行分析,以此获得音频特征信息和说话人身份确定信息;
步骤S3,综合与决策处理步骤,其用于根据所述人脸图像帧、所述时间戳信息、所述音频特征信息和所述说话人身份确定信息,进行关于视频中说话人说话状态和/或说话起始点信息的标注。
2.如权利要求1所述的多模态数据自动清洗与标注方法,其特征在于:在所述步骤S1中,所述人脸信息分析步骤具体包括,
步骤S101,从所述视频中分离出所述画面成分,并获取待识别的人脸特征信息,其中,所述人脸特征信息包括人脸五官信息和/或人脸轮廓信息;
步骤S102,将所述画面成分分解成若干图像帧,并从所述若干图像帧中识别摘选出包含所述人脸特征信息的人脸图像帧;
步骤S103,判断所述人脸图像帧是否满足预设图像分辨率条件和/或图像色调条件,若是,则将对应的人脸图像帧确定为有效人脸图像帧;
步骤S104,获取所述画面成分分解成所述若干图像帧对应的时间轴信息,并从所述时间轴信息中提取每一所述有效人脸图像帧对应的时间戳信息。
3.如权利要求1所述的多模态数据自动清洗与标注方法,其特征在于:在所述步骤S2中,所述音频信息分析步骤具体包括,
步骤S201,从所述视频中分离出所述音频成分;
步骤S202,对所述音频成分进行VAD语音激活检测,以此获得关于所述音频成分的音频特征信息,其中,所述音频特征信息包括人物语音信息和环境声音信息;
步骤S203,对所述音频成分进行VPR声纹识别处理,以此获得关于所述音频成分的所有声纹识别信息;
步骤S204,根据所述所有声纹识别信息,获得所述人物语音信息对应的说话人身份确定信息。
4.如权利要求1所述的多模态数据自动清洗与标注方法,其特征在于:在所述步骤S3中,所述综合与决策处理步骤包括,
步骤S301,判断所述人脸信息分析步骤中获得的有效人脸图像帧是否符合预设人脸信息量要求,并根据所述判断结果给出所述有效人脸图像帧的候选标注;
步骤S302,根据所述时间戳信息和所述音频特征信息,确定所述有效人脸图像帧所处的时间段内的匹配音频特征信息,并根据所述匹配音频特征信息,标注所述说话人说话状态和/或所述说话起始点信息。
5.如权利要求4所述的多模态数据自动清洗与标注方法,其特征在于:在所述步骤S301中,判断所述人脸信息分析步骤中获得的有效人脸图像帧是否符合预设人脸信息量要求,并根据所述判断结果给出所述有效人脸图像帧的候选标注具体包括,
步骤S3011,计算所述人脸有效图像帧对应的实际人脸特征信息量,并将所述实际人脸特征信息量与预设人脸特征信息阈值量进行比较处理,若所述实际人脸特征信息量大于或者等于所述预设人脸特征信息阈值量,则确定所述有效人脸图像帧符合所述预设人脸信息量要求,否则,确定所述有效人脸图像帧不符合所述预设人脸信息量要求;
步骤S3012,将符合所述预设人脸信息量要求对应的有效人脸图像帧进行合格候选标注,以及将不符合所述预设人脸信息量要求对应的有效人脸图像帧进行不合格候选标注;
或者,
在所述步骤S302中,根据所述时间戳信息和所述音频特征信息,确定每一所述有效人脸图像特征所处的时间段内的匹配音频特征信息,并根据所述匹配音频特征信息,标注所述说话人说话状态和/或所述说话起始点信息具体包括,
步骤S3021,根据所述时间戳信息,确定所述有效人脸图像帧与所述音频特征信息的共存时间段;
步骤S3022,根据所述共存时间段,确定所述有效人脸图像帧所处的时间段内对应的音频特征信息,以此作为所述匹配音频特征信息;
步骤S3023,判断所述匹配音频信息是否属于人物语音信息,以及所述人物语音信息对应的说话人是否与所述有效人脸图像帧中的人物相一致,若上述两者均成立,则标注所述说话人说话状态和/或所述说话起始点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010525080.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





