[发明专利]多模态说话人身份识别方法、装置和设备在审
| 申请号: | 202111092312.6 | 申请日: | 2021-09-17 |
| 公开(公告)号: | CN113920560A | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 程虎;殷保才;刘文超;李渊强 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V20/40;G10L17/00;G10L17/18;G10L25/30 |
| 代理公司: | 北京磐华捷成知识产权代理有限公司 11851 | 代理人: | 卜璐璐 |
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 说话 人身 识别 方法 装置 设备 | ||
1.一种多模态说话人身份识别方法,其特征在于,所述方法包括:
获取会话场景的视频数据和音频数据;
对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;
根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;
根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;
根据所述视觉特征和所述音频特征对所述说话人进行身份识别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据,包括:
以滑窗方式将所述会话场景的音频数据输入到训练好的多模态说话人检测模型;
针对每个滑窗内的音频数据,由所述训练好的多模态说话人检测模型轮询所有参会人的所述子视频数据中的唇形框序列,以确定与每个滑窗内的音频数据对应的说话人。
3.根据权利要求2所述的方法,其特征在于,所述轮询所有参会人的所述子视频数据中的唇形框序列,确定与每个滑窗内的音频数据对应的说话人,包括:对每个所述参会人的子视频数据的每一帧数据执行如下操作:
将所述一帧数据之前的M帧数据、所述一帧数据以及所述一帧数据之后的M帧数据中的唇形框序列输入到所述训练好的多模态说话人检测模型,其中M为大于0的自然数;
由所述多模态说话人检测模型对所述唇形框序列提取视觉特征,对所述滑窗内的音频数据提取音频特征,将所述视频特征和所述音频特征拼接融合后提取时序联系,输出所述一帧数据的语音激活检测得分,以确定所述参会人是否为所述滑窗内的音频数据对应的说话人。
4.根据权利要求3所述的方法,其特征在于,所述多模态说话人检测模型包括视频特征提取网络、音频特征提取网络和长短时记忆网络。
5.根据权利要求1所述的方法,其特征在于,所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别,包括:
将所述视觉特征和所述音频特征分别与数据库中特征匹配,得到所述视觉特征的匹配结果和所述音频特征的匹配结果;
根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略,并根据所确定的多模态融合策略得到所述说话人的身份识别结果;
其中,所述多模态融合策略包括:根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者来确定所述说话人的身份识别结果;或者,根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者中的一者来确定所述说话人的身份识别结果。
6.根据权利要求1或5所述的方法,其特征在于,所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别,包括:
将所述视觉特征与第一数据库中的特征进行匹配,得到与所述视觉特征匹配的前N个身份标识以及与每个所述身份标识对应的视觉相似度,其中N为自然数,且N大于或等于1;
将所述音频特征与第二数据库中的特征进行匹配,得到与所述音频特征匹配的前N个身份标识以及与每个所述身份标识对应的音频相似度,其中N为自然数,且N大于或等于1;
所述根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略,并根据所确定的多模态融合策略得到所述说话人的身份识别结果,包括:
当与所述视觉特征匹配的前N个身份标识和与所述音频特征匹配的前N个身份标识中存在相同的身份标识时,对于所述相同的身份标识中的每个身份标识,计算与所述身份标识对应的视觉相似度和音频相似度的加权平均值,并将所述相同的身份标识中具有最大所述加权平均值的身份标识确定为所述说话人的身份识别结果;
当与所述视觉特征匹配的前N个身份标识和与所述音频特征匹配的前N个身份标识中不存在相同的身份标识时,确定所述视觉相似度和所述音频相似度中的最大值,并将所述最大值对应的身份标识确定为所述说话人的身份识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111092312.6/1.html,转载请声明来源钻瓜专利网。





