[发明专利]多模态说话人身份识别方法、装置和设备在审
| 申请号: | 202111092312.6 | 申请日: | 2021-09-17 |
| 公开(公告)号: | CN113920560A | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 程虎;殷保才;刘文超;李渊强 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V20/40;G10L17/00;G10L17/18;G10L25/30 |
| 代理公司: | 北京磐华捷成知识产权代理有限公司 11851 | 代理人: | 卜璐璐 |
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 说话 人身 识别 方法 装置 设备 | ||
本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
技术领域
本申请涉及语音识别技术领域,更具体地涉及一种多模态说话人身份识别方法、装置和设备。
背景技术
通常会议记录需要记录员对会议进行记录并整理成会议摘要,需要较强的专业知识和人力投入。说话人分离技术解决“谁何时说话”问题,能够自动地将不同说话人的内容分开,并将每个人的说话内容与提前注册好的身份信息进行匹配,生成会议记录,因此提升说话人的身份识别能力在会话场景显得尤为重要。
由于语音便于获取,当前会话场景主流的说话人身份识别主要基于声纹特征。为了将声纹与目标人身份匹配,往往需要参会人提前注册好声纹库。其整体流程主要为:利用说话人分离技术将说话人内容分开,然后对相同说话人提取声纹特征与提前注册好的声纹库进行匹配,确定说话人身份信息。
人脸识别技术在会话场景很少被应用,主要由于会话场景存在大量侧脸、背面等场景,此外大型会议室目标距离摄像头的距离也过远,难以获取清晰的面部特征。人脸识别技术主要先通过人脸检测获取目标区域,然后对面部区域提取特征与人脸库进行匹配。近场场景下,由于能够获取到清晰的面部特征,但声纹容易受背景噪声,目标人说话音色变化等影响,人脸识别往往具有更好的识别效果。
基于声纹的说话人识别技术,其准确性与声纹库的大小、性别分布以及环境噪声等都息息相关。当声纹库较大时,声纹匹配的准确性有明显的降低;此外声纹在同性别之间的区分能力也差于异性。当环境噪声较强时,也会影响说话人身份识别的效果。人脸识别技术虽然具有很高的准确率,但前提是能够提取有区分性的面部特征,所以人脸识别技术的应用场景也主要以近场为主。对于会议室这种存在遮挡、走动、距离较远等的复杂场景,难以保证每时刻都能获取目标人清晰的面部特征,单纯基于人脸特征的身份识别效果也有些差强人意。
对于银行交易场景,同时采用多种模态进行多方位认证,提高了身份识别准确性。但银行场景一般都默认同一时刻只有一个人进行认证,即需要采用人机交互的方式,人为地将脸部区域置于设备的感应框内,其多模态认证方式也基本采用级联方式:即当第一种模态认证通过后,才进行下一种模态认证;如果前一种模态未通过,设备会进行提醒,持续进行验证。而会话场景是一种更自由场景,如果采用人机交互方式,难以在会话场景推广。此外会话场景通常有多人同时参会,如何将当前时刻的音频与参会目标人的面部特征进行匹配也是会话场景多模态说话人身份识别任务亟需解决的问题。
目前,已有一些融合多模态信息对参会人员进行身份识别,并对上述问题提出了解决方案。但是这些解决方案仍有许多问题。例如,有的解决方案利用参会人员表情确定当前说话人,但这种定位是不太准确的,尤其是真实场景,说话人可能并没有丰富的表情特征,很难建立面部表情与语音之前的联系。此外,有的解决方案采用麦克风整列,利用声源定位实现说话人定位,利用定位的位置绑定对应的视觉特征。声源定位虽然能够实现说话人定位,但是当说话人角度较小时,其区分难度较大。除此之外,该方案对硬件也提出更大要求,会议设备需要配置多通道的麦克风阵列,不同类型的阵列还需要进行定制,极大地影响产品的推广性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111092312.6/2.html,转载请声明来源钻瓜专利网。





