[发明专利]音频识别的方法、装置、电子设备及存储介质有效
| 申请号: | 202011553762.6 | 申请日: | 2020-12-24 |
| 公开(公告)号: | CN112735432B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 赵情恩;曾新贵;熊新雷;陈蓉;肖岩;李旭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/08;G06N3/0464;G06F18/22;G06F18/23 |
| 代理公司: | 北京猷德知识产权代理有限公司 16084 | 代理人: | 范继晨 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 识别 方法 装置 电子设备 存储 介质 | ||
1.一种音频识别的方法,包括:
对目标多媒体资源进行人声分离,获取所述目标多媒体资源中的每个发声人的声纹;
将所述目标多媒体资源中的每个发声人的声纹与声纹库中的预存声纹进行匹配,所述预存声纹为目标类别人物的声纹;
在匹配成功的情况下,确定所述目标多媒体资源中包含所述目标类别人物的音频;
其中,所述对目标多媒体资源进行人声分离,获取所述目标多媒体资源中的每个发声人的声纹,包括:
从目标多媒体资源中确认出人声音频;
按预设划分规则,将所述人声音频切割多个音频片段,其中,所述多个音频片段为单位长度的语音信号;
根据所述多个音频片段的特征向量,获取所述目标多媒体资源中的每个发声人的声纹;
其中,所述根据所述多个音频片段的特征向量,获取所述目标多媒体中的每个发声人的声纹,包括:
根据所述多个音频片段的特征向量之间的相似性,对所述多个音频片段的特征向量进行初步聚类,得到若干大类;
对所述初步聚类的若干大类的多个音频片段的特征向量进行再次聚类,得到聚类结果,其中,所述聚类结果包括根据再次聚类的多个音频片段的特征向量建立的多个隐马尔可夫模型;
根据所述再次聚类的多个音频片段的特征向量和所述聚类结果重新进行识别,获取所述目标多媒体资源中的每个人的声纹;
其中,所述根据所述再次聚类的多个音频片段的特征向量和所述聚类结果重新进行识别,获取所述目标多媒体资源中的每个人的声纹,包括:
将所述再次聚类的多个音频片段的特征向量通过所述隐马尔可夫模型进行二次重分割,得到新的若干类,其中,所述新的若干类分别代表所述目标多媒体资源中的每个人的声纹。
2.根据权利要求1所述的方法,还包括:
对已知多媒体资源进行人声分离,获取所述已知多媒体资源中的每个目标类别人物的声纹;
将所述已知多媒体资源中的每个目标类别人物的声纹存入所述声纹库。
3.根据权利要求2所述的方法,其中,所述对已知多媒体资源进行人声分离,获取所述已知多媒体资源中的每个目标类别人物的声纹,包括:
从已知多媒体资源中确定出人声音频;
按预设划分规则,将所述人声音频切割为多个音频片段;
根据所述多个音频片段的特征向量,获取所述已知多媒体资源中的每个目标类别人物的声纹。
4.根据权利要求3所述的方法,其中,所述根据所述多个音频片段的特征向量,获取所述已知多媒体资源中的每个目标类别人物的声纹,包括:
根据所述多个音频片段的特征向量之间的相似性,对所述多个音频片段的特征向量进行聚类;
根据所述多个音频片段的特征向量和聚类结果,获取所述已知多媒体资源中的每个目标类别人物的声纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011553762.6/1.html,转载请声明来源钻瓜专利网。





