[发明专利]一种多模型融合的声纹识别方法、终端、服务器及存储介质在审
| 申请号: | 201910441119.5 | 申请日: | 2019-05-24 |
| 公开(公告)号: | CN110164453A | 公开(公告)日: | 2019-08-23 |
| 发明(设计)人: | 洪国强;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤;王静 | 申请(专利权)人: | 厦门快商通信息咨询有限公司 |
| 主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/20;G10L17/18;G10L17/10;H04L9/32 |
| 代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声纹识别 多模式 融合 存储介质 模型融合 音频数据 频段 服务器 终端 自适应算法 场景 采样频率 环境噪声 模型训练 声纹模型 语音数据 采样率 识别率 声纹 兼容 语音 认证 | ||
本发明公开了一种多模型融合的声纹识别方法、终端、服务器及存储介质,所述方法先建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,根据场景需求,选择所述多模式融合声纹识别模型用于进行声纹注册或认证;所述场景需求包含音频数据的采样频率。本发明能有效利用不同频段的语音数据特性采用多模式融合的声纹模型进行声纹识别,提升声纹识别的识别率;可以兼容多种采样率,根据精度及语音质量自适应算法。同时将音频数据进行多个频段划分,解决不同环境噪声,提升声纹识别效果。
技术领域
本发明涉及声纹技术领域,具体涉及一种多模型融合的声纹识别方法、终端、服务器及存储介质。
背景技术
声纹识别技术一种生物识别技术,通过语音来识别说话人身份的。声纹识别技术在多场景有所应用,如电话,手机,应用程序app,门禁系统,音响,机器人等。
人声的频率可以高达10KHz,其在不同频率的能量分布及物理传输特性是不同的。在正常环境下,各种噪音的频率分布是不同的,比如乐器的声音频率一般处于高频。对于声音的采集,不同的情况下声音的采集的采样率是不一样的,其中采样率决定了音频内声音的频率范围,比如8K采样率,其频率范围是0~4KHz。
目前声纹识别技术主要包括ivector,xvector,dnn-ivector等算法。这几种算法都各有优缺点。其中ivector算法计算速度快,精度高,但抗噪能力较弱;xvector算法虽速度较慢,但抗噪能力较强;dnn-ivector精度最高,但计算量大,计算最慢。现有声纹识别都是基于一种采样率的音频数据进行训练,虽然识别更高的采样率音频文件,但是如果识别更低的音频文件其适用性会大大降低,其各采样率下的兼容性较差,未考虑各频率段对于声纹识别的作用及影响。
发明内容
本发明的目的在于克服现有技术问题,提出能有效利用不同频段的语音数据特点;兼容多种采样率,根据精度及语音质量自适应算法,解决不同环境噪声,提出一种多模型融合的声纹识别方法、终端、服务器及存储介质。
为达成上述目的,本发明采用如下技术方案:一种多模型融合的声纹识别方法,包括如下步骤:
(1)建立多模式融合方式进行模型训练,生成多模式融合声纹识别模型,具体如下:
分别对第一至第n采样频率的音频数据进行模型训练,其中n为大于等于1的整数:
第一采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N1个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M11模型;处于第i频率段的音频数据采用第Mi算法模型进行训练,生成第M1i模型;依次类推,处于第N1频率段的音频数据采用第MN1算法进行训练,生成第M1N1模型;其中N1为大于等于1的整数;
第二采样频率的音频数据进行模型训练:将音频数据根据频率从低到高划分为N2个频率段;处于第一频率段的音频数据采用第M1算法进行训练,生成第M21模型;处于第i频率段的音频数据采用第Mi算法进行训练,生成第M2i模型,依次类推,处于第N2频率段的音频数据采用第MN2算法进行训练,生成第M2N2模型;其中N2为大于等于1的整数;
依次类推
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息咨询有限公司,未经厦门快商通信息咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910441119.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别
- 下一篇:一种基于共振峰偏差的音频同一性判别方法及装置





