[发明专利]声纹模型自动重建的方法和装置有效
申请号: | 201510061721.8 | 申请日: | 2015-02-05 |
公开(公告)号: | CN104616655B | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 郑方;李蓝天;邬晓钧;别凡虎;王军 | 申请(专利权)人: | 北京得意音通技术有限责任公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 兰淑铎 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 模型 自动 重建 方法 装置 | ||
技术领域
本申请涉及计算机及信息服务技术领域,特别是涉及一种声纹模型自动重建的方法和装置。
背景技术
说话人识别技术,又称为声纹识别技术,主要是基于语音中说话人包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。
近几年来,随着互联网的飞速发展,语音作为一种非接触性信息载体,人们可以依靠各种移动终端设备,例如:手机、麦克风和IP电话等,随时随地的完成语音采集,并通过网络传输和后台服务器来实现人机交互和说话人身份识别。
目前说话人识别最为主流的技术路线是GMM-UBM框架或者全变量子空间的i-vector模型。对于GMM-UBM框架采用混合高斯模型(Gaussian Mixture Model,GMM)模拟每个说话人模型及单独的通用背景模型(Universal Background Model,UBM),每个说话人的数十秒语音借助充分语音训练得到的通用背景模型(UBM),通过模型自适应的方法得到能够反映说话人自身特征的高斯混合模型(GMM),并使用GMM-UBM进行说话人身份确定。而对于i-vector模型则是预先通过最大期望EM算法迭代求得一个线性变换矩阵T,语音片段借助该线性变换矩阵训练得到对应的i-vector模型,并使用该i-vector模型进行说话人身份确定。
上述框架在进行说话人身份确定时存在以下问题:首先,从生理学角度看,说话人的生理特性和发音特性是随时间不断发生变化的。例如,声道长度的变化,基音频率的变化等。这种变化分为短期变化(一天内不同时段的变化)、中期变化(一年内的变化)、长期变化(年龄段的变化),由于时间变化的不确定性,无法得到一个稳定且鲁棒的说话人模型,从而在进行说话人身份确定时,存在说话人识别正确率低的问题,同时,如果持续性的让用户提供大量的建模语音必然会大大影响用户的使用体验。
其次,录音的通讯设备或者移动终端,由于长时间的使用也会出现设备老化、信号不稳等情况,在一定程度上影响到录音准确性和保真度。
发明内容
本申请提供一种声纹模型自动重建的方法和装置,以解决由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。
为了解决上述问题,本申请公开了一种声纹模型自动重建的方法,包括:
将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
使用筛选后的多组语音数据更新时间窗管道中的语音数据;
使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
优选地,将语音数据以时间点为标签构建时变数据库的步骤包括:
使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理,获取参数化的语音数据;
使用语音识别器识别语音数据,获得语音数据对应的音素;
根据参数化的语音数据和语音数据对应的音素构建时变数据库。
优选地,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据的步骤包括:
当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
根据更新结果获得筛选后的多组语音数据。
优选地,还包括:当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据可以是文本相关或文本无关。
为了解决上述问题,本申请还公开了一种声纹模型自动重建的装置,包括:
构建模块,用于将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
获取模块,用于以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京得意音通技术有限责任公司,未经北京得意音通技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510061721.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于环境噪音检测的智能语音播报系统及方法
- 下一篇:一种复合吸声结构