[发明专利]一种连续语音流中的叠音检测方法有效
| 申请号: | 201510885336.5 | 申请日: | 2015-12-04 |
| 公开(公告)号: | CN106847267B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 胡琦;张鹏远;潘接林;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
| 主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/20;G10L25/03;G10L25/54 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;陈琳琳 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 连续 语音 中的 检测 方法 | ||
1.一种连续语音流中的叠音检测方法,所述方法包含:
步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;
步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段;
所述步骤101)进一步包含:
步骤101-1)对语音流进行端点检测,去除静音段;
步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;
步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;
步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决;
所述步骤101-2)进一步包含:
步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;
步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;
步骤101-2-3)利用Group LASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征;
所述步骤102)进一步包含:
步骤102-1)用非负矩阵分解在训练集上迭代学习,获得一个用以表示不同说话人语音的字典;
步骤102-2)用语音字典对初步判决得到的叠音段进行重建;
步骤102-3)根据重建误差进行决策,得到最终判决结果。
2.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101-2-1)进一步包含:
首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;
然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;
接着,
采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;
MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;
MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。
3.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤102-1)具体为:
计算训练样本的短时傅立叶变换,得到幅度谱Vit,其中短时傅里叶变换的窗长为20ms,帧移为10ms且FFT点数为1024;其中,i=1,…,G,t=1,…,T;i表示当前被分析样本所属说话人的编号;G表示说话人总数量;T表示被分析样本的总帧数;
将说话人i的所有幅度谱Vi=[Vit]作为一组,进行分解,得到对应该说话人的语音基Wi,所述的分解通过最小化如下代价函数完成:
其中,Wi和Hi分别表示第i个说话人的基和权重,并在优化时保持它们非负;i=1,…,G;Vit,t=1,…,T,D(X||Y)表示库尔巴克散度:
其中,Xmn表示矩阵X的第m行第n列元素,Ymn表示矩阵Y的第m行第n列元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510885336.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单页双曲面配筋混凝土柱及其制作方法
- 下一篇:一种新型装配式建筑灌浆套筒





