[发明专利]计算机辅助语言学习系统中的发音质量评价方法有效
申请号: | 200810102076.X | 申请日: | 2008-03-17 |
公开(公告)号: | CN101246685A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L11/00 | 分类号: | G10L11/00;G10L19/00;G09B19/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机辅助 语言 学习 系统 中的 发音 质量 评价 方法 | ||
1、本发明提出的一种计算机辅助语言学习系统中语音发音质量评价方法,包括:匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分,具体计算包括以下步骤:
步骤(1)首先分别对参考语音和测试语音分别进行分帧处理,得到短时平稳的分帧语音;
步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数;
步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征,共39维特征,其中包括:12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分;
步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM),采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准,分别得到参考语音和测试语音的似然度,以及语音中每个音素的时间分隔信息;
步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i):
L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|
其中,ptest(Otest|qi)是测试语音的似然度,pref(Oref|qi)是参考语音的似然度。其中,中,qi表示第i个音素HMM模型,Otest和Oref分别是测试语音和参考语音的MFCC特征矢量。
步骤(2.4)按照以下公式计算音素平均匹配分数,并依次作为语音发音的匹配分数Smat_sen:
其中,Np为语音发音中音素总个数;
步骤(3)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的感知分数;
步骤(3.1)分别对所述的参考语音和测试语音分帧并加Hanning窗;
步骤(3.2)把步骤(3.1)中分帧的语音送人Mel频标上均匀分布的Q个三角窗滤波器进行Mel滤波处理,按照下式得到每个滤波器输出的能量和的对数值M(q):
其中,Fq是第q个三角窗滤波器的中心频率,Fq+1和Fq-1分别为第q个三角窗滤波器的上、下截止频率,G(n)为三角窗函数,Q为三角窗滤波器的个数,q=1,2,3…,Q;
步骤(3.3)按照下式把步骤(3.2)得到的第q个三角窗滤波器输出的能量和对数值M(q)映射到听感知域的响度L(q):
L(q)=0.048M(q)0.6
步骤(3.4)基于步骤(2.2)得到的每个音素的时间分隔信息,利用动态时间规划算法(DTW)把参考语音和测试语音相应的音素在音素层面上逐帧对准,并计算参考语音和测试语音在第q个三角窗输出的响度差感知域上的响度差D(q):
D(q)=Ltest(q)-Lref(q) i=1,2,3,…,Q
Ltest(q)是测试语音在第q个三角窗滤波输出的响度;Lref(q)和参考语音在第q个三角窗滤波输出的响度。
步骤(3.5)按照下式计算每帧语音的响度差pframe(j):
W(q)为第q个三角滤波器的带宽,Q为三角窗滤波器的个数;
步骤(3.6)按下式计算第i个音素的感知分数pphone(i),音素的感知分数为参考语音和测试语音的帧平均响度差:
其中N为参考语音和测试语音中较长语音对应音素的帧数;
步骤(3.7)按下式计算整个语音发音的感知分数pp_sen:
其中Np为语音发音中音素总个数;
步骤(4)按以下步骤计算整个语音发音的段长分数:
步骤(4.1)基于步骤(2.2)得到每个音素的时间分隔信息,利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。段长模型采用直方图模型或者Gamma模型计算,由标准语音库通过预先学习得到;
步骤(4.2)按下式计算音素段长分数dphone:
dphone=|LogDtest-LogDref|
其中Dtest为测试语音的相应音素的段长概率分数,Dref为参考语音相应音素的段长概率分数。
步骤(4.3)按照下式计算整个语音发音的段长分数dsen:
其中dphone(i)为语音发音中第i个音素的对数段长概率分数;
步骤(5)按以下步骤计算整个语音发音的基音分数:
步骤(5.1)结合步骤(2.2)中得到每个音素的时间分隔信息,采用基于线性预测编码(LPC)中的自相关估计算法,分别计算参考语音和测试语音中第i个元音内的基音极大值和极小值之差Svow(i):
Svow(i)=Pmax(i)-Pmin(i)
其中Pmax(i)和Pmin(i)分别表示第i个元音内的基音的极大值和极小值。
步骤(5.2)按照下式计算基音分数Rvow_max_min:
其中Nv为句子中的元音总数,Svowtest(i)为测试语音中第i个元音内的基音极值差,Svowref(i)为参考语音中第i个元音内的基音极值差。
步骤(6)按以下步骤计算整个语音的发音质量评价的融合分数,进行融合的分数包括匹配分数、感知分数、段长分数和基音分数:
步骤(6.1)通过映射函数将原始机器评价分数映射到专家评分取值区间内,按下式计算映射后机器分数:
y=a1x3+a2x2+a3x+a4 (15)
其中,x为原始机器分数,y为映射后的机器分数,a1,a2,a3和a4为多项式系数;
步骤(6.2)基于线性融合方法计算整个语音的发音质量评价的融合分数计算公式如下:
其中,s1,s2,…,sn表示各个机器分数,a1,a2,…,an为组合系数;
如果采用支持矢量机(SVM)的进行分数融合,可以利用通用的SVM软件工具包计算融合分数基于SVM融合效果优于线性融合的方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102076.X/1.html,转载请声明来源钻瓜专利网。