[发明专利]计算机辅助语言学习系统中的发音质量评价方法有效

申请号：	200810102076.X	申请日：	2008-03-17
公开（公告）号：	CN101246685A	公开（公告）日：	2008-08-20
发明（设计）人：	刘加	申请（专利权）人：	清华大学
主分类号：	G10L11/00	分类号：	G10L11/00;G10L19/00;G09B19/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	计算机辅助语言学习系统中的发音质量评价方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1、本发明提出的一种计算机辅助语言学习系统中语音发音质量评价方法，包括：匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分，具体计算包括以下步骤：

步骤(1)首先分别对参考语音和测试语音分别进行分帧处理，得到短时平稳的分帧语音；

步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数；

步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征，共39维特征，其中包括：12维MFCC系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分；

步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM)，采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准，分别得到参考语音和测试语音的似然度，以及语音中每个音素的时间分隔信息；

步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i)：

L(i)＝|log(p_text(O_test|q_i))-log(p_ref(O_ref|q_i))|

其中，p_test(O_test|q_i)是测试语音的似然度，p_ref(O_ref|q_i)是参考语音的似然度。其中，中，q_i表示第i个音素HMM模型，O_test和O_ref分别是测试语音和参考语音的MFCC特征矢量。

步骤(2.4)按照以下公式计算音素平均匹配分数，并依次作为语音发音的匹配分数S_{mat_sen}：

Smat_sen=1NpΣi=1NpL(i)]]>

其中，N_p为语音发音中音素总个数；

步骤(3)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的感知分数；

步骤(3.1)分别对所述的参考语音和测试语音分帧并加Hanning窗；

步骤(3.2)把步骤(3.1)中分帧的语音送人Mel频标上均匀分布的Q个三角窗滤波器进行Mel滤波处理，按照下式得到每个滤波器输出的能量和的对数值M(q)：

M(q)=ln[Σn=Fq-1Fqn-Fq-1Fq-Fq-1G(n)+Σn=FqFq+1Fq+1-nFq+1-FqG(n)]]]>

其中，F_q是第q个三角窗滤波器的中心频率，F_q+1和F_q-1分别为第q个三角窗滤波器的上、下截止频率，G(n)为三角窗函数，Q为三角窗滤波器的个数，q＝1，2，3…，Q；

步骤(3.3)按照下式把步骤(3.2)得到的第q个三角窗滤波器输出的能量和对数值M(q)映射到听感知域的响度L(q)：

L(q)＝0.048M(q)^0.6

步骤(3.4)基于步骤(2.2)得到的每个音素的时间分隔信息，利用动态时间规划算法(DTW)把参考语音和测试语音相应的音素在音素层面上逐帧对准，并计算参考语音和测试语音在第q个三角窗输出的响度差感知域上的响度差D(q)：

D(q)＝L_test(q)-L_ref(q) i＝1，2，3，…，Q

L_test(q)是测试语音在第q个三角窗滤波输出的响度；L_ref(q)和参考语音在第q个三角窗滤波输出的响度。

步骤(3.5)按照下式计算每帧语音的响度差p_frame(j)：

pframe(j)=Σq=1QW(q)Σi=1Q(D(q)W(q))2Σi=1QW(q)]]>

W(q)为第q个三角滤波器的带宽，Q为三角窗滤波器的个数；

步骤(3.6)按下式计算第i个音素的感知分数p_phone(i)，音素的感知分数为参考语音和测试语音的帧平均响度差：

pphone(i)=Σj=1N[pframe(j)]6N6]]>

其中N为参考语音和测试语音中较长语音对应音素的帧数；

步骤(3.7)按下式计算整个语音发音的感知分数p_{p_sen}：

pp_sen=1NpΣi=1Nppphone(i)]]>

其中N_p为语音发音中音素总个数；

步骤(4)按以下步骤计算整个语音发音的段长分数：

步骤(4.1)基于步骤(2.2)得到每个音素的时间分隔信息，利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。段长模型采用直方图模型或者Gamma模型计算，由标准语音库通过预先学习得到；

步骤(4.2)按下式计算音素段长分数d_phone：

d_phone＝|LogD_test-LogD_ref|

其中D_test为测试语音的相应音素的段长概率分数，D_ref为参考语音相应音素的段长概率分数。

步骤(4.3)按照下式计算整个语音发音的段长分数d_sen：

dsen=1NpΣi=1Npdphone(i)]]>

其中d_phone(i)为语音发音中第i个音素的对数段长概率分数；

步骤(5)按以下步骤计算整个语音发音的基音分数：

步骤(5.1)结合步骤(2.2)中得到每个音素的时间分隔信息，采用基于线性预测编码(LPC)中的自相关估计算法，分别计算参考语音和测试语音中第i个元音内的基音极大值和极小值之差S_vow(i)：

S_vow(i)＝P_max(i)-P_min(i)

其中P_max(i)和P_min(i)分别表示第i个元音内的基音的极大值和极小值。

步骤(5.2)按照下式计算基音分数R_{vow_max_min}：

Rvow_max_min=1NvΣi=1Nv|Svowtest(i)-Svowref(i)|2]]>

其中N_v为句子中的元音总数，S_vow^test(i)为测试语音中第i个元音内的基音极值差，S_vow^ref(i)为参考语音中第i个元音内的基音极值差。

步骤(6)按以下步骤计算整个语音的发音质量评价的融合分数，进行融合的分数包括匹配分数、感知分数、段长分数和基音分数：

步骤(6.1)通过映射函数将原始机器评价分数映射到专家评分取值区间内，按下式计算映射后机器分数：

y＝a₁x³+a₂x²+a₃x+a₄ (15)

其中，x为原始机器分数，y为映射后的机器分数，a₁，a₂，a₃和a₄为多项式系数；

步骤(6.2)基于线性融合方法计算整个语音的发音质量评价的融合分数计算公式如下：

其中，s₁，s₂，…，s_n表示各个机器分数，a₁，a₂，…，a_n为组合系数；

如果采用支持矢量机(SVM)的进行分数融合，可以利用通用的SVM软件工具包计算融合分数基于SVM融合效果优于线性融合的方法；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810102076.X/1.html，转载请声明来源钻瓜专利网。

上一篇：同轴式偏心轮高速分度机构
下一篇：透明聚合物薄膜及其制备方法和包括该薄膜的延迟薄膜、偏振器和液晶显示装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L11-00 不限定于G10L 15/00至G10L 21/00单独一组中的语音或音频特征的测定或检测
G10L11-02 .检测有无语音信号
G10L11-04 .语音信号的音调测定
G10L11-06 .语音信号的浊音和清音之间的鉴别

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]计算机辅助语言学习系统中的发音质量评价方法有效

专利文献下载