[发明专利]基于重音突显度的英语发音质量评价方法有效
申请号: | 201010266766.6 | 申请日: | 2010-08-30 |
公开(公告)号: | CN101996635A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 李坤;袁桦;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L13/08;G10L15/10 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 朱琨 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于重音突显度的英语发音质量评价方法,属于语音信号技术领域,其特征包括:计算音节归一化段长,计算音节最高归一化响度,计算音节最高归一化半音程;利用突显度模型,计算音节段长突显度、音节响度突显度和音节半音程突显度;利用Bayes分类器计算音节归一化重音突显度;计算重音突显度分数,并对分数进行映射。本发明的发音质量评价方法稳健性好,能与匹配分数结合使用,以进一步提高其与专家评分的相关性,可以用于交互式的语言学习系统和自动口语评测系统中。 | ||
搜索关键词: | 基于 重音 突显 英语 发音 质量 评价 方法 | ||
【主权项】:
1.一种基于重音突显度的英语发音质量评价方法,其特征在于,所述方法是在计算机中依次按以下步骤实现的:步骤(1)计算机初始化:建立一个大规模语音信号数据库,该数据库中的语音都有相应的音素级别标注,且该语音中包含了英语所有音素的语音。建立一个大规模语音信号的重音训练数据库,该数据库中包含多段语音,语音的所有音节都手工标注为重读或者非重读;建立一个语音发音质量评价数据库,该数据库由多段测试语音和对应的参考语音组成,且每一段测试语音都由英语评分专家给出了一个发音质量评价分数,作为主观评价分数;步骤(2)把一段参考语音信号和一段测试语音信号分别输入各自的分帧电路,分别得到相应的分帧语音信号,每帧语音信号长度为30ms;步骤(3)把步骤(2)得到的所述分帧语音信号分别输入各自的音节归一化段长计算电路,按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的归一化段长:步骤(3.1)利用预先训练好的隐含马尔可夫模型HMM,采用维特比Viterbi解码算法分别对步骤(2)得到的分帧参考语音信号和分帧测试语音信号进行强制对准,得到所述两种分帧语音信号中每个音素以及每个单词的时间分隔信息,所述音素分为元音和辅音,辅音又分为前辅音和后辅音,元音分为单词重音和非单词重音,共计四类音素;步骤(3.2)根据步骤(3.1)得到的各音素的时长,按下式计算参考语音信号和测试语音信号中第i个音素的归一化段长:d pnorm ( i ) = d ( i ) × Σ i = 1 N P D std ( i ) Σ i = 1 N P d ( i ) ]]> i=1,2,…,NP其中,dpnorm(i)为第i个音素的归一化段长,d(i)为第i个音素的实际时长,Dstd(i)为第i个音素对应的标准段长,等于大规模语音信号数据中,各音素的归一化段长的平均值,为已知值,NP为所述各语音信号中音素的个数;步骤(3.3)对所述的参考语音信号和测试语音信号的每个音素按音节进行划分,每个音节中包含一个元音音素以及多个辅音音素;步骤(3.4)按下式计算所述参考语音信号和测试语音信号中第s个音节的归一化段长:dsnorm(s)=max{dvnorm(s),dvnorm(s)+Δdcon(s)}s=1,2,…,NS其中,dsnorm(s)为所述第s个音节的归一化段长,dvnorm(s)为所述第s个音节的元音音素归一化段长,其值已由步骤(3.2)计算得到,NS为所述各参考语音信号和测试语音信号中音节的个数,Δdcon(s)为所述第s个音节中所有辅音音素的归一化延长段长的加权值,即:Δ d con ( s ) = Σ i ′ = 1 N con ( s ) c i ′ ( d norm _ con ( i ′ ) - D std _ con ( i ′ ) ) ]]> 其中,Ncon(s)为所述第s个音节的辅音个数,dnorm_con(i′)为所述第s个音节中的第i′个辅音的归一化段长,其值已由步骤(2.3)计算得到,Dstd_con(i′)为为所述第s个音节中的第i′个辅音对应的标准段长,ci′为加权系数,ci′=0.8;步骤(4)按照以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节的最高归一化响度:步骤(4.1)把步骤(2)所述一段参考语音信号和一段测试语音信号经过预加重、分帧、加Hamming窗、FFT处理,其中预加重滤波器取为1-0.95z-1,分帧和Hamming窗的帧长均为30ms;步骤(4.2)计算每个频点的能量为:G(n)=R2(n)+I2(n),n=0,1,…,NFFT-1其中,G(n)为第n个频点的能量,NFFT为FFT的点数,R(n)和I(n)分别为FFT后输出的频域的实部和虚部;步骤(4.3)把步骤(4.2)的每个频点n的能量输入一组在Mel频标上均匀分布的Q个三角滤波器中的每一个三角滤波器,得到第q个滤波器的输出能量和的对数M(q):M ( q ) = ln [ Σ n = F q - 1 F q n - F q - 1 F q - F q - 1 G ( n ) + Σ n = F q F q + 1 F q + 1 - n F q + 1 - F q G ( n ) ] , ]]> q=1,2,…,Q其中,Fq是第q个三角滤波器的中心频率,Fq+1和Fq-1为第q个Mel三角滤波器的上、下截止频率,Q为三角滤波器的个数,Q=24;步骤(4.4)按下式计算所述Mel频标上第q个三角滤波器输出的能量到响度的映射:L(q)=0.048M(q)0.6步骤(4.5)按下式计算一帧语音信号的响度为:L = Σ q = 1 Q L ( q ) = Σ q = 1 Q 0.048 M ( q ) 0.6 ]]> 其中,Q为三角滤波器的数量;步骤(4.6)分别计算所述一段参考语音信号和一段测试语音信号的各帧响度,并进行归一化运算,先求出整段语音信号的响度平均值,再用各帧语音信号的响度减去响度平均值得到归一化后的各帧语音信号的响度值;步骤(4.7)利用步骤(3.1)计算得到的各音素时间分隔信息,查找所述参考语音信号和测试语音信号的各音节内归一化响度的最高值,求得所述参考语音信号和测试语音信号的各音节最高归一化响度值;步骤(5)以8kHz作为采样频率,按以下步骤计算所述一段参考语音信号和一段测试语音信号的各音节最高归一化半音程:步骤(5.1)按以下步骤,计算所述参考语音信号和测试语音信号的各帧基频值:步骤(5.1.1)对所述一段参考语音信号和一段测试语音信号进行分帧,帧长50ms;步骤(5.1.2)采用紧支集二次样条小波,对步骤(5.1.1)中得到的分帧参考语音信号和分帧测试语音信号进行2次Mallet小波分解,得到有效频带为0~1kHz,1kHz~2kHz,2kHz~4kHz的各级语音信号,Mallet小波分解公式如下:c j + 1 ( k ) = 2 8 c j ( 2 k - 2 ) + 3 2 8 c j ( 2 k - 1 ) + 3 2 8 c j ( 2 k ) + 2 8 c j ( 2 k + 1 ) d j + 1 ( k ) = 2 8 c j ( 2 k - 2 ) - 3 2 8 c j ( 2 k - 1 ) + 3 2 8 c j ( 2 k ) - 2 8 c j ( 2 k + 1 ) , k = 1,2 , . . . , N j + 1 ]]> 其中,cj(k)为第j级语音信号的第k个样本点,第0级语音信号为步骤(5.1.1)重新分帧后得到的语音信号,cj+1(k)为小波分解后得到的第j+1级低频分量信号的第k个样本点,{dj+1(k)}为小波分解后得到的第j+1级高频分量信号的第k个样本点,Nj+1为第j+1级语音信号的样本个数;步骤(5.1.3)对步骤(5.1.2)所述有效频带为0~1kHz的语音信号,送入一个线性预测LP逆滤波器;步骤(5.1.4)对有效频带为0~1kHz的语音信号,继续进行4次小波分解,得到500~1000Hz、250~500Hz、125~250Hz、62.5~125Hz、0~62.5Hz共5个信号层,为最大限度去除倍频干扰,需要对前4个信号层乘以倍频抑制系数:a0、a1、a2、a3,如果当前帧的前一帧基频在250~500Hz范围时,倍频抑制系数取值为0.2∶1∶2∶2,如果当前帧的前一帧基频在250~500Hz范围以外时,取值为02∶1∶2∶4,其余信号层置零,当前帧为第一帧时,所有信号层置零;步骤(5.1.5)对步骤(5.1.2)和步骤(5.1.4)所述各个信号层进行小波重构的数学运算,把信号恢复到原始8kHz的采样率,此时已经去除了大部分噪音、强共振峰和其他倍频信号的干扰,其中小波重构公式为:c j ( k ) = 2 8 c j + 1 ( k + 2 2 ) + 3 2 8 c j + 1 ( k + 1 2 ) + 3 2 8 c j + 1 ( k 2 ) + 2 8 c j + 1 ( k - 1 2 ) ]]>+ 2 8 d j + 1 ( k + 2 2 ) - 3 2 8 d j + 1 ( k + 2 2 ) + 3 2 8 d j + 1 ( k + 2 2 ) - 2 8 d j + 1 ( k + 2 2 ) ]]> 其中cj(k)、dj+1(k)、cj(n)如步骤(5.1.2)所述;步骤(5.1.6)对步骤(5.1.5)所述的重构后的分帧语音信号做自相关计算得到每帧的基频值;步骤(5.1.7)若步骤(5.1.6)计算得到的基频值为0Hz,并且前1帧基频值大于0Hz,则无法检测当前帧的基频值,要重新计算当前帧基频值,但不再通过步骤(5.1.3)LP逆滤波器,而是重新计算步骤(5.1.2)、步骤(5.1.4)~步骤(5.1.6);步骤(5.1.8)重复步骤(5.1.2)~步骤(5.1.7),得到各帧语音信号的基频值;步骤(5.1.9)对步骤(5.1.8)所述各帧语音信号的基频值进行平滑处理;步骤(5.2)按下式计算,把步骤(2)所述的一段参考语音信号和一段测试语音信号的各帧大于0的基频值f转换为半音程值fst:f st = 12 × log 2 f 55 + 33 , f > 0 ]]> 步骤(5.3)对步骤(2)所述一段参考语音信号和一段测试语音信号的各帧半音程值进行归一化运算,即把基频值为0Hz的半音程值置为-12,再求得整段语音信号中基频值大于0Hz的所有帧的半音程值的平均值,再把基频值中大于0的所有帧的半音程值减去所述平均值,得到的结果即为归一化后的各帧半音程值;步骤(5.4)利用步骤(3.1)所述的各音素时间分隔信息,查找所述一段参考语音信号和一段测试语音信号的各音节内归一化半音程的最高值,即求得所述一段参考语音信号和一段测试语音信号的音节最高归一化半音程;步骤(6)计算步骤(2)所述一段参考语音信号和一段测试语音信号的包含非重音音节在内的各音节段长突显度、音节响度突显度、和音节半音程突显度,音节段长突显度定义为prom(s)′:prom(s)′=0.20Δxs-2′+0.60Δxs-1′+0.60x(s)′+0.40Δxs+1′其中,x(s)′为第s个音节的归一化段长,音节响度突显度定义为prom(s)″:prom(s)″=0.20Δxs-2″+1.10Δxs-1″+0.30x(s)″+0.40Δxs+1″其中,x(s)″为第s个音节的最高归一化响度,音节半音程突显度定义为prom(s)″′prom(s)″′=0.25Δxs-2″′+1.25Δxs-1″′+0.30x(s)″′+0.50Δxs+1″′其中,x(s)″′为第s个音节的最高归一化半音程,在上述的音节段长突显度、音节响度突显度、和音节半音程突显度定义中,
s=1,2,3,…,Ns,k=-2,-1,1Ns为所述各音节的个数,k表示Δxs+k序号s+k中s的增量值;步骤(7)按照以下步骤,计算步骤(2)所述的一段参考语音信号和一段测试语音信号的各音节归一化重音突显度:步骤(7.1)对步骤(1)大规模语音重音训练数据库中所有语音,所述按照步骤(2)~步骤(6)所述的方法,得到所述大规模语音重音训练数据库中所有音节的音节段长突显度、音节响度突显度和音节半音程突显度;步骤(7.2)采用步骤(1)所述大规模语音重音训练数据库中音节的重音或非重音的标注,以及步骤(7.1)得到的特征,进行贝叶斯分类器的训练,得到贝叶斯分类器的贝叶斯分类矩阵;步骤(7.3)根据步骤(2)~步骤(6)得到的一段参考语音信号和一段测试语音信号的各音节段长突显度、音节响度突显度和音节半音程突显度,利用步骤(7.1)~步骤(7.2)得到的贝叶斯分类矩阵,进行贝叶斯分类计算,得到所述一段参考语音信号和一段测试语音信号的各音节的重音突显度值;步骤(7.4)对步骤(7.3)得到的所述参考语音信号和测试语音信号的各音节重音突显度值进行归一化,其计算公式为:
其中,Pnorm(s)为第s个音节的归一化重音突显度值,P(s)为第s个音节的重音突显度值,P0为步骤(7.1)所述的大规模语音重音训练数据库中所有非重音音节的平均突显度值,P1为步骤(7.1)所述的大规模语音重音训练数据库中所有重音音节的平均突显度值;步骤(8)按照以下步骤,计算所述测试语音信号的发音质量评价分数:步骤(8.1)按照以下公式,计算所述测试语音信号的重音突显度分数Pwmsd:P wmsd = Σ s = 1 N S P ref _ norm ( s ) · ( P test _ norm ( s ) - P ref _ norm ( s ) ) 2 Σ s = 1 N P ref _ norm ( s ) · ( P test _ norm 2 ( s ) + P ref _ norm 2 ( s ) ) ]]> 其中,Ptest_norm(s)为所述一段测试语音信号的第s个音节的归一化重音突显度、Pref_norm(s)为参考语音信号第s个音节的归一化重音突显度,NS为所述各音节的个数;步骤(8.2)按照以下Sigmoid函数公式,进行分数映射,得到最终发音质量评价分数:P score = 1 + 4 1 + exp ( - α · P wmsd + β ) ]]> 其中,Pwmsd为映射前分数,Pscore是映射后的分数,α和β为映射系数,由所述大规模发音质量评价数据库中针对同一段参考语音信号的重音突显度分数和专家主观评价分数根据最小方差准则确定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010266766.6/,转载请声明来源钻瓜专利网。
- 上一篇:计时器
- 下一篇:一种水溶性抗自由基稳定剂及其制备方法