[发明专利]汉语教学语音合成方法及装置有效
申请号: | 201210207692.8 | 申请日: | 2012-06-18 |
公开(公告)号: | CN102723077A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 解焱陆;张劲松 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G09B5/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 教学 语音 合成 方法 装置 | ||
技术领域
本发明涉及语音信号处理领域,具体地,涉及一种汉语教学语音合成方法及装置。
背景技术
外国人学习汉语,面临的一个很大的困难就是汉语声调的学习,因为汉语声调的变化要比重音复杂的多。为了解决汉语声调学习的问题,有学者提出了各种针对性的声调教学方法,但往往只有经过训练的对外汉语教师才能掌握这种教学方法,学生自学手段有限。
上世纪九十年代以来,计算机辅助语言学习(CALL)的研究取得了较大进展,语音处理技术被广泛的用到了计算机辅助语言学习(CALL)系统中,其中语音识别被广泛用于学习者的发音水平检测和评估,语音合成以及语音的感知和理解技术被用于学习系统的反馈和指导,以及一些特定语音和韵律的学习。
目前,国内外对于CALL的研究更集中在发音质量评价和发音错误检测,一般是基于语音识别的技术,结合语音学知识,针对不同语言设计特定的测评和检测算法。检测算法大都是基于隐马尔可夫模型(HMM)框架的,取得了很好的评测效果。但对于汉语声调的学习,仍存在一个亟待解决的问题,即反馈学习问题。目前大多数系统的反馈指导还是基于事先录制好的标准语音或标准合成语音的简单指导,并没有考虑到学生的语言背景和所学语言的特点,做到因材施教。
例如,在CALL系统中,一般是直接给出一个正确的标准发音,学习者通过比对自身发音和标准发音之间的区别,训练自己的声调发音;或者是提供给发音者基频曲线的对比,让其根据曲线纠正发音问题;或者是在决策树中给出一些简单反馈。
也就是说,目前的汉语学习方案并未针对不同的声调偏误进行因材施教,从而也无法给汉语学习者提供较好的帮助。
发明内容
本发明实施例的主要目的在于提供一种汉语教学语音合成方法及装置,以解决现有技术中的汉语学习方案并未针对不同的声调偏误进行因材施教、从而无法给汉语学习者提供较好帮助的问题。
为了实现上述目的,本发明实施例提供一种汉语教学语音合成方法,该方法包括:获取语言学习者语音以及多个标准教师语音;根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音,其中,所述的语音参数包括:声学参数、音高、节奏信息;根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音。
根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音包括:根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型;根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音。
根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音包括:分别对所述最接近的标准教师语音与所述语言学习者语音进行音素分段;根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期;根据调整后的所述语言学习者语音的时长和基音周期、应用TD-PSOLA算法合成所述声调教学语音。
根据所述最接近的标准教师语音与所述语言学习者语音的每个对应音素段调整所述语言学习者语音的时长和基音周期包括:将所述最接近的标准教师语音的时长与所述语言学习者语音的时长的平均值确定为调整后的所述语言学习者语音的时长;将所述最接近的标准教师语音的基音周期确定为调整后的所述语言学习者语音的基音周期。
所述的节奏信息包括:一句语音中所有元音的时长加占总时长的比例;一句语音中元音时长的标准差;相邻两元音段或辅音段之间的时长差的平均值;相邻两元音段或辅音段之间的时长差占单个片段时长的比例的平均值。
本发明实施例还提供一种汉语教学语音合成装置,所述装置包括:语音获取单元,用于获取语言学习者语音以及多个标准教师语音;最接近标准教师语音选择单元,用于根据语音参数从所述多个标准教师语音中选择与所述语言学习者语音最接近的标准教师语音,其中,所述的语音参数包括:声学参数、音高、节奏信息;声调教学语音合成单元,用于根据所述最接近的标准教师语音与所述语言学习者语音合成声调教学语音。
所述最接近标准教师语音选择单元包括:高斯混合模型训练模块,用于根据语音参数分别对每个标准教师语音、以及所述语言学习者语音训练高斯混合模型;最接近标准教师语音选择模块,用于根据得到的高斯混合模型选择与所述语言学习者语音最接近的标准教师语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210207692.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:蓄电池极群极耳整理装置
- 下一篇:电动洗衣装置及其操作方法