[发明专利]自动生成重读音节语音的方法和系统在审
申请号: | 201110270759.8 | 申请日: | 2011-09-14 |
公开(公告)号: | CN102436807A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 王欢良;邹平 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L15/00;G10L15/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215123 江苏省苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 生成 重读 音节 语音 方法 系统 | ||
技术领域
本发明涉及语音信号领域,具体地说,尤其是涉及一种自动生成重读音节语音的系统及方法。
背景技术
在言语交流中,为了表示强调或者引起关注,人们通常需要对语音中的某些音节进行重读。在某些语言中,重读位置的不同也会影响词语所表达的意思。此外,语言的抑扬顿挫主要依赖于重读位置和强度的控制。
当前计算机已被广泛应用于语音处理领域。计算机可以通过语音的声学特征来判断语音中重读音节的位置,也可以通过语音合成技术来生成带有重读音节的语音。语音合成技术通过预先训练的模型可以把一段文本转换成对应的语音。该合成语音的重音位置和输入文本内容直接相关,是通过文本分析确定的,如专利申请CN101223572A所述的。此外,合成的语音通常是特定人的,且自然度难以保证。而在一些实际应用场景中,需要计算机对一段输入语音进行处理,输出指定音节重读的语音。比如在计算机辅助的口语教学习系统中,对于用户发音错误的位置,需要系统播放错误位置重读的标准音来提示用户;或者系统自动生成重读位置不同的语音,让学习者来区分或者听辨不同的词。
为了控制语音的重音位置,现有方法主要是通过预先录制同一单词不同重音位置的读法,然后通过简单重组重音音素来产生音节重读的语音,如专利申请CN1474318A所述的。这种方法是非常低效,难以保证生成语音的自然度。
发明内容
为了解决上述问题,本发明公开一种自动生成重读音节语音的系统和方法。该系统可以对接收到的语音进行处理,使得任意指定音节的语音变为重读,而不影响原始语音的可懂度、自然度和音质。该系统可用于口语语言教学任务中,用来生成反馈指导信息或者重读听辨练习。
原理上,本发明利用预先学习得到的特征变换参数矩阵,通过对输入语音指定音节以及相关音素声学特征进行修正,然后重新合成来自动生成重读音节语音。
本发明采用如下的技术方案:
一种自动生成重读音节语音的系统,包括:
音素定位模块,用于确定接收到的语音信号中每个音素的位置,得到每个词、音节和音 素的时间边界;
特征提取模块,用于从语音信号中提取和音节重读相关的特征以及频谱特征;
特征修正模块,用于利用预先估计出的特征变换参数,把输入语音特征参数调整为对应的表示给定音节重读的特征参数,并对调整后的特征参数进行平滑处理;
语音重构模块,用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音;
特征变换参数库,用于存放统计的每个音素从非重读到重读的声学特征的变换矩阵参数。
以及一种自动生成重读音节语音的方法,包括如下步骤:
步骤1、通过语音识别技术获得输入语音的词、音节以及音素的时间边界;
步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征;
步骤3、根据音素类型和相对重读音节的位置,从特征变换参数库中获取每个音素对应的特征变换矩阵,通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量:
其中:Vi(xp)表示输入语音中音素xp的第i个特征向量,p表示音素x相对于重读音节的位置类型,A(xp)表示位置类型为p的音素x的变换矩阵, 表示位置类型为p的音素x的第i个特征向量变换后的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110270759.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:香蕉茎秆有机肥及其制备方法
- 下一篇:一种电源模块地址的采样方法及相关装置