[发明专利]自动生成重读音节语音的方法和系统在审
| 申请号: | 201110270759.8 | 申请日: | 2011-09-14 |
| 公开(公告)号: | CN102436807A | 公开(公告)日: | 2012-05-02 |
| 发明(设计)人: | 王欢良;邹平 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
| 主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L15/00;G10L15/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 215123 江苏省苏州工*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动 生成 重读 音节 语音 方法 系统 | ||
1.一种自动生成重读音节语音的系统,包括:
音素定位模块,用于确定接收到的语音信号中每个音素的位置,得到每个词、音节和音素的时间边界;
特征提取模块,用于从语音信号中提取和音节重读相关的特征以及频谱特征;
特征修正模块,用于利用预先估计出的特征变换参数,把输入语音特征参数调整为对应的表示给定音节重读的特征参数,并对调整后的特征参数进行平滑处理;
语音重构模块,用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音;
特征变换参数库,用于存放统计的每个音素从非重读到重读的声学特征的变换矩阵参数。
2.如权利要求1所述的自动生成重读音节语音的系统,其中音素定位模块采用语音识别技术通过强制对齐或者网络解码来获得音素边界。
3.如权利要求1所述的自动生成重读音节语音的系统,其中所述重读相关的特征包括基音周期,声强和音素时长;所述频谱特征采用基频自适应的平滑频谱;所述重新生成的语音中指定音节的语音具有重读特性;所述变换矩阵参数包括声强和基音周期特征的变换参数和音素时长特征的变换参数。
4.如权利要求1所述的自动生成重读音节语音的系统,其中特征修正模块进行参数调整是利用预先计算的映射变换参数通过一个线性映射函数来完成。
5.一种自动生成重读音节语音的方法,包括如下步骤:
步骤1、通过语音识别技术获得输入语音的词、音节以及音素的时间边界;
步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征;
步骤3、根据音素类型和相对重读音节的位置,从特征变换参数库中获取每个音素对应的特征变换矩阵,通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量:
其中:Vi(xp)表示输入语音中音素xp的第i个特征向量,p表示音素x相对于重读音节的位置类型,A(xp)表示位置类型为p的音素x的变换矩阵,表示位置类型为p的音素x的第i个特征向量变换后的特征向量;
步骤4、根据变换后每个音素片段的时长,通过下式对每个音素的基音周期特征、声强特征和频谱特征进行线性插值:
其中:d(xp)表示位置类型为p的音素的时长,表示位置类型为p的音素重读变换后的时长,表示音素xp重读变换后的基音周期、声强和频谱特征组成的第k个特征向量,表示插值后音素xp的基音周期、声强和频谱特征组成的第i个特征向量;
步骤5、在变换之后的特征上,对相邻音素边界处的频谱特征逐帧采用长度为9的汉明窗(Hamming Window)进行插值平滑处理,对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理;
步骤6、用变换之后的特征,包括基音周期,声强和频谱特征,通过源-滤波模型重新合成语音,输出指定音节重读的语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110270759.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:香蕉茎秆有机肥及其制备方法
- 下一篇:一种电源模块地址的采样方法及相关装置





