[发明专利]一种波形拼接语音合成的选音方法有效
申请号: | 201310481306.9 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103531196A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 陶建华;张冉;温正棋 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 波形 拼接 语音 合成 方法 | ||
技术领域
本发明涉及智能信息处理领域,尤其涉及一种波形拼接语音合成的选音方法。
背景技术
语音作为人类交流信息的主要手段之一,语音合成技术主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。随着语料库的不断增大,候选基元的数量也在不断增长,如何根据输入文本,选择出最佳的基元进行拼接,越来越受到关注。
基于隐马尔可夫模型的参数语音合成系统和基于基元选取的拼接系统是近十几年最主流的语音合成技术,而混合语音合成系统结合了二者的优势,采用了前者训练出的声学模型来指导基元选取,从而选出更加合适的基元进行拼接。这种混合语音合成系统的选音方法比传统拼接方法更加的稳定,而且人工干预更少,但仍存在着很多的不足,主要表现在以下几点:
1、选音方法并没有体现人耳的感知作用,在现有选音方法中得一个高分,并不意味着选出了更适合人听觉的语音;
2、选音方法采用了因素加权叠加的方法进行选音,即将基元的各个特征分别计算子代价,然后分别给予权重,再叠加成为一个总的选音代价来选音,该方法假定所有因素对基元的接受度的影响是线性叠加的,这显然不符合事实。
发明内容
为解决上述的一个或多个问题,本发明提供了一种波形拼接语音合成的选音方法。该方法结合了人的主观听觉感受,能选出最适合人耳听感的基元,最终拼接出较好的语音。
本发明提供的波形拼接语音合成的选音方法包括以下步骤:
对原始音库进行参数提取,并结合相应文本标注信息,进行基于隐马尔可夫的模型训练;输入若干训练文本,进行文本分析,利用决策树搜索相关模型,并利用参数生成算法合成对应目标语音,并进行音节的切分,获取目标音节;人工评判合成音节语音与其候选基元语音的相似度来作为分类属性,同时计算候选基元各声学参数的在当前模型下的似然概率,作为输入的特征向量,从而训练出一个相似度分类器;给定任意待合成文本,使用分类器剔除不相似的候选基元,对剩余的候选基元,利用拼接代价最小原则选择最佳基元,最后拼接出合成语音。
从上述技术方案可以看出,本发明波形拼接语音合成的选音方法具有以下有益效果:
(1)与参数合成的音节相似的基元,有与之相同的重音和语调,采用这种标准选出的语音来进行拼接,可以得到兼备稳定性和一致性的语音;
(2)与参数合成的音节相似的基元,也更容易拼接,因为它们在边界处的特征更加趋于一致,不需要或仅需要很少的平滑,从而保证了原始语音的平滑和自然;
(3)在选音中引入了人的主观听感因素,使选音结果更适合人的主观喜好。
附图说明
图1为根据本发明一实施例的波形拼接语音合成的选音方法流程图;
图2为根据本发明一实施例的声学模型训练流程;
图3为根据本发明一实施例的隐马尔可夫训练流程图;
图4为根据本发明一实施例的目标音节的生成流程图;
图5为根据本发明一实施例的分类器训练流程图;
图6为根据本发明一实施例的根据分类器选音的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
图1为根据本发明一实施例的波形拼接语音合成的选音方法流程图,如图1所示,该选音方法包括以下步骤:
步骤S1,基于从音频数据库中提取得到的原始音频进行基于隐马尔可夫的模型训练,得到声学模型集以及对应的特征决策树;
如图2所示,所述步骤S1进一步包括以下步骤:
步骤S11,获取音频数据库中的原始音频;
步骤S12,对于所述原始音频按帧进行频谱参数和基频参数的提取;
所述步骤S12进一步包括以下步骤:
步骤S121,将所述原始音频进行分帧加窗处理;
分帧加窗为现有技术中常用的音频处理技术,在此不作赘述。
步骤S122,对处理得到的每帧音频比如用STRAIGHT算法提取其梅尔倒谱系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310481306.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电性连接装置
- 下一篇:多屏幕集成显示系统带宽调整设备及其调整方法