[发明专利]一种波形拼接语音合成的选音方法有效

申请号：	201310481306.9	申请日：	2013-10-15
公开（公告）号：	CN103531196A	公开（公告）日：	2014-01-22
发明（设计）人：	陶建华;张冉;温正棋	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L13/02	分类号：	G10L13/02
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种波形拼接语音合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及智能信息处理领域，尤其涉及一种波形拼接语音合成的选音方法。

背景技术

语音作为人类交流信息的主要手段之一，语音合成技术主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。随着语料库的不断增大，候选基元的数量也在不断增长，如何根据输入文本，选择出最佳的基元进行拼接，越来越受到关注。

基于隐马尔可夫模型的参数语音合成系统和基于基元选取的拼接系统是近十几年最主流的语音合成技术，而混合语音合成系统结合了二者的优势，采用了前者训练出的声学模型来指导基元选取，从而选出更加合适的基元进行拼接。这种混合语音合成系统的选音方法比传统拼接方法更加的稳定，而且人工干预更少，但仍存在着很多的不足，主要表现在以下几点：

1、选音方法并没有体现人耳的感知作用，在现有选音方法中得一个高分，并不意味着选出了更适合人听觉的语音；

2、选音方法采用了因素加权叠加的方法进行选音，即将基元的各个特征分别计算子代价，然后分别给予权重，再叠加成为一个总的选音代价来选音，该方法假定所有因素对基元的接受度的影响是线性叠加的，这显然不符合事实。

发明内容

为解决上述的一个或多个问题，本发明提供了一种波形拼接语音合成的选音方法。该方法结合了人的主观听觉感受，能选出最适合人耳听感的基元，最终拼接出较好的语音。

本发明提供的波形拼接语音合成的选音方法包括以下步骤：

对原始音库进行参数提取，并结合相应文本标注信息，进行基于隐马尔可夫的模型训练；输入若干训练文本，进行文本分析，利用决策树搜索相关模型，并利用参数生成算法合成对应目标语音，并进行音节的切分，获取目标音节；人工评判合成音节语音与其候选基元语音的相似度来作为分类属性，同时计算候选基元各声学参数的在当前模型下的似然概率，作为输入的特征向量，从而训练出一个相似度分类器；给定任意待合成文本，使用分类器剔除不相似的候选基元，对剩余的候选基元，利用拼接代价最小原则选择最佳基元，最后拼接出合成语音。

从上述技术方案可以看出，本发明波形拼接语音合成的选音方法具有以下有益效果：

（1）与参数合成的音节相似的基元，有与之相同的重音和语调，采用这种标准选出的语音来进行拼接，可以得到兼备稳定性和一致性的语音；

（2）与参数合成的音节相似的基元，也更容易拼接，因为它们在边界处的特征更加趋于一致，不需要或仅需要很少的平滑，从而保证了原始语音的平滑和自然；

（3）在选音中引入了人的主观听感因素，使选音结果更适合人的主观喜好。

附图说明

图1为根据本发明一实施例的波形拼接语音合成的选音方法流程图；

图2为根据本发明一实施例的声学模型训练流程；

图3为根据本发明一实施例的隐马尔可夫训练流程图；

图4为根据本发明一实施例的目标音节的生成流程图；

图5为根据本发明一实施例的分类器训练流程图；

图6为根据本发明一实施例的根据分类器选音的流程图。

具体实施方式