[发明专利]用于波形拼接语音合成的选音方法和装置有效

申请号：	201610035220.7	申请日：	2016-01-19
公开（公告）号：	CN105719641B	公开（公告）日：	2019-07-30
发明（设计）人：	张辉;李秀林	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L13/10	分类号：	G10L13/10;G10L13/033
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于波形拼接语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种用于波形拼接语音合成的选音方法和装置，该用于波形拼接语音合成的选音方法包括：获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；获取预先生成的机器学习模型；根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选音子波形片断。该方法能够提高语音合成时的预选效果。

技术领域

本发明涉及语音合成技术领域，尤其涉及一种用于波形拼接语音合成的选音方法和装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，解决的主要问题是如何将文字信息转化为可听的声音信息。

在语音合成时，需要先对输入的文本进行前端处理，再进行声学参数预测得到声学参数，最后利用声学参数直接通过声码器合成声音，或者从音库中挑选单元进行波形拼接。相对于声码器合成的声音，基于波形拼接的合成声音有更高的音质，以及更好保持了原发音人的风格。

在构建基于波形拼接的语音合成系统过程中，相关技术中，通常是先根据标注信息获取候选音子波形片断，再在候选音子波形片断中进行一系列的预选，包括：时长预选、韵律位置预选、上下文预选、Kullback-Leibler距离 (KLD)预选和邻居预选等，之后再从预选得到的波形片断中选择出最优音子波形片断序列，之后根据最优音子波形片断序列拼接合成得到合成语音。

相关技术中的上述方案会存在如下问题：

(1)各个预选过程相互独立，没有把这些信息综合起来充分考虑，因此难以取得很好的预选效果；

(2)上述预选过程需要调整阈值和权重，而调整阈值和权重的工作需要大量的细致的人工工作，容易顾此失彼，针对一个音库调整好阈值和权重后，换一个音库往往需要重新调整这些参数；

(3)需要进行多步预选，计算量较大(特别是KLD预选)；

(4)该方法的工程实现较为繁琐，涉及到大量参数的维护，代码复杂度高，较难维护。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种用于波形拼接语音合成的选音方法，该方法可以提高语音合成时预选音子的预选效果。

本发明的另一个目的在于提出一种用于波形拼接语音合成的选音装置。

为达到上述目的，本发明第一方面实施例提出的用于波形拼接语音合成的选音方法，包括：获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；获取预先生成的机器学习模型；根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选音子波形片断。

本发明第一方面实施例提出的用于波形拼接语音合成的选音方法，通过采用机器学习模型进行预选，可以将各种信息综合起来考虑，从而提高语音合成时的预选效果。

为达到上述目的，本发明第二方面实施例提出的用于波形拼接语音合成的选音装置，包括：第一获取模块，用于获取标注信息，所述标注信息是对待合成文本进行前端处理后得到的；第二获取模块，用于获取预先生成的机器学习模型；预选模块，用于根据所述标注信息和所述机器学习模型进行机器学习预选，得到候选音子波形片断。