[发明专利]语音合成方法、系统、终端设备和可读存储介质在审

申请号：	201910515578.3	申请日：	2019-06-14
公开（公告）号：	CN110335587A	公开（公告）日：	2019-10-15
发明（设计）人：	彭话易;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02;G10L25/30
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	李玉琦;曹素云
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	真人录音韵律可读存储介质文本数据文本向量语音合成终端设备语音合成建模概率生成目标语音全局条件向量生成高保真自然度向量
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种语音合成方法、系统、终端设备和可读存储介质，通过获取文本数据和真人录音，并根据所述文本数据生成文本向量，再对真人录音所具有的韵律进行建模以生成韵律向量；然后结合所述文本向量和所述韵律向量生成目标语音，从而实现将真人录音中的韵律转移到合成的语音中。同时，本发明还通过真人录音中的韵律进行建模，并基于全局条件概率生成的方法，使合成的语音与输入的真人录音具有更为相似的韵律，进一步使合成语音具有高保真和高自然度的效果。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音语义领域，具体涉及一种语音合成方法、系统、终端设备和可读存储介质。

背景技术

随着科技的发展，机器已经可以通过语音合成技术进行说话。所谓的语音合成技术，也被称为文语转换技术(Text to Speech,TTS)，其目标是让机器通过识别和理解，把文本信息变成人造语音输出，是现代人工智能发展的重要分支。语音合成能够在质量检测、机器问答、残障辅助等领域发挥极大作用，方便人们的生活。

然而，现有的机器所能合成语音往往具有固定的模式，生成的语音在韵律方面较为生硬，与真人具有明显的差异，因此在某些对合成语音的拟人度要求比较高的场景下(如：智能外呼)，终端用户往往不能接受如此生硬的韵律。所以，目前急需一种基于深度学习的语音合成方法。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种语音合成方法、系统、终端设备和可读存储介质，其能够将真人录音中的韵律转移到合成的语音中，实现对合成语音保真程度的提升。

为了实现上述目的，本发明第一方面提供了一种语音合成方法，包括：

获取文本数据，并根据所述文本数据生成文本向量；

获取真人录音，并对真人录音所具有的韵律进行建模以生成韵律向量；

结合所述文本向量和所述韵律向量生成梅尔语谱图；

根据所述梅尔语谱图生成目标语音。

本方案中，获取文本数据，并将所述文本数据生成文本向量，包括：

获取汉字数据，并对所述汉字数据进行分词处理；

将分词处理后的汉字数据转译为带有声调的汉语拼音；

将转译得到的带有声调的汉语拼音转换为一维向量数据；