[发明专利]语音合成方法、装置、计算机设备及存储介质在审

申请号：	202110742575.0	申请日：	2021-06-30
公开（公告）号：	CN113421549A	公开（公告）日：	2021-09-21
发明（设计）人：	陈小建;陈闽川;马骏;王少军;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/06
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	周雷
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音合成方法、装置、计算机设备及存储介质，其中方法包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。本发明能够缩短固定话术和变量话术之间的停顿时间，使得语音效果更好。

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

TTTS(Text-To-Speech)系统是语音合成系统，主要功能是将文本转换成将文字转换为语音，为用户提供语音合成服务。目前，市面上主流的TTS系统是基于参数式方式合成，拟人化程度差，效果机械。

为了解决拟人化程度差，效果机械的问题，目前业界提出了一些使用深度神经网络的TTS系统以提升拟人效果。但是，对于使用深度神经网络的TTS系统而言，其每次合成语音均是将所有文本内容合成为音频内容后再一次性输出，合成时间比较长，在使用GPU合成的情况下一般合成15个字符需要1秒左右，合成100个字符需要3秒左右。而针对于合成时长过长的问题，业界常用的方法是将固定的话术文本的语音提前离线合成好并放至客户端的后台，每次只需要实时合成变量部分的语音，以减少合成字符数从而缩短实时合成时间，播报话术时，如果是固定话术则直接播报后台预先存储的离线音频文件，而碰到变量则实时通过TTS合成后再进行播报，但是，通常情况下，变量长度一般在5-20个字符之间，合成需要0.5-1.2秒左右的时间，按照上述的语音合成方法则会导致固定话术和变量之间存在0.5-1.2秒的停顿，导致合成的语音效果不佳，进而还可能影响到句子的韵律，导致用户理解错句子的意思。

发明内容

本申请提供一种语音合成方法、装置、计算机设备及存储介质，以解决现有的语音合成方法合成的语音效果不佳的技术问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音合成方法，包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。

作为本申请的进一步改进，预设话术库还存储了预先配置的寒暄话术短句，寒暄话术短句的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务之前，还包括：判断待输出文本是以第一话术短句开头还是以第二话术短句开头；若是以第一话术短句开头，则执行根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务及后续步骤；若是以第二话术短句开头，则在待输出文本之前添加一个寒暄话术短句。

作为本申请的进一步改进，其还包括预先构建预设话术库，预先构建预设话术库包括：获取预先准备的话术；解析话术的语义，并根据语义利用标点符号将话术划分为第一话术短句和第二话术短句模板。

作为本申请的进一步改进，执行语音合成任务，包括：获取第二话术短句中的标点符号；根据标点符号的类型设定停顿时间并确认语音播放语气；结合停顿时间和语音播放语气将第二话术短句转换为语音信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110742575.0/2.html，转载请声明来源钻瓜专利网。

上一篇：数据查询方法、装置、设备和存储介质
下一篇：一种套筒式氨气和CO联合脱硝系统装置、方法及应用

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法、装置、计算机设备及存储介质在审

专利文献下载