[发明专利]一种模拟用户说话的语音合成方法及系统在审

申请号：	201711080690.6	申请日：	2017-11-06
公开（公告）号：	CN107833572A	公开（公告）日：	2018-03-23
发明（设计）人：	孟猛	申请（专利权）人：	芋头科技（杭州）有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/033;G10L13/04;G10L15/26;G10L15/02
代理公司：	上海申新律师事务所31272	代理人：	党蕾
地址：	310000 浙江省杭州市余杭区***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模拟用户说话语音合成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音合成技术领域，尤其涉及一种模拟用户说话的语音合成方法及系统。

背景技术

随着语音识别和语音合成技术的日渐发展，越来越多具有趣味性的语音模拟应用进入人们的娱乐生活。语音模拟应用的作用主要为模仿用户说话，即用户说一句话，语音模拟应用可以直接对用户的语音进行变声处理再输出，以达到“学舌”的娱乐目的。

现有的语音模拟应用通常只是对用户输入的语音进行简单的变换处理就输出来达到模拟用户说话的目的。例如对于不同音色的声音输入，语音模拟应用会进行相同的变换(例如对基频、音色或者语速进行简单的变换处理)，所得到的声音音色仍然是各不相同的，这样的后果是应用本身的音色没有一致性，给用户的体验就像面对一面镜子的感觉，

发明内容

根据现有技术中存在的上述问题，现提供一种模拟用户说话的语音合成方法及系统的技术方案，旨在体现语音模拟应用的音色一致性，突出应用本身的个性特点，同时提供给用户更有特色的合成语音，提升用户的使用体验。

上述技术方案具体包括：

一种模拟用户说话的语音合成方法，其中，包括：

步骤S1，获取外部输入的一段待模拟语音；

步骤S2，将所述待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本；

步骤S3，根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息；

步骤S4，将所述发音文本和所述发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中，以得到对应于所述待模拟语音的合成语音并输出。

优选的，该语音合成方法，所述步骤S3中，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

优选的，该语音合成方法，其中，所述步骤S3中，采用维特比方法分别处理得到每个所述基本音子的所述发音时段信息。

优选的，该语音合成方法，其中，所述步骤S1中，在获取所述待模拟语音时，获取所述待模拟语音的基频信息；

则所述步骤S4中，将所述待模拟语音的所述基频信息作为所述语音合成器的基频信息，以处理得到所述合成语音。

优选的，该语音合成方法，其中，所述步骤S4中，采用所述语音合成器中预设的音色处理得到所述合成语音。

一种模拟用户说话的语音合成系统，其中，包括：

语音获取单元，用于获取外部输入的一段待模拟语音；

语音识别单元，连接所述语音获取单元，用于将所述待模拟语音识别为对应的发音文本，所述发音文本中包括多个顺序排列的基本音子；

处理单元，连接所述语音识别单元，用于根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息；

合成单元，分别连接所述处理单元和所述语音获取单元，所述合成单元中预先训练形成一语音合成模型，所述合成单元用于将所述发音文本和所述发音时段信息所述语音合成模型中，以得到对应于所述待模拟语音的合成语音并输出。

优选的，该语音合成系统，其中，所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。

优选的，该语音合成系统，其中，所述语音获取单元具体包括：

第一获取模块，用于获取所述待模拟语音；

第二获取模块，连接所述第一获取模块，用于获取所述待模拟语音的基频信息；

则所述合成单元将所述待模拟语音的所述基频信息作为在所述语音合成模型中进行语音合成时应用的基频信息，以处理得到所述合成语音。

优选的，该语音合成系统，其中，所述合成单元为语音合成器。

优选的，该语音合成系统，其中，于所述语音合成器中预先设置有用于形成预设的音色的合成器参数；

所述合成单元采用所述合成器参数，以所述预设的音色处理得到所述合成语音。

上述技术方案的有益效果是：

1)提供一种模拟用户说话的语音合成方法，能够体现语音模拟应用的音色一致性，突出应用本身的个性特点，同时提供给用户更有特色的合成语音，提升用户的使用体验。

2)提供一种模拟用户说话的语音合成系统，能够支持实现上述语音合成方法。

附图说明

图1是本发明的较佳的实施例中，一种模拟用户说话的语音合成方法的总体流程示意图；

图2是本发明的较佳的实施例中，一种模拟用户说话的语音合成方法的总体结构示意图；

图3是本发明的较佳的实施例中，于图2的基础上，语音获取单元的具体结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于芋头科技（杭州）有限公司，未经芋头科技（杭州）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711080690.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种住宅级阻抗结合式消声器
下一篇：一种基于机器学习的家庭场景语义理解辅助方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种模拟用户说话的语音合成方法及系统在审

专利文献下载