[发明专利]语音合成模型训练和语音合成方法、设备及存储介质在审
| 申请号: | 202010081935.2 | 申请日: | 2020-02-06 |
| 公开(公告)号: | CN113299272A | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 曹元斌;张斌;盖于涛 | 申请(专利权)人: | 菜鸟智能物流控股有限公司 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L15/22 |
| 代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;张爱 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 模型 训练 方法 设备 存储 介质 | ||
本申请实施例提供一种语音合成模型训练和语音合成方法、设备及存储介质。在本申请实施例中,利用第一语音合成模型合成的音频样本来训练第二语音合成模型,这种模型训练方法得到的第二语音合成模型,在与第一语音合成模型配合来合成待合成文本的音频时,可使两种模型得到音频片段衔接更加自然,有助于提高合成语音的自然度和流畅度,使得两种模型配合得到的音频更像同一个人说话。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音合成模型训练和语音合成方法、设备及存储介质。
背景技术
随着人工智能技术的发展,人机对话逐渐进入人们的生活,常见的应用场景包括:智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所构建的系统框架下,根据事先训练或学习的数据,自动对用户输入的语音或文本进行理解和分析,并给出相应的语音答复。在现有技术中,机器主要语音合成技术实现语音答复。
但是,现有的语音合成技术合成的语音经常有一定的机械感,语言衔接不自然,用户体验较差。
发明内容
本申请的多个方面提供一种语音合成模型训练和语音合成方法、设备及存储介质,用以提高语音合成时语言之间的衔接的自然度,进而降低语音合成的机械感。
本申请实施例提供一种语音合成模型训练方法,包括:
获取多个文本样本;并利用第一语音合成模型,合成所述多个文本样本对应的多个音频样本;
利用所述多个文本样本及所述多个音频样本进行模型训练,以得到第二语音合成模型;
其中,所述第一语音合成模型可合成待合成文本中属于设定文本的文本片段的音频;所述第二语音合成模型可合成所述待合成文本中不属于所述设定文本的文本片段的音频。
本申请实施例还提供一种语音合成方法,包括:
获取待合成文本;
从所述待合成文本中,识别出第一文本片段和第二文本片段,所述第一文本片段对应的音频已由第一语音合成模型预先合成;
利用第二语音合成模型,合成所述第二文本片段对应的音频;所述第二语音合成模型是以所述第一语音合成模型合成的音频作为样本训练得到的;
对所述第一文本片段对应的音频和第二文本片段对应的音频进行拼接,以得到所述待合成文本的音频。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;其中,所述存储器,用于存储计算机程序;
所述处理器耦合至所述存储器,用于执行所述计算机程序以用于:
获取多个文本样本;并利用第一语音合成模型,合成所述多个文本样本对应的多个音频样本;
利用所述多个文本样本及所述多个音频样本进行模型训练,以得到第二语音合成模型;
其中,所述第一语音合成模型可合成待合成文本中属于设定文本的文本片段的音频;所述第二语音合成模型可合成所述待合成文本中不属于所述设定文本的文本片段的音频。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;其中,所述存储器,用于存储计算机程序;
所述处理器耦合至所述存储器,用于执行所述计算机程序以用于:
获取待合成文本;
从所述待合成文本中,识别出第一文本片段和第二文本片段,所述第一文本片段对应的音频已由第一语音合成模型预先合成;
利用第二语音合成模型,合成所述第二文本片段对应的音频;所述第二语音合成模型是以所述第一语音合成模型合成的音频作为样本训练得到的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于菜鸟智能物流控股有限公司,未经菜鸟智能物流控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081935.2/2.html,转载请声明来源钻瓜专利网。





