[发明专利]一种语音合成模型训练方法和相关装置在审

申请号：	202010960441.1	申请日：	2020-09-14
公开（公告）号：	CN112820265A	公开（公告）日：	2021-05-18
发明（设计）人：	廖锡光	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/047;G10L17/00
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王兆林
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成模型训练方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开一种语音合成模型训练方法和相关装置，在训练语音合成模型时，将已有的音视频作品作为训练样本，即收集音视频作品，从音视频作品中提取与第一应答角色对应的音视频片段。根据音视频片段识别第一应答角色对应的音频和音频对应的文本，进而根据音频和音频对应的文本训练得到第一应答角色对应的语音合成模型。后续可以通过第一应答角色的声音与用户进行语音交互，提高语音交互的趣味性。由于每个第一应答角色对应的语音合成模型以音视频作品为音频来源进行训练得到的，无需邀请配音人员或明星提前录制音频，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

技术领域

本申请涉及人工智能领域，特别是涉及一种语音合成模型训练方法和相关装置。

背景技术

随着人工智能技术的发展，智能语音设备，例如智能手机、智能音箱、聊天机器人等逐渐被广大用户使用。用户可以通过语音与上述智能语音设备交互，使得上述智能语音设备可以根据用户发出的语音做出应答。

为了丰富语音交互，使得语音交互更加生动有趣，用户可以自定义应答角色，使得智能语音设备可以通过自定义的应答角色的声音与用户进行交互，使得用户感觉自己在与应答角色对话。目前，智能语音设备的声音都是通过配音人员或者明星提前通过标准文本的音频录入，进行模型训练，得到该人物(即应答角色)的语音合成模型，从而利用用户自定义的人物的语音合成模型合成语音，与用户进行对话。

然而，这种方式需要邀请配音人员或明星提前录制音频，以便训练语音合成模型，导致模型生成的成本太大、效率较低。

发明内容

为了解决上述技术问题，本申请提供了一种语音合成模型训练方法和相关装置，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种语音合成模型训练方法，所述方法包括：

收集音视频作品；

从所述音视频作品中提取与第一应答角色对应的音视频片段；

根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本；

根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。

第二方面，本申请实施例提供一种语音合成模型训练装置，所述装置包括收集单元、提取单元、识别单元和训练单元：

所述收集单元，用于收集音视频作品；

所述提取单元，用于从所述音视频作品中提取与第一应答角色对应的音视频片段；