[发明专利]一种语音合成模型训练方法和相关装置在审
申请号: | 202010960441.1 | 申请日: | 2020-09-14 |
公开(公告)号: | CN112820265A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 廖锡光 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G10L17/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 模型 训练 方法 相关 装置 | ||
本申请实施例公开一种语音合成模型训练方法和相关装置,在训练语音合成模型时,将已有的音视频作品作为训练样本,即收集音视频作品,从音视频作品中提取与第一应答角色对应的音视频片段。根据音视频片段识别第一应答角色对应的音频和音频对应的文本,进而根据音频和音频对应的文本训练得到第一应答角色对应的语音合成模型。后续可以通过第一应答角色的声音与用户进行语音交互,提高语音交互的趣味性。由于每个第一应答角色对应的语音合成模型以音视频作品为音频来源进行训练得到的,无需邀请配音人员或明星提前录制音频,降低了语音交互中所使用的语音合成模型的生成成本,提高了该模型生成的效率。
技术领域
本申请涉及人工智能领域,特别是涉及一种语音合成模型训练方法和相关装置。
背景技术
随着人工智能技术的发展,智能语音设备,例如智能手机、智能音箱、聊天机器人等逐渐被广大用户使用。用户可以通过语音与上述智能语音设备交互,使得上述智能语音设备可以根据用户发出的语音做出应答。
为了丰富语音交互,使得语音交互更加生动有趣,用户可以自定义应答角色,使得智能语音设备可以通过自定义的应答角色的声音与用户进行交互,使得用户感觉自己在与应答角色对话。目前,智能语音设备的声音都是通过配音人员或者明星提前通过标准文本的音频录入,进行模型训练,得到该人物(即应答角色)的语音合成模型,从而利用用户自定义的人物的语音合成模型合成语音,与用户进行对话。
然而,这种方式需要邀请配音人员或明星提前录制音频,以便训练语音合成模型,导致模型生成的成本太大、效率较低。
发明内容
为了解决上述技术问题,本申请提供了一种语音合成模型训练方法和相关装置,降低了语音交互中所使用的语音合成模型的生成成本,提高了该模型生成的效率。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种语音合成模型训练方法,所述方法包括:
收集音视频作品;
从所述音视频作品中提取与第一应答角色对应的音视频片段;
根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本;
根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。
第二方面,本申请实施例提供一种语音合成模型训练装置,所述装置包括收集单元、提取单元、识别单元和训练单元:
所述收集单元,用于收集音视频作品;
所述提取单元,用于从所述音视频作品中提取与第一应答角色对应的音视频片段;
所述识别单元,用于根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本;
所述训练单元,用于根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。
第三方面,本申请实施例提供一种用于语音合成模型训练的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010960441.1/2.html,转载请声明来源钻瓜专利网。