[发明专利]自适应语音合成方法、装置、可读存储介质及计算设备有效
申请号: | 201910661648.6 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110379407B | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 殷昊 | 申请(专利权)人: | 出门问问(苏州)信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/30 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 田恩涛;柯宏达 |
地址: | 215123 江苏省苏州市工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 语音 合成 方法 装置 可读 存储 介质 计算 设备 | ||
本公开实施例提供了一种自适应语音合成方法、装置、可读存储介质及计算设备,用于在仅有少量的且发音质量不高的语音数据的条件下,合成效果不错的说话人语音。方法包括:获取基础语音数据和基础语音数据对应的文本数据;根据基础语音数据和基础语音数据对应的文本数据,训练基础语音模型;获取说话人的语音数据和说话人的语音数据对应的文本数据;根据说话人的语音数据和说话人的语音数据对应的文本数据,以及基础语音模型,训练GRU语音模型;当接收到语音合成指令时,根据GRU语音模型和指令包含的文字信息,合成说话人的语音。
技术领域
本公开涉及语音处理技术领域,尤其涉及一种自适应语音合成方法、装置、可读存储介质及计算设备。
背景技术
语音合成是指计算机自动根据文本生成相应语音的技术。目前的语音合成系统需要使用大量的且高质量(需要专业录音设备进行录制)数据,而收集这些数据会耗费大量的人力和财力。此外,每增加一个新的说话人,都需要到录音棚录制一批新的数据。
如何在仅有少量的且发音质量不高的语音数据的条件下,合成效果不错的说话人语音,是亟待解决的技术问题。
发明内容
为此,本公开提供了一种自适应语音合成方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本公开实施例的一个方面,提供了一种自适应语音合成方法,包括:
获取基础语音数据和基础语音数据对应的文本数据;
根据基础语音数据和基础语音数据对应的文本数据,训练基础语音模型;
获取说话人的语音数据和说话人的语音数据对应的文本数据;
根据说话人的语音数据和说话人的语音数据对应的文本数据,以及基础语音模型,训练GRU语音模型;
当接收到语音合成指令时,根据GRU语音模型和指令包含的文字信息,合成说话人的语音。
可选地,根据说话人的语音数据和说话人的语音数据对应的文本数据,以及基础语音模型,训练GRU语音模型,包括:
根据说话人的语音数据和说话人的语音数据对应的文本数据,确定说话人的声学特征和音素特征;
根据说话人的声学特征和音素特征,以及所述基础语音模型,训练GRU语音模型。
可选地,确定说话人的音素特征,包括:
根据预设的语音识别模型处理说话人的语音数据和说话人的语音数据对应的文本数据,得到说话人的音素的时长对齐信息;
根据说话人的音素的时长对齐信息和说话人的语音数据对应的文本数据,确定说话人的音素特征。
可选地,确定说话人的声学特征和音素特征之前,还包括:
对说话人的语音数据作预处理。
可选地,预处理包括:
降噪和/或去混响。
可选地,方法还包括:
验证说话人的语音数据和说话人的语音数据对应的文本数据一一对应。
可选地,根据说话人的声学特征和音素特征,以及基础语音模型,训练GRU语音模型,包括:
根据基础语音模型初始化GRU语音模型;
将音素特征和声学特征处理为GRU语音模型所需格式,并输入GRU语音模型,完成GRU语音模型训练。
根据本公开实施例的又一个方面,提供了一种自适应语音合成装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问(苏州)信息科技有限公司,未经出门问问(苏州)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661648.6/2.html,转载请声明来源钻瓜专利网。