[发明专利]一种自适应语音合成方法及装置有效
| 申请号: | 202010167018.6 | 申请日: | 2020-03-11 |
| 公开(公告)号: | CN111429878B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 贺来朋 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
| 代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
| 地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自适应 语音 合成 方法 装置 | ||
1.一种自适应语音合成方法,其特征在于,包括以下步骤:
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音;
所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:
提取预处理之后的当前语音的声学特征参数;
提取目标录音文本内容中的上下文相关联的第一语言学信息;
根据所述声学特征参数和所述第一语言学信息生成训练数据;
利用所述训练数据对所述训练后的预设神经网络模型进行二次训练;
在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:
获取所述当前录音中的每一句语音;
去除所述每一句语音中超过预设时长的静音段;
对所述每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用所述目标录音文本对应的标注;
否则,提醒用户所述预处理之后的当前语音不满足需求;
检测预处理之后的当前语音是否完整的步骤为:若发现处理之后的当前语音中有插入错误或删除错误,则提示用户该条录音质量不满足需求,用户选择重复当前文本或者切换一条新文本重新录音,若没有插入和删除错误,但是有替换错误,则接收该条语音,并使用识别器识别出的文本替换原始录音文本来生成标注,若同时没有插入和删除错误以及替换错误,则使用原始录音文本对应的标注。
2.根据权利要求1所述自适应语音合成方法,其特征在于,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
基于所述目标录音文本,接收用户的当前录音。
3.根据权利要求1所述自适应语音合成方法,其特征在于,所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音,包括:
获取所述待合成文本的第二语言学信息;
将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数;
根据所述语音特征参数获取静态语音参数;
将所述静态语音参数输入到合成器中进行合成;
合成完毕后输出合成语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167018.6/1.html,转载请声明来源钻瓜专利网。





