[发明专利]基于前端设计的语音合成方法在审
申请号: | 201811182292.X | 申请日: | 2018-10-11 |
公开(公告)号: | CN109285535A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 王昆 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/03 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 李凌峰 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言学特征 声学特征 语音合成 中文文本 时长信息 和声学 时长 预处理 合成 技术方案要点 语音合成技术 数据依赖性 合成效果 声学模型 特征训练 音频数据 音频文件 声码器 调用 文本 | ||
1.基于前端设计的语音合成方法,其特征在于,包括如下步骤:
步骤1、对中文文本数据进行预处理;
步骤2、提取中文文本相关的语言学特征;
步骤3、提取音频文件的至少两个声学特征;
步骤4、根据语言学特征和声学特征训练时长模型和声学模型;
步骤5、对需要合成的中文文本作步骤1及步骤2处理后,调用步骤4中得到的时长模型得到文本对应的时长信息,再结合语言学特征和时长信息,作为声学模型的输入,得到相应的声学特征;
步骤6、对步骤5中得到的声学特征采用声码器合成对应的音频数据。
2.根据权利要求1所述的基于前端设计的语音合成方法,其特征在于,步骤1中,所述对中文文本数据进行预处理具体是指:对中文文本中的特殊字符及数字解析为中文文本,并将解析成的中文文本转为带有声调的拼音。
3.根据权利要求2所述的基于前端设计的语音合成方法,其特征在于,步骤2具体包括如下步骤:
步骤201、将所述拼音根据自定义的字典拆分为相应的音素;
步骤202、提取音频文件的一个声学特征;
步骤203、根据音素和该声学特征训练hmm模型,对音素进行强制对齐,得到每个音素对应的音频时长信息;
步骤204、定义上下文标注N项,根据定义的上下文标注,得出每个音素对应于标注项的特征值,从而得到一个N维的特征向量,并定义问题集M项;
步骤205、遍历训练文本集中的所有三个单词的组合,统计所有三个单词组合中,中间单词左右单词各出现的次数,组成矩阵,求该矩阵的特征值和特征向量,取前K个特征值和特征向量,所有单词组合在该空间上进行投影,最终每个单词组合都将得到K维的向量表示;
步骤206、将步骤204及步骤205得到的特征进行组合,每个音素都将得到N+M+K维特征,即为最终所求的语言学特征。
4.根据权利要求3所述的基于前端设计的语音合成方法,其特征在于,步骤202中,所述声学特征是指mfcc特征。
5.根据权利要求3所述的基于前端设计的语音合成方法,其特征在于,步骤203中,采用state alignment的方式进行状态级对齐。
6.根据权利要求1所述的基于前端设计的语音合成方法,其特征在于,步骤3中,所述声学特征包括mfcc特征、f0特征及bap特征。
7.根据权利要求1或3或6所述的基于前端设计的语音合成方法,其特征在于,步骤4中,训练时长模型时,结合问题集和步骤206中提取的N+M+K维特征,得到最后的特征,再对该特征进行归一化处理,归一化后的特征作为深度学习模型的输入,强制对齐后每个音素的时长作为输出,训练时长深度模型;
训练声学模型时,结合问题集和步骤206中提取的N+M维特征和音素的时长,作为深度学习模型的输入,步骤3中得到的至少两个声学特征作为深度学习模型的输出,从而训练出声学模型。
8.根据权利要求7所述的基于前端设计的语音合成方法,其特征在于,所述深度学习模型采用DNN或LSTM网络。
9.根据权利要求1所述的基于前端设计的语音合成方法,其特征在于,步骤6具体为:将步骤5中得到的声学特征拆分为mfcc特征、f0特征及bap特征,并对拆分成的每一部分进行数据处理,然后调用声码器,得到最终合成的语音数据。
10.根据权利要求1或9所述的基于前端设计的语音合成方法,其特征在于,所述声码器为world或straight。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811182292.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:吸声装置
- 下一篇:一种语音特效合成方法、装置、电子设备及存储介质