[发明专利]一种语音合成方法、系统及装置在审
申请号: | 202011373946.4 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112530401A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 叶俊杰;王伦基;胡玉针;李权;成秋喜;李嘉雄;朱杰;高翠;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/18;G10L25/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 系统 装置 | ||
1.一种语音合成方法,其特征在于,包括:
获取混合数据集,所述混合数据集包括多个说话人及多种语言的语音样本;
将所述混合数据集的每个说话人进行编号;
根据所述混合数据集获取混合文本;
获取所述混合文本的发音编码;
根据所述混合文本的语言种类,确定语言编码;
根据获取到的指定说话人编号,确定说话人编码;
根据所述发音编码、所述语言编码以及所述说话人编码,确定指定语音信息,所述指定语音信息为指定说话人的主语言和其他语言混合的语音信息。
2.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述发音编码、所述语言编码以及所述说话人编码,确定指定语音信息,具体为:
将所述发音编码、所述语言编码以及所述说话人编码进行拼接,得到拼接结果,并根据所述拼接结果解码,确定指定语音信息;
或者,
获取所述混合文本的语言种类数量;
对所述发音编码进行编码拓展,得到若干所述发音编码,所述发音编码的数量与所述语言种类数量一致;
根据所述语言编码,以及层数与所述发音编码数量一致的全连接层,控制若干所述发音编码与所述说话人编码进行拼接,得到所述拼接结果,并将所述拼接结果解码,确定指定语音信息。
3.根据权利要求1所述的语音合成方法,其特征在于,所述获取所述混合文本的发音编码,包括:
对所述混合文本进行分句处理,并进行标点符号转换;
对所述混合文本进行分词处理,并在所述混合文本中的任意相邻两个词语之间添加分隔符;
将所述混合文本中的缩写词语转换为完整词语;
将所述混合文本中的字符转换成与字符列表相应的小写字母或者大写字母;
将所述混合文本中的数字转换成以所述主语言表达的形式;
根据混合语言发音规则,确定所述混合文本的发音,得到所述混合文本和所述混合文本发音的混合序列;
将所述混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络,得到所述发音编码。
4.根据权利要求3所述的语音合成方法,其特征在于,所述在所述混合文本中的任意相邻两个词语之间添加分隔符,包括:
在所述混合文本中的任意相邻两个词语之间添加不同分隔符;其中,分隔符种类表征所述混合文本的语言种类;
或者,
在所述混合文本中的任意相邻两个词语之间添加相同的分隔符;
根据所述分词处理后的混合文本以及所述相同的分隔符,获得配对信息;其中,所述配对信息表征所述混合文本的语言种类;
向所述混合文本中加入所述配对信息。
5.根据权利要求3所述的语音合成方法,其特征在于,所述根据混合语言发音规则,确定所述混合文本的发音,得到所述混合文本和所述混合文本发音的混合序列,还包括:
获取一个随机数;所述随机数的数值范围为0到1;
当所述随机数大于预设的概率阈值,则将当前单词以指定形式进行发音标注,并输入所述混合序列。
6.根据权利要求1所述的语音合成方法,其特征在于,所述方法还包括:
根据所述混合数据集获取声音频谱;
利用多层2维卷积神经网络和多层循环神经网络,对所述声音频谱进行残差编码,得到风格编码;
根据所述发音编码、所述语言编码、所述说话人编码以及所述风格编码,确定指定语音信息。
7.根据权利要求1所述的语音合成方法,其特征在于,所述方法还包括:
将所述发音编码输入梯度逆转层以及全连接层进行关于说话人分类的对抗训练,并提取与说话人信息无关的发音编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011373946.4/1.html,转载请声明来源钻瓜专利网。