[发明专利]一种语音合成方法、系统及装置在审
申请号: | 202011373946.4 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112530401A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 叶俊杰;王伦基;胡玉针;李权;成秋喜;李嘉雄;朱杰;高翠;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/18;G10L25/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 系统 装置 | ||
本发明公开了一种语音合成方法、系统及装置,其中所述方法包括:获取包含混合数据集,并获取混合文本;根据混合文本获取发音编码,根据混合文本中包含的语言种类确定语言编码;将混合数据集中的说话人进行编号,获取指定说话人编号并根据指定说话人编号确定说话人编码;根据所述发音编码、所述语言编码以及所述说话人编码,解码还原指定说话人主语言和其他语言混合的语音信息。本申请实施例能够在指定说话人提供一种语言语音数据时,就能合成指定说话人其他语言的语音。本申请可广泛应用于语音处理技术领域。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音合成方法、系统及装置。
背景技术
目前不同民族、国家、地域的语言文化存在较大差异,无法做到全球语言统一,因此从不同国家产出的音视频文件必然是跨语种的,这使得信息在交流中遇到较大障碍,为此,现有技术提出一些视频翻译方法,在视频的处理过程中,通过语音合成技术将视频中人说的话,转换为另外一种指定的语言并说出来,声音与原说话人一致。然而,目前的语音合成技术支持多种语言并非易事,此外,收集双语者的录音的成本也很昂贵。因此,最常见的情况是语言合成模型的样本中的每个说话者只说一种语言,所以说话者的身份与语言是完全相关的,这使得不同语言之间语音转换变得困难。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种语音合成方法、系统及装置,可以利用一种语言语音数据就能合成说话人其他语言的语音。
第一方面,本申请实施例提供了一种语音合成方法,包括:获取混合数据集,所述混合数据集包括多个说话人及多种语言的语音样本;将所述混合数据集的每个说话人进行编号;根据所述混合数据集获取混合文本;获取所述混合文本的发音编码;根据所述混合文本的语言种类,确定语言编码;根据获取到的指定说话人编号,确定说话人编码;根据所述发音编码、所述语言编码以及所述说话人编码,确定指定语音信息,所述指定语音信息为指定说话人的主语言和其他语言混合的语音信息。
可选地,所述根据所述发音编码、所述语言编码以及所述说话人编码,确定指定语音信息,具体为:将所述发音编码、所述语言编码以及所述说话人编码进行拼接,得到拼接结果,并根据所述拼接结果解码,确定指定语音信息;或者,获取所述混合文本的语言种类数量;对所述发音编码进行编码拓展,得到若干所述发音编码,所述发音编码的数量与所述语言种类数量一致;根据所述语言编码,以及层数与所述发音编码数量一致的全连接层,控制若干所述发音编码与所述说话人编码进行拼接,得到所述拼接结果,并将所述拼接结果解码,确定指定语音信息。
可选地,所述获取所述混合文本的发音编码,包括:对所述混合文本进行分句处理,并进行标点符号转换;对所述混合文本进行分词处理,并在所述混合文本中的任意相邻两个词语之间添加分隔符;将所述混合文本中的缩写词语转换为完整词语;将所述混合文本中的字符转换成与字符列表相应的小写字母或者大写字母;将所述混合文本中的数字转换成以所述主语言表达的形式;根据混合语言发音规则,确定所述混合文本的发音,得到所述混合文本和所述混合文本发音的混合序列;将所述混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络,得到所述发音编码。
可选地,所述在所述混合文本中的任意相邻两个词语之间添加分隔符,包括:在所述混合文本中的任意相邻两个词语之间添加不同分隔符;其中,分隔符种类表征所述混合文本的语言种类;或者,在所述混合文本中的任意相邻两个词语之间添加相同的分隔符;根据所述分词处理后的混合文本以及所述相同的分隔符,获得配对信息;其中,所述配对信息表征所述混合文本的语言种类;向所述混合文本中加入所述配对信息。
可选地,所述根据混合语言发音规则,确定所述混合文本的发音,得到所述混合文本和所述混合文本发音的混合序列,还包括:当所述混合文本中包括英文单词:获取一个随机数;所述随机数的数值范围为0到1;当所述随机数大于预设的概率阈值,则将当前单词以指定形式进行发音标注,并输入所述混合序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011373946.4/2.html,转载请声明来源钻瓜专利网。