[发明专利]一种语音合成方法和系统有效
申请号: | 202010768946.8 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111899716B | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 易中华 | 申请(专利权)人: | 北京帝派智能科技有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/08;G10L25/30;G10L19/04;G10L19/16 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 郭放;许伟群 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 系统 | ||
本申请提供了一种语音合成方法和系统,以成对设置的文本发音单元序列和语音频谱单元序列作为训练数据,能够将文本发音单元序列进行编码,得到对应的包含多个元素的编码序列;以及将编码序列中的每个元素复制目标次数,并按照各个元素在编码序列中的先后顺序对所有元素进行排列,得到扩增编码序列;以及将扩增编码序列进行解码,得到语音频谱单元预测序列,语音频谱单元预测序列与语音频谱单元序列的损失距离作为训练语音合成系统的监督信号。因此,本申请提供的技术方案,不需要对训练数据进行文本发音单元‑音频特征帧的对齐处理,并且采用了非递归的编码和解码方式,在显著简化训练工作流程的同时,提高了语音合成的准确性和效率。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语音合成方法和系统。
背景技术
语音合成是指人工合成人类语音的技术。在计算领域,语音合成可以通过软件程序和/或硬件组成的语音合成系统实现。语音合成系统一般以文本作为输入,输出文本对应的语音。通俗来说,语音合成系统可以实现让计算机像人类一样朗读文字。
目前,一些基于神经网络构建的语音合成系统在训练时需要对训练数据,例如文本以及文本对应的语音数据进行对齐标注,对齐标注过程一般通过人工或者辅助对齐工具实现,其一致性和准确性得不到保证,存在原始训练数据固有偏差,降低了语音合成系统的准确性,且该对齐处理需要一定的工作量。另外,一些基于序列到序列Sequence-to-Sequence神经网络构建的语音合成系统虽然可以不需要对训练数据进行对齐标注,但是其采用了递归的解码方式,导致语音合成系统无法实现并行预测,效率很低,无法满足实时合成的需求,并且对计算机处理能力有很高的要求。
发明内容
本申请实施例提供了一种语音合成方法和系统,以提高语音合成系统的准确性和语音合成效率。
第一方面,本申请实施提供了一种语音合成方法,该方法包括:获取训练数据,训练数据包括成对设置的文本发音单元序列和语音频谱单元序列,文本发音单元序列包含至少一个文本发音单元,语音频谱单元序列包含至少一个语音特征帧;将文本发音单元序列进行编码,得到对应的编码序列,编码序列包含至少一个元素,每个元素对应文本发音单元序列中的一个文本发音单元;将编码序列中的每个元素复制目标次数,并按照各个元素在编码序列中的先后顺序对所有复制后的元素进行排列,得到扩增编码序列;将扩增编码序列进行解码,得到语音频谱单元预测序列,语音频谱单元预测序列与语音频谱单元序列的损失距离作为训练语音合成系统的监督信号;当语音合成系统训练收敛后,将语音频谱单元预测序列耦合至声码器,声码器用于根据语音频谱单元预测序列生成语音信号数据并输出。
本申请实施例提供的技术方案,构建并训练了一种语音合成系统,该语音合成系统在训练时,不需要对训练数据进行文本发音单元-音频特征帧的对齐标注处理,消除了由于数据标注稳定性和准确性差导致的语音合成系统的训练偏差,另外,本申请实施例的语音合成系统的编码和解码过程都是非递归的,预测生成的特征帧不基于历史依赖,因此可以实现并行预测,提高了语音合成效率,满足实时语音合成的需求。
在一种实现方式中,语音频谱单元序列通过以下步骤获取:去除训练语音的首部和尾部包含的无声音内容;在去除无声音内容后的训练语音的首部和尾部增加预设时长的静音内容;对增加了静音内容的训练语音进行频谱转换,得到语音频谱单元序列。
在一种实现方式中,将文本发音单元序列进行编码,得到对应的编码序列,包括:对文本发音单元序列进行独热onehot编码;使用全连接网络对文本发音单元序列的onehot编码结果进行向量化,得到词嵌入序列;使用具备上下文视野的编码器encoder对词嵌入序列进行编码,得到编码序列。
在一种实现方式中,目标次数通过以下方法确定:将语音频谱单元序列包含的语音特征帧的数量除以文本发音单元序列的文本发音单元的数量,并对结果取整作为目标次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京帝派智能科技有限公司,未经北京帝派智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010768946.8/2.html,转载请声明来源钻瓜专利网。