[发明专利]一种合成语音与文本对齐的方法、装置及计算机储存介质有效
申请号: | 202011313327.6 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112420016B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 王昆;朱海;周琳岷;刘书君 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L15/02;G10L15/26 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 陈艺文 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 合成 语音 文本 对齐 方法 装置 计算机 储存 介质 | ||
本发明公开了一种合成语音与文本对齐的方法、装置及计算机储存介质,其中方法包括:在待合成文本的每个字后面加入位置标签;对带位置标签的文本进行文本预处理及音素转换得到音素序列;将音素序列输入语音合成模型,预测音素的时长信息和声学特征;将声学特征通过声码器转换为合成语音;累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。本发明通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种合成语音与文本对齐的方法、装置及计算机储存介质。
背景技术
语音交互是一种自然的人机交互技术,该技术涉及语音识别(ASR)、自然语言理解(NLP)、语音合成(TTS)等众多技术,语音合成直接影响用户的听觉体验,其效果好坏直接影响用户的“第一印象”,一直是学术研究和产业应用的研究重点。语音合成发展过程中,经历了拼接法、参数合成法及端到端为主的语音合成方法。端到端方法能获得更高的合成语音质量,但合成语音的过程难以精确控制。
语音和文本的对齐,是指为每个字的发音在音频中标注起止时间信息。这些信息一般是通过人工标注,或者半自动标注,先通过强制对齐算法预标注,再由人工调整的方法获得,通常用于语音合成模型的训练。语音和文本的对齐有很多应用,如音乐播放过程中,音乐播放和歌词同步,点读系统等。
在语音合成系统中,长句子通常通过拆分成短句进行合成,拼接得到最终的音频,这种方式可以句子级别的对齐信息,如哪句文本对应哪段语音,但没有词语、字级别的更细力度的对齐信息。要获得更小粒度的对齐信息,可以通过强制对齐技术进行训练,但时间成本较高,且存在对齐失败的情况。另一方面,语音合成中,待合成文本通常需要规范化,替换掉一些书写和发音不一致的情况,如特殊符号、特殊字符、数字等。原始文本与规范化后的文本通常不存在简单一致的对应关系,在音素转换中,转换前后的文本序列和音素序列也不存在一致的对应关系,故难以获取字级别的语音和文本对齐信息。
发明内容
本发明提供了一种合成语音与文本对齐的方法、装置及计算机储存介质,以解决上述现有技术中存在的问题。
本发明采用的技术方案是:提供一种合成语音与文本对齐的方法,包括:
在待合成文本的每个字后面加入位置标签;
对带位置标签的文本进行文本预处理及音素转换得到音素序列;
将音素序列输入语音合成模型,预测音素的时长信息和声学特征;
将声学特征通过声码器转换为合成语音;
累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
优选地,所述对带位置标签的文本进行文本预处理的方法,包括:对带位置标签的文本中的非法字符进行剔除、文本规则化以及韵律预测,在进行文本预处理过程中,保持位置标签在序列中的相对位置。
优选地,所述对带位置标签的文本进行音素转换方法,包括:采用汉字转拼音,拼音拆分成声韵母音素的转换方法,在进行音素转换过程中,保持位置标签在序列中的相对位置。
优选地,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征的方法,包括:将所述音素序列中的位置标签剔除,并将音素序列编码为数字序列,输入语音合成模型;语音合成模型进行前向运算,输出时长信息序列和声学特征序列。
优选地,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征之前,还包括:对所述语音合成模型的制作。
优选地,所述语音合成模型的制作包括训练数据获取、输入输出特征提取、模型设计及模型训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011313327.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废旧子午轮胎的脱胶装置
- 下一篇:一种基于随机森林算法的资源分配方法