[发明专利]统一中英混合文本生成和语音识别的端到端系统有效
| 申请号: | 202110777611.7 | 申请日: | 2021-07-09 |
| 公开(公告)号: | CN113284485B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 陶建华;张帅;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/183;G10L15/26 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;李永叶 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 统一 混合 文本 生成 语音 识别 端到端 系统 | ||
本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
技术领域
本申请涉及语音识别领域,尤其涉及统一中英混合文本生成和语音识别的端到端系统。
背景技术
中英混合现象是指在说话过程中同时包含中文和英文表达,主要包括句间转换和句内转换两种类型。其中句内转换这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题;建模单元更多,更复杂;不同语言协同发音;数据搜集困难;数据标注困难等问题。随着深度学习技术的发展,单语语音识别技术已有极大地提升。特别是端到端的语音识别模型,在大规模训练语料下,其性能已经超过最好的传统管道式的语音识别系统。端到端模型将声学模型,发音词典,语言模型等多个模块融合到一起,统一优化,训练部署简单。对于中英混合识别问题,数据缺乏是限制其性能提升的主要因素。
解决中英混合语音识别数据缺乏的问题有多种方法。在语音特征增加数据扰动技术可以有效提高识别模型的鲁棒性,但是无法解决中英混合语言相关数据的缺乏问题。为增加文本的丰富性,中英混合文本可以通过各种文本生成技术通过单语文本人工生成。但是直接使用单语训练数据往往不能直接提升多语混合识别系统的性能。对于混合文本生成技术大多将生成的文本用来训练语言模型,再通过语言模型重打分,各种模型融合等方式间接的利用文本数据来提升语音识别系统的性能。这增加了额外的语言模型,提高了系统的复杂度和计算开销。另一种方法是使用语音合成系统将生成的文本合成对应的音频数据。
专利申请号CN112420024A涉及民用航空空中交通管制和语音识别领域,特别是一种全端到端的中英文混合空管语音识别方法及装置。本发明通过特征学习模块预先提取语音特征,使所述中英文混合空管语音识别模型能提取出更具鉴别性的语音特征,更好地适应不同场景下的语音信号;在原始语音信号到可读指令文本的处理范式中,运用统一的框架解决中英文混合语音识别问题,可以避免现有独立识别系统中语种属性判断环节,简化了混合语音识别的系统架构,也使得语音特征能更合理有效的应用到所述模型的识别中,从而准确判定发音和词义,提高了混合语音识别性能及其实用性。
专利申请号CN112151005A涉及语音合成的技术领域,本发明是要解决中英文混合文本的语音合成问题,提出一种中英文混合的语音合成方法及装置,该方法包括了训练阶段和推理阶段,通过将英文单词转换为CMU发音音素,再将CMU发音音素转换为拼音音素,将中、英文统一为了拼音音素的表征方式,此外,为了区分中、英文的发音特点,引入了代表不同语言的语言标记,为了区分不同说话人的声学特征,引入了说话人识别向量,使得中英文混合的语音合成成为可能,并且具有较高的语音合成质量。在传统语音合成方法的基础上,扩大了语音合成在中英文混合上的应用场景。
现有技术缺点
1)使用生成的混合文本训练额外的语言模型,再通过语言模型重打分,各种模型融合等方式间接的利用文本数据来提升语音识别系统的性能。这增加了额外的语言模型,提高了系统的复杂度和计算开销。
2)使用语音合成系统将生成的文本合成对应的音频数据。这样虽然可以获得语音识别模型训练数据,但是合成的数据与真实的数据存在不匹配的问题,如何利用合成数据提高识别系统的性能是个有挑战性的的问题。
发明内容
有鉴于此,本发明提供一种统一中英混合文本生成和语音识别的端到端系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110777611.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:氟非尼酮在制备治疗急性肺损伤药物中的应用
- 下一篇:检查系统及方法





