[发明专利]文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质在审
| 申请号: | 202110276017.X | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN113066494A | 公开(公告)日: | 2021-07-02 |
| 发明(设计)人: | 赵云;杨学锐 | 申请(专利权)人: | 上海云从汇临人工智能科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L19/00;G10L19/16;G06N3/08;G06N3/04;G06K9/62;G06F40/289;G06F40/232;G06F40/216;G06F40/211;G06F40/126 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
| 地址: | 200120 上海市浦东*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 纠错 模型 生成 方法 系统 设备 介质 | ||
一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质,通过对音频数据进行语音识别,获取对应的语音识别文本;对语音识别文本进行编码,获取语音识别文本的特征向量;将参考文本的特征向量和语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化损失函数训练生成文本纠错模型;利用文本纠错模型对待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本。本发明提供了一种针对ASR识别文本进行纠错的方案,不仅可以纠正常见的ASR识别文本中的替换类型错误,而且对于文本插入类错误、文本删除类错误也可以进行文本纠正。此外,本发明还可以使纠正后的句子更加通顺,更利于人们阅读理解。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质。
背景技术
自动语音识别(ASR)是一项利用计算机将连续语音转写为文字的技术。随着深度学习技术的不断发展,对于一些垂直领域,目前ASR存在过高的错词率。例如在基于kaldi的语音识别系统中,解码过程使用的语言模型一般都是建立在3gram之上,在计算下一个词时只考虑前两个词的特征,从而转写出的文本可能在句子层面出现文法上的错误或者语义不连贯的情况。另一方面,在不同的领域,由于词的频率分布不同,一些常用术语容易被识别为其他发音相近的高频词汇。
为了进一步提升ASR识别的准确率,现有技术提出了一些对语音识别文本纠错的方法,其在模型结构上,工业界普遍采用的是分阶段纠错架构,通常分为错误检测、候选召回、纠错排序等阶段。分阶段模块化的设计方便各模块单独优化,落地效果比较好。但这种构架主要适用于错误的文本和正确的参考文本等长的场景,比如拼音纠错。在ASR解码的候选结果中,有大量插入或者删除的错误,句子长短不一,这很大程度限制了该方法在ASR文本纠错中的应用。此外,ASR中替换类错误,也不限于相似音的错误,而且不同词出错概率以及错词的分布也不尽相同。因此,基于相似音构建的数据集和真实ASR场景中错词分布会存在显著差异,在此基础上训练出来的模型表现会低于验证集上的表现。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种文本纠错模型生成方法,包括以下步骤:
对音频数据进行语音识别,获取对应的语音识别文本;
对所述语音识别文本进行编码,获取语音识别文本的特征向量;
将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型;其中,所述参考文本是与所述音频数据对应的正确文本。
可选地,所述对所述语音识别文本进行编码,获取语音识别文本的特征向量,包括:
对获取的语音识别文本进行词条切分,获取一个或多个词条;
通过目标字典将所述一个或多个词条映射为词条编号;
利用词条嵌入矩阵对每个词条编号进行编码,获取对应的词条编号特征向量;以及利用位置嵌入矩阵对每个词条在所述语音识别文本中的位置序号进行编码,获取与所述词条编号特征向量具有相同维度的词条位置特征向量;
对所述词条编号特征向量和所述词条位置特征向量进行融合,获取所述语音识别文本的特征向量;其中,所述融合包括以下至少之一:相加、相减、拼接。
可选地,所述将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从汇临人工智能科技有限公司,未经上海云从汇临人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276017.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高边坡稳定性监控方法及装置
- 下一篇:一种喷射式熔断器绝缘操作杆





