[发明专利]文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质在审
| 申请号: | 202110276017.X | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN113066494A | 公开(公告)日: | 2021-07-02 |
| 发明(设计)人: | 赵云;杨学锐 | 申请(专利权)人: | 上海云从汇临人工智能科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L19/00;G10L19/16;G06N3/08;G06N3/04;G06K9/62;G06F40/289;G06F40/232;G06F40/216;G06F40/211;G06F40/126 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
| 地址: | 200120 上海市浦东*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 纠错 模型 生成 方法 系统 设备 介质 | ||
1.一种文本纠错模型生成方法,其特征在于,包括以下步骤:
对音频数据进行语音识别,获取对应的语音识别文本;
对所述语音识别文本进行编码,获取语音识别文本的特征向量;
将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型;其中,所述参考文本是与所述音频数据对应的正确文本。
2.根据权利要求1所述的文本纠错模型生成方法,其特征在于,所述对所述语音识别文本进行编码,获取语音识别文本的特征向量,包括:
对获取的语音识别文本进行词条切分,获取一个或多个词条;
通过目标字典将所述一个或多个词条映射为词条编号;
利用词条嵌入矩阵对每个词条编号进行编码,获取对应的词条编号特征向量;以及利用位置嵌入矩阵对每个词条在所述语音识别文本中的位置序号进行编码,获取与所述词条编号特征向量具有相同维度的词条位置特征向量;
对所述词条编号特征向量和所述词条位置特征向量进行融合,获取所述语音识别文本的特征向量;其中,所述融合包括以下至少之一:相加、相减、拼接。
3.根据权利要求2所述的文本纠错模型生成方法,其特征在于,所述将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型,包括:
将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器,并利用所述解码器对所述语音识别文本的特征向量进行解码,获取解码结果;
对所述语音识别文本的特征向量进行线性变换以及对所述参考文本进行词条切分,并通过概率分布函数计算参考文本中每个词条位置的词条概率分布;
将所述解码结果与参考文本的词条序列对齐,并基于所述参考文本的词条序列和所述词条概率分布获取参考文本中每个词条位置上的词条被预测出的概率;
根据参考文本中每个词条位置上词条的预测概率计算损失函数,并通过优化所述损失函数训练一个或多个神经网络,生成文本纠错模型。
4.根据权利要求1所述的文本纠错模型生成方法,其特征在于,所述对音频数据进行语音识别,获取对应的语音识别文本,包括:
利用语音识别模型对一个或多个音频数据进行语音识别和解码,获取解码词图和多条语音识别文本;
从所述解码词图中选取若干条解码路径,根据选择的若干条解码路径去掉重复的语音识别文本;
对完成去重复后的语音识别文本进行过滤,并将过滤后的语音识别文本作为最终的语音识别文本;
其中,所述过滤包括以下至少之一:过滤存在未命名字词的语音识别文本、过滤字词长度短于预设长度的语音识别文本、过滤错字率高于预设阈值的语音识别文本。
5.一种文本纠错方法,其特征在于,包括以下步骤:
获取待处理的一个或多个语音识别文本;
利用预先生成的文本纠错模型对所述待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,所述文本纠错模型由权利要求1至4中任一项所述的文本纠错模型生成方法生成。
6.根据权利要求5所述的文本纠错方法,其特征在于,所述利用预先生成的文本纠错模型对待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,包括:
利用文本纠错模型中的编码器对所述待处理的一个或多个语音识别文本进行编码,得到待处理的一个或多个语音识别文本的特征向量;
利用解码器对待处理的一个或多个语音识别文本的特征向量进行解码,并在解码过程中获取多条候选文本序列以及每条候选文本序列对应的概率;
将概率最高的候选文本序列所对应的语音识别文本作为纠错后的正确文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从汇临人工智能科技有限公司,未经上海云从汇临人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276017.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高边坡稳定性监控方法及装置
- 下一篇:一种喷射式熔断器绝缘操作杆





