[发明专利]文本修正方法、装置、设备及介质有效
申请号: | 202110775077.6 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113255652B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 赵明;田科;阳锋;章宏武 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 范彦扬 |
地址: | 100089 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 修正 方法 装置 设备 介质 | ||
1.一种文本修正方法,其特征在于,包括:
获取待处理的文本图像;
采用预先训练得到的检测模型对所述文本图像中所包含的文本字符以及修改符号进行检测,得到所述文本字符的第一位置和所述修改符号的第二位置;
基于所述第一位置和所述第二位置,从所述文本图像中提取出待识别内容;
利用预先训练得到的识别模型对所述待识别内容进行识别,得到文本字符识别结果以及修改符号识别结果;
基于所述修改符号识别结果,对所述文本字符识别结果进行修正;
所述利用预先训练得到的识别模型对所述待识别内容进行识别,得到文本字符识别结果以及修改符号识别结果的步骤,包括:
利用预先训练得到的识别模型对所述待识别内容以特征形式进行区域划分,得到第一区域特征向量序列,并根据所述第一区域特征向量序列进行解码,得到文本字符识别结果和修改符号识别结果;
所述根据所述第一区域特征向量序列进行解码,得到文本字符识别结果和修改符号识别结果的步骤,包括:
基于注意力机制算法和所述第一区域特征向量序列,生成体现有各区域特征向量之间位置关系的第二区域特征向量序列;
对所述第二区域特征向量序列进行解码,得到文本字符识别结果以及修改符号识别结果;
所述基于注意力机制算法和所述第一区域特征向量序列,生成体现有各区域特征向量之间的位置关系的第二区域特征向量序列的步骤,包括:
将所述第一区域特征向量序列中的特征向量转换为具有指定数量个特征点的二维特征向量;
基于注意力机制算法和所述二维特征向量,生成体现有各区域特征向量之间的位置关系的第二区域特征向量序列;
其中,所述文本字符识别结果和所述修改符号识别结果的结合方式与所述待识别内容中的文本字符和修改符号的结合方式一致;且所述检测模型和所述识别模型均为神经网络模型。
2.如权利要求1所述的文本修正方法,其特征在于,所述将所述第一区域特征向量序列中的特征向量转换为具有指定数量个特征点的二维特征向量的步骤,包括:
将所述第一区域特征向量序列中的特征向量转换为三维特征向量;
采用矩阵变换操作对所述三维特征向量进行处理,得到具有指定数量个特征点的二维特征向量;
所述基于注意力机制算法和所述二维特征向量,生成体现有各区域特征向量之间的位置关系的第二区域特征向量序列的步骤,包括:
基于注意力机制算法为所述二维特征向量附加位置编码,生成体现有各区域特征向量之间的位置关系的第二区域特征向量序列。
3.如权利要求1至2任一项所述的文本修正方法,其特征在于,所述修改符号识别结果包括修改符号的类型编码;
在所述利用预先训练得到的识别模型对所述待识别内容进行识别,得到文本识别结果以及修改符号识别结果的步骤之后,所述方法还包括:
根据所述第一位置和所述第二位置的相对位置关系,在所述文本识别结果中标注出与所述修改符号相关的目标文本字符,并采用所述修改符号的类型编码替代所述目标文本字符中出现的修改符号。
4.如权利要求3所述的文本修正方法,其特征在于,所述根据所述第一位置和所述第二位置的相对位置关系,在所述文本识别结果中标注出与所述修改符号相关的目标文本字符,并采用所述修改符号的类型编码替代所述目标文本字符中出现的修改符号的步骤,包括:
根据所述修改符号的类型编码、所述第一位置和所述第二位置的相对位置关系,确定与所述修改符号相关的多个目标文本字符;
在第一个所述目标文本字符和与其相邻的非目标文本字符之间插入预设的修改起始符,在最后一个所述目标文本字符和与其相邻的非目标文本字符之间插入预设的修改终止符,以将所述修改起始符和所述修改终止符之间的字符标注为与所述修改符号相关的目标文本字符;
根据所述第一位置和所述第二位置的相对位置关系,确定所述修改符号的类型编码在多个所述目标文本字符之间的插入位置,并按照所述插入位置将所述修改符号的类型编码插入在多个所述目标文本字符之间,以替代所述目标文本字符中出现的修改符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775077.6/1.html,转载请声明来源钻瓜专利网。