[发明专利]文本矫正方法及装置、电子设备及存储介质在审
申请号: | 202211645529.X | 申请日: | 2022-12-16 |
公开(公告)号: | CN116524502A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 崔元顺;许彬;林辉;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06V30/12 | 分类号: | G06V30/12;G06F40/232 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩来兵 |
地址: | 100085 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 矫正 方法 装置 电子设备 存储 介质 | ||
本发明的实施方式提供了一种文本矫正方法及装置、电子设备及存储介质。其中,方法包括:获取对目标对象进行扫描得到的扫描文本;将所述扫描文本输入轻量化bert语言模型中,得到所述扫描文本的目标语言特征,其中,所述轻量化bert语言模型的参数量少于标准Bert模型的标准参数量;按照所述目标语言特征对所述扫描文本进行第一矫正操作,得到第一矫正文本;根据所述第一矫正文本,得到对所述扫描文本完成矫正后的第二矫正文本。本申请克服了相关技术中不存在一种适用于轻量级离线化的OCR识别结果矫正技术的技术问题。
技术领域
本发明的实施方式涉及光学字符识别领域,更具体地,本发明的实施方式涉及文本矫正方法及装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
用户使用词典笔扫描文字时,OCR识别结果有时会出现识别错误、多识别或者漏识别现象。尤其是在扫描“句中词”时,多识别与漏识别现象会更加普遍。
所谓“句中词”,是指一个完整句子中的某个单词。用户扫描“句中词”时,往往无法精确地将所需的单词扫描进词典笔中。要么将目标单词的前后相邻单词的部分或全部也跟着扫描进来;要么扫描的目标单词不完整。如图1所示,用户在扫描“promotion”一词时将前后单词的部分扫描进来了,在扫描“forecasting”一词时没有扫描完整。
相关技术中,存在GECToR方案(一种针对英文场景的纠错方案),其主要是基于Bert语言模型进行英文文本的纠错。其主要原理是利用Bert与训练模型替换掉最后的两个分支,分别对英文句子进行错误检测和错误纠正。其错误检测与纠正均是针对单词级的,单词的纠正严重依赖于训练时所生成的词表。但是其主要是针对一般文本纠错的,应用场景在于语法纠正,拼写检查等,对于课本、习题册、绘本以及报纸等各种场景的纠错效果不是很理想,另外也容易出现过度纠正的情况。另一方面,原始GECToR的模型很大,不适合轻量级离线化部署。因此,相关技术中不存在一种适用于轻量级离线化的OCR识别结果矫正技术。
综上所述,相关技术中存在尚未提供一种适用于轻量级离线化的OCR识别结果矫正技术的技术问题。
发明内容
但是,出于原始GECToR的模型很大,不适合轻量级离线化部署的原因,现有技术不存在一种适用于轻量级离线化的OCR识别结果矫正技术。
为此,非常需要一种改进的文本矫正方法及装置、电子设备及存储介质,以实现适用于轻量级离线化的OCR识别结果矫正技术的目的。
在本发明实施方式的第一方面中,提供了一种文本矫正方法,包括:
获取对目标对象进行扫描得到的扫描文本;
将所述扫描文本输入轻量化bert语言模型中,得到所述扫描文本的目标语言特征,其中,所述轻量化bert语言模型的参数量少于标准Bert模型的标准参数量;
按照所述目标语言特征对所述扫描文本进行第一矫正操作,得到第一矫正文本;
根据所述第一矫正文本,得到对所述扫描文本完成矫正后的第二矫正文本。
在本发明的一个实施例中,如前述的文本矫正方法,所述根据所述第一矫正文本,得到对所述扫描文本完成矫正后的第二矫正文本,包括:
在所述第一矫正文本中的所有候选矫正对象中,确定出不满足预设矫正要求的错误矫正对象,其中,所述候选矫正对象为在所述第一矫正操作中,对所述扫描文本中的扫描对象进行替换、增加或删除的对象;
按照与每个候选矫正对象对应的所述扫描对象,将所述第一矫正文本中的所述错误矫正对象还原为所述错误矫正对象对应的所述扫描对象,得到所述第二矫正文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211645529.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:场景数据生成方法及装置、电子设备和存储介质
- 下一篇:军用大数据管理系统