[发明专利]文本识别结果处理方法、装置及计算机可读存储介质在审

专利信息
申请号: 202011487618.7 申请日: 2020-12-16
公开(公告)号: CN114637816A 公开(公告)日: 2022-06-17
发明(设计)人: 杨建国;詹镇江 申请(专利权)人: 第四范式(北京)技术有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F40/289
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 王艳茹;苏银虹
地址: 100085 北京市海淀区清*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 识别 结果 处理 方法 装置 计算机 可读 存储 介质
【说明书】:

本公开提供了一种文本识别结果处理方法、装置及计算机可读存储介质。该方法包括:获取文本识别模型的文本识别结果,并检测词库中是否存在与文本识别结果匹配的文本;当不存在匹配的文本的情况下,对文本识别结果进行切词得到词语集合;根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合;从文本集合中选择一个文本作为最终的文本识别结果。通过本公开,解决了相关技术中文本识别结果的准确率低的问题。

技术领域

本申请涉及计算机领域,以下描述涉及一种文本识别结果处理方法、装置及计算机可读存储介质。

背景技术

人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,文本识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,而对于文本识别,业界达成共识的是,文本中的数字的准确率普遍很高(95%以上),而对于文本中的文字,一类是非开放性文本(值的范围可枚举,譬如大写日期,各地级市名称,大写金额等),准确率可以普遍提高到90%以上,另一类是开放性文本(值的范围不可枚举,譬如公司名称的识别等),因为数据的持续增加字符多样性,导致模型的准确率业界标准通常在75%,而这个效果基本是无法应用于生产业务系统的,且样本的变化频率和自学习困难等问题,使得这一问题的缺陷日益明显。

目前,常用的文本识别方法为光学字符识别(Optical Character Recognition,简称为ocr),但无论是传统ocr手段,还是端到端的深度学习ocr识别网络,如crnn、crnn+ctc、seq2seq-attention等,都需要比较丰富的样本来训练学习,这是一个前提条件,满足了这个前提,对开放性文本识别这一领域,通常也只能到75%,而很多小银行或者小公司,在面对这一实际问题时,并没有足够的样本来支撑,若只通过小数据量训练的识别模型来支撑业务系统,显得力不从心,此时用于提高整体准确率的工程化模型补偿方案便显得尤为重要。

针对相关技术中文本识别结果的准确率低的问题,尚未有解决方案。

发明内容

本公开的示例性实施例在于提供一种文本识别结果处理方法、装置及计算机可读存储介质,其能够解决相关技术中文本识别结果的准确率低的问题。

根据本的示例性实施例,提供了一种文本识别结果处理方法,该方法包括:获取文本识别模型的文本识别结果,并检测词库中是否存在与文本识别结果匹配的文本;当不存在匹配的文本的情况下,对文本识别结果进行切词得到词语集合;根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合;从文本集合中选择一个文本作为最终的文本识别结果。

可选地,根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合包括:查询词语集合中每个词语在词库的倒排索引中的倒排索引信息;根据倒排索引信息,获取与每个词语匹配的文本的文本标识集合;确定文本标识集合中每个文本标识出现的次数;将次数超过预定次数的文本标识对应的文本,合并为与文本识别结果匹配的文本集合。

可选地,从文本集合中选择一个文本作为最终的文本识别结果包括:获取文本集合中每个文本与文本识别结果的编辑距离;对编辑距离进行排序,获取编辑距离中的最小编辑距离;将最小编辑距离对应的文本确定为最终的文本识别结果。

可选地,在获取文本识别模型的文本识别结果之前,还包括:检测到文本识别服务启动,将词库和词库中的词语的倒排索引维护到缓冲存储器中;检测词库中是否存在与文本识别结果匹配的文本包括:检测缓冲存储器中否存在与文本识别结果匹配的文本。

可选地,在从文本集合中选择一个文本作为最终的文本识别结果之后,还包括:将最终的文本识别结果发送给客户端。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011487618.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top