[发明专利]文本识别结果处理方法、装置及计算机可读存储介质在审
| 申请号: | 202011487618.7 | 申请日: | 2020-12-16 |
| 公开(公告)号: | CN114637816A | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 杨建国;詹镇江 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/289 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
| 地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 识别 结果 处理 方法 装置 计算机 可读 存储 介质 | ||
本公开提供了一种文本识别结果处理方法、装置及计算机可读存储介质。该方法包括:获取文本识别模型的文本识别结果,并检测词库中是否存在与文本识别结果匹配的文本;当不存在匹配的文本的情况下,对文本识别结果进行切词得到词语集合;根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合;从文本集合中选择一个文本作为最终的文本识别结果。通过本公开,解决了相关技术中文本识别结果的准确率低的问题。
技术领域
本申请涉及计算机领域,以下描述涉及一种文本识别结果处理方法、装置及计算机可读存储介质。
背景技术
人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,文本识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,而对于文本识别,业界达成共识的是,文本中的数字的准确率普遍很高(95%以上),而对于文本中的文字,一类是非开放性文本(值的范围可枚举,譬如大写日期,各地级市名称,大写金额等),准确率可以普遍提高到90%以上,另一类是开放性文本(值的范围不可枚举,譬如公司名称的识别等),因为数据的持续增加字符多样性,导致模型的准确率业界标准通常在75%,而这个效果基本是无法应用于生产业务系统的,且样本的变化频率和自学习困难等问题,使得这一问题的缺陷日益明显。
目前,常用的文本识别方法为光学字符识别(Optical Character Recognition,简称为ocr),但无论是传统ocr手段,还是端到端的深度学习ocr识别网络,如crnn、crnn+ctc、seq2seq-attention等,都需要比较丰富的样本来训练学习,这是一个前提条件,满足了这个前提,对开放性文本识别这一领域,通常也只能到75%,而很多小银行或者小公司,在面对这一实际问题时,并没有足够的样本来支撑,若只通过小数据量训练的识别模型来支撑业务系统,显得力不从心,此时用于提高整体准确率的工程化模型补偿方案便显得尤为重要。
针对相关技术中文本识别结果的准确率低的问题,尚未有解决方案。
发明内容
本公开的示例性实施例在于提供一种文本识别结果处理方法、装置及计算机可读存储介质,其能够解决相关技术中文本识别结果的准确率低的问题。
根据本的示例性实施例,提供了一种文本识别结果处理方法,该方法包括:获取文本识别模型的文本识别结果,并检测词库中是否存在与文本识别结果匹配的文本;当不存在匹配的文本的情况下,对文本识别结果进行切词得到词语集合;根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合;从文本集合中选择一个文本作为最终的文本识别结果。
可选地,根据词语集合中每个词语在词库的倒排索引中的倒排索引信息,获取与文本识别结果匹配的文本集合包括:查询词语集合中每个词语在词库的倒排索引中的倒排索引信息;根据倒排索引信息,获取与每个词语匹配的文本的文本标识集合;确定文本标识集合中每个文本标识出现的次数;将次数超过预定次数的文本标识对应的文本,合并为与文本识别结果匹配的文本集合。
可选地,从文本集合中选择一个文本作为最终的文本识别结果包括:获取文本集合中每个文本与文本识别结果的编辑距离;对编辑距离进行排序,获取编辑距离中的最小编辑距离;将最小编辑距离对应的文本确定为最终的文本识别结果。
可选地,在获取文本识别模型的文本识别结果之前,还包括:检测到文本识别服务启动,将词库和词库中的词语的倒排索引维护到缓冲存储器中;检测词库中是否存在与文本识别结果匹配的文本包括:检测缓冲存储器中否存在与文本识别结果匹配的文本。
可选地,在从文本集合中选择一个文本作为最终的文本识别结果之后,还包括:将最终的文本识别结果发送给客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011487618.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能零售辅助决策系统
- 下一篇:一种派嗪衍生物、其制备方法及应用





