[发明专利]一种多维校验文档识别效果的评估方法在审
| 申请号: | 202211151260.X | 申请日: | 2022-09-21 |
| 公开(公告)号: | CN115587586A | 公开(公告)日: | 2023-01-10 |
| 发明(设计)人: | 王喆 | 申请(专利权)人: | 钧航(武汉)物流信息技术有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/109;G06F40/295;G06F16/35;G06F16/33 |
| 代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 王海波 |
| 地址: | 430000 湖北省武汉市武汉东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多维 校验 文档 识别 效果 评估 方法 | ||
本发明公开了一种多维校验文档识别效果的评估方法,其特征在于,包括实体级别评分模块、文档级别评分模块、打分模块,所述实体级别评分模块可分为通用实体的校验逻辑和专属实体的校验逻辑,涉及以下维度。该评估体系主要从实体级别和文档级别入手,从版面、分布、内容等方面多维、全方面对文档识别结果进行校验。将该评估体系应用到文档识别系统的相关校验中,针对字段级别的评分,可作为该字段识别效果的置信度,根据该置信度可以对字段识别结果进行选择性展示,确保了已展示字段的高准确率。校验识别效果的业务人员,可以根据置信度评分,仅对置信度低的字段进行校验,减少校验字段个数,极大提高业务处理效率。
技术领域
本发明涉及文档识别效果的评估方法技术领域,尤其涉及一种多维校验文档识别效果的评估方法。
背景技术
文档识别技术在日常生产的各个领域都有着广泛的应用,一套好的文档识别系统,可以减少重复劳动力,大大提升企业的效率。然而目前市面上很少有可以通用各个领域的文档识别系统,即使针对特定领域开发的定制化文档识别系统,也会存在漏识别、错识别等问题。目前市面上存在多种文档识别系统,但针对识别系统的评估方法很少。如何快速定位现有文档识别系统的相关问题及加速文档识别系统的自我升级迭代,一套全方面、多维校验文档识别效果的评估方法就显得尤为重要。
发明内容
本发明的目的在于:为了解决上述问题,而提出的一种多维校验文档识别效果的评估方法。
为了实现上述目的,本发明采用了如下技术方案:
一种多维校验文档识别效果的评估方法,包括实体级别评分模块、文档级别评分模块、打分模块,所述实体级别评分模块可分为通用实体的校验逻辑和专属实体的校验逻辑,涉及以下维度:
(1)实体内容的关键词校验,一些实体内容经常涉及某些高频字词,所以针对不同实体维护关键词词典,命中高频关键词则会在评分中加分;
(2)实体内容的合规性校验,主要针对数值型实体,如日期类、号码类,会根据数值的长度、范围进行校验,命中合理范围则会在评分中加分,否则该维度直接为0分;
(3)实体填充率校验,填充率=单独实体文字坐标构成的矩形面积/整个实体块最外围坐标构成的矩形面积,针对不同的实体,填充率存在一定差异,通过统计分析语料库中实体,获得合理的填充率范围,该维度可以快速校验出识别错误、比较分散的实体;
(4)实体所在单元格位置校验,同一实体更倾向于坐落于同一单元格和相邻单元格中,通过统计分析不同实体所在单元格的属性,可对excel等包含单元格的文档进行校验;
(5)实体所在行数校验,受实体属性及文档类型版面影响,实体内容长度存在一定的规律性,该维度可以快速筛选出多识别或不常见内容长度的相关实体;
(6)实体分布的热力图校验,不同行业的文档在版本制作上存在一定的规律性,受版面影响,实体在文档中分布也存在一定规律性;
(7)其他类针对字段种类定制化的校验,针对实体所处的行业背景,还针对一些实体开发了定制化的校验逻辑。
优选地,所述文档级别评分模块主要从文档整体版面布局、关键内容等方面进行评估,旨在识别出一些不常见版面及内容构成的文档,相关评估主要涉及以下维度:
(1)整篇文档识别的实体个数校验,同一类文档中涉及到的实体个数存在规律性,该维度对于实体漏召回情况可以进行快速校验;
(2)关键字段校验,在整个文档角度,对一些高频词汇进行校验;
(3)实体位置关系校验,不同实体类型在版面布局上,存在一定的上下或左右的位置关系,通过统计分析语料库中实体相对位置关系,对于一些高频、位置关系较强的实体关系进行校验;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于钧航(武汉)物流信息技术有限公司,未经钧航(武汉)物流信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211151260.X/2.html,转载请声明来源钻瓜专利网。





