[发明专利]一种多维校验文档识别效果的评估方法在审
| 申请号: | 202211151260.X | 申请日: | 2022-09-21 |
| 公开(公告)号: | CN115587586A | 公开(公告)日: | 2023-01-10 |
| 发明(设计)人: | 王喆 | 申请(专利权)人: | 钧航(武汉)物流信息技术有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/109;G06F40/295;G06F16/35;G06F16/33 |
| 代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 王海波 |
| 地址: | 430000 湖北省武汉市武汉东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多维 校验 文档 识别 效果 评估 方法 | ||
1.一种多维校验文档识别效果的评估方法,其特征在于,包括实体级别评分模块、文档级别评分模块、打分模块,所述实体级别评分模块可分为通用实体的校验逻辑和专属实体的校验逻辑,涉及以下维度:
(1)实体内容的关键词校验,一些实体内容经常涉及某些高频字词,所以针对不同实体维护关键词词典,命中高频关键词则会在评分中加分;
(2)实体内容的合规性校验,主要针对数值型实体,如日期类、号码类,会根据数值的长度、范围进行校验,命中合理范围则会在评分中加分,否则该维度直接为0分;
(3)实体填充率校验,填充率=单独实体文字坐标构成的矩形面积/整个实体块最外围坐标构成的矩形面积,针对不同的实体,填充率存在一定差异,通过统计分析语料库中实体,获得合理的填充率范围,该维度可以快速校验出识别错误、比较分散的实体;
(4)实体所在单元格位置校验,同一实体更倾向于坐落于同一单元格和相邻单元格中,通过统计分析不同实体所在单元格的属性,可对excel等包含单元格的文档进行校验;
(5)实体所在行数校验,受实体属性及文档类型版面影响,实体内容长度存在一定的规律性,该维度可以快速筛选出多识别或不常见内容长度的相关实体;
(6)实体分布的热力图校验,不同行业的文档在版本制作上存在一定的规律性,受版面影响,实体在文档中分布也存在一定规律性;
(7)其他类针对字段种类定制化的校验,针对实体所处的行业背景,还针对一些实体开发了定制化的校验逻辑。
2.根据权利要求1所述的一种多维校验文档识别效果的评估方法,其特征在于,所述文档级别评分模块主要从文档整体版面布局、关键内容等方面进行评估,旨在识别出一些不常见版面及内容构成的文档,相关评估主要涉及以下维度:
(1)整篇文档识别的实体个数校验,同一类文档中涉及到的实体个数存在规律性,该维度对于实体漏召回情况可以进行快速校验;
(2)关键字段校验,在整个文档角度,对一些高频词汇进行校验;
(3)实体位置关系校验,不同实体类型在版面布局上,存在一定的上下或左右的位置关系,通过统计分析语料库中实体相对位置关系,对于一些高频、位置关系较强的实体关系进行校验;
(4)关键词分布校验,同实体分布一样,高频关键词在整个文档中的分布也存在一定规律性,通过提取该规律,将其作为评估维度加入到评分体系;
(5)文档解析出的文本node个数校验,Node是指经过文档解析后,被解析成的最小单元的文字块,常见的文档类型中,node个数也应浮动在合理的范围内;
(6)文档解析出的文本node在整个版面中分布信息校验,同实体分布、关键词分布一样,node在整个文档中的分布也存在一定规律性;
(7)字段级别评分校验,实体识别效果较差的文档中往往存在一定比例的不常见文档,所以字段级别评分也作为一个评估维度加入到文档评分中。
3.根据权利要求2所述的一种多维校验文档识别效果的评估方法,其特征在于,所述打分模块主要对上述评分模块中各个维度评分进行汇总、加权,最终输出一个实体级别评分和文档级别评分,同时针对文档识别系统的错例分析,迭代优化各个维度的权重,得到更合理的评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于钧航(武汉)物流信息技术有限公司,未经钧航(武汉)物流信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211151260.X/1.html,转载请声明来源钻瓜专利网。





