[发明专利]一种OCR全文本识别正确率的自动化测试方法及设备有效

专利信息
申请号: 201811058433.7 申请日: 2018-09-11
公开(公告)号: CN109389109B 公开(公告)日: 2021-05-28
发明(设计)人: 周文贵;黄文英;郭国强;卢敏 申请(专利权)人: 厦门商集网络科技有限责任公司
主分类号: G06K9/20 分类号: G06K9/20;G06F40/186;G06F40/279;G06F40/12
代理公司: 福州科扬专利事务所(普通合伙) 35001 代理人: 何小星
地址: 361000 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 ocr 文本 识别 正确率 自动化 测试 方法 设备
【权利要求书】:

1.一种OCR全文本识别正确率的自动化测试方法,其特征在于,包括如下步骤:

根据OCR全文本识别定义,创建对应的模板;

收集多个用于OCR识别的样本;

以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;

调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;

将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;

根据匹配结果,计算该次测试的识别正确率;

所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息单元包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;

创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器;

所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;

所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;

根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。

2.根据权利要求1所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。

3.根据权利要求2所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811058433.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top