[发明专利]一种OCR全文本识别正确率的自动化测试方法及设备有效
| 申请号: | 201811058433.7 | 申请日: | 2018-09-11 |
| 公开(公告)号: | CN109389109B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 周文贵;黄文英;郭国强;卢敏 | 申请(专利权)人: | 厦门商集网络科技有限责任公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F40/186;G06F40/279;G06F40/12 |
| 代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 何小星 |
| 地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 ocr 文本 识别 正确率 自动化 测试 方法 设备 | ||
1.一种OCR全文本识别正确率的自动化测试方法,其特征在于,包括如下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率;
所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息单元包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器;
所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;
根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
2.根据权利要求1所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。
3.根据权利要求2所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811058433.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:取像装置
- 下一篇:一种区域确定方法及装置





