[发明专利]一种快速标注OCR错误的方法在审
申请号: | 202310306782.0 | 申请日: | 2023-03-27 |
公开(公告)号: | CN116206311A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王冠 | 申请(专利权)人: | 可之(宁波)人工智能科技有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06V10/764 |
代理公司: | 六安创新傲风知识产权代理事务所(普通合伙) 34258 | 代理人: | 龚鑫 |
地址: | 315000 浙江省宁波*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 标注 ocr 错误 方法 | ||
本发明涉及教育技术领域,且公开了一种快速标注OCR错误的方法,包括以下步骤:1)、读取小题数据:读取一个小题的OCR识别数据;2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;5)、导出数据。本发明通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注,在对同一小题的识别数据进行排序时可采用四种不同的排序方式,排序方式可选择,整体排序准确度提高。
技术领域
本发明涉及教育技术领域,尤其涉及一种快速标注OCR错误的方法。
背景技术
ocr识别错误数据对后续的ocr修复、训练都有很大帮助。但是要很快找到ocr识别错误的数据却是比较麻烦的;
传统的标注方法是需要人工一个个依次标注,比较缓慢,整体效率有待提高。
为此,我们提出一种快速标注OCR错误的方法。
发明内容
本发明主要是解决上述现有技术所存在的技术问题,提供一种快速标注OCR错误的方法。
为了实现上述目的,本发明采用了如下技术方案,一种快速标注OCR错误的方法,包括以下步骤:
1)、读取小题数据:读取一个小题的OCR识别数据;
2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;
3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;
4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;
5)、导出数据。
作为优选,所述步骤一中在进行识别时,单次OCR识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存。
作为优选,所述步骤二中排序时仅限于同一小题内数据进行排序,排序方式有四种。
作为优选,所述步骤2中的排序方式包括以下:a.按与答案接近的程度进行排序;
b.按照机器批阅结果进行排序;
c.按文字词汇正确的程度进行排序;
d.按文字的置信程度进行排序。
作为优选,所述步骤三中同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片。
作为优选,所述步骤四中在对数据进行数据框选时采用人工框选的方式。
有益效果
本发明提供了一种快速标注OCR错误的方法。具备以下有益效果:
(1)、该一种快速标注OCR错误的方法,读取一个小题的OCR识别数据,识别后的字符转换为计算机文字并进行储存,然后采用特定的方式对识别转换的小题数据进行特定的综合排序,排序时仅限于同一小题内数据进行排序,识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示,同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,人工观察快速查看缩略图找出ocr异常的数据进行选中,在同一个小题内,考生的书写内容不会有太多可能的写法,通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于可之(宁波)人工智能科技有限公司,未经可之(宁波)人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310306782.0/2.html,转载请声明来源钻瓜专利网。