[发明专利]翻页异常检测方法有效
申请号: | 202110046802.6 | 申请日: | 2021-01-14 |
公开(公告)号: | CN114140778B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 豆浩斌;陈博;朱风云;庞在虎 | 申请(专利权)人: | 北京灵伴即时智能科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻页 异常 检测 方法 | ||
本发明公开了一种翻页异常检测方法,包括:设定并选取页码区域类型;截取页码区域图像;光学字符识别;提取候选页码;过滤候选页码;生成初步识别结果;平滑及确认处理;判定并标记翻页异常类型。采用本发明的翻页异常检测方法能够应对诸如页码在文档中的位置变化、页码与正文数字间的混淆以及光学字符识别算法失败或错误等复杂情况,自动查找和标记文档扫描中的异常情况,为后续人工核验和补充扫描提供便利,切实提高了自动翻页扫描仪的性能,在减少人力、提高效率的同时保证扫描结果的质量和完整性。
技术领域
本发明涉及翻页扫描技术领域,特别涉及一种翻页异常检测方法。
背景技术
对海量书籍文档进行电子化是意义重大而又任务繁重的工程。为了节省人力、提高效率,自动翻页扫描仪得以研发并应用,自动翻页扫描仪是一种可以自动翻阅装订完好的书籍文档并将其逐页拍摄为电子图片的自动化设备;自动翻页扫描仪通过自动翻页和拍摄装置可以在无需人工干预或者极少人工干预的情况下高效地完成纸质文档的电子化。
现有技术中,自动翻页扫描仪在工作过程中经常会出现漏页、重页等异常情况,导致扫描结果不完整,增加了后续人工核验的工作量。为了解决该问题,现有技术中的自动翻页扫描仪增加了翻页异常检测装置,通常所采用的方案是安装超声波发射器和接收器,通过检测超声波穿透所翻起的纸张后的信号变化来判断是否发生漏页或重页等异常情况,从而确定是否翻页失败,并尝试重新翻页。然而,发明人经研究发现,该方案不仅增加了硬件成本,并且由于纸张状况不同,检测装置的参数也不易设置,因此仍然难以完全避免漏页或重页等异常情况,无法保证扫描结果的完整性,仍然需要人工来进行逐页核验。
发明内容
基于此,为解决现有技术中的技术问题,使得自动翻页扫描仪能够快速、即时地发现文档翻页过程中出现的异常情况,减少后续人工核验工作量,本发明特提出了一种翻页异常检测方法,包括:
步骤1,根据设定的页码区域类型将页面图像划分为多个页面区域,通过选取页码区域类型来限定用于页码识别的页面区域;
步骤2,根据选取的所述页码区域类型在所述页面图像中截取对应的页码区域图像;
步骤3,对截取的所述页码区域图像进行光学字符识别并输出页码区域图像中的文本信息;
步骤4,在光学字符识别得到的所述文本信息中查找并提取出现的所有数字信息并将其作为候选页码,所述候选页码构成候选页码集合;
步骤5,查询所述候选页码集合中候选页码的上下文,过滤其中前置量词或后跟量词为非页码量词的候选页码;
步骤6,对过滤后的候选页码集中的候选页码按照其坐标位置进行排序,选取最靠近页面边缘的候选页码作为初步识别结果;
步骤7,根据文档页码连续递增的特性,利用相邻页面的页码识别结果对当前页面的初步识别结果进行平滑及确认处理,生成页码识别结果;
步骤8,根据页码识别结果对页面的翻页异常类型进行判定和标记,得到翻页异常检测结果。
在一种实施例中,根据设定的页码区域类型将页面图像划分为多个页面区域,具体包括:
将页面图像均等地划分为9个区域,由于除中心页面区域之外的其他页面区域皆是页码可能出现的页面区域,将除中心页面区域之外的其他页面区域的页码区域类型分别设定为左上、中上、右上、左中、右中、左下、中下、右下。
在一种实施例中,选取最靠近页面边缘的候选页码作为初步识别结果,具体包括:
对于页码区域类型为左上、中上和右上的页码区域图像,选取最靠近页码区域图像上边缘的候选页码作为初步识别结果;
对于页码区域类型为左中的页码区域图像,选取最靠近页码区域图像左边缘的候选页码作为初步识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京灵伴即时智能科技有限公司,未经北京灵伴即时智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110046802.6/2.html,转载请声明来源钻瓜专利网。