[发明专利]基于OCR的案件文本识别方法及电子设备在审
申请号: | 202110304175.1 | 申请日: | 2021-03-22 |
公开(公告)号: | CN112861842A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 朵思惟;余梓飞;张艳丽;王斐 | 申请(专利权)人: | 天津汇智星源信息技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 孙晓凤 |
地址: | 300384 天津市滨海新区华苑产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 案件 文本 识别 方法 电子设备 | ||
本公开提供了一种基于OCR的案件文本识别方法及电子设备。该文本识别方法包括:利用由案卷图片样本集中的初始已标注样本构成的初始训练集,对目标检测模型进行预训练;利用经过预训练的所述目标检测模型,对多个未标注样本进行主动学习,以选取具有样式代表性的核心样本集供人工标注;将已标注的核心样本集与初始训练集合并成标注样本集;基于所述标注样本集,利用半监督学习方法对所述目标检测模型进行迭代训练,直至确定所述目标检测模型符合预定要求。本公开提供的文本识别方法能够实现标注样本的多样化,同时选取合适的目标检测模型进行迭代训练,不断更新和扩大标注数据集,直接降低人工标注样本的人力和时间损耗。
技术领域
本公开涉及深度学习技术领域,尤其涉及一种基于OCR的案件文本识别方法及电子设备。
背景技术
现有纸质案卷一般通过人工录入的方式对案卷信息进行结构化处理和保存,以便日后的电子案卷管理和查询。但这种方式在处理大规模案卷资料时人力成本过高,且手工录入也容易出现错误。对于结构化且版式简单的案卷,现有的自动识别技术可以针对待识别案卷固定的几何位置或特殊的定位符号,通过定位符号或者简单的集合换算对案卷信息进行提取,并利用光学字符识别技术对字符进行检测和识别。
实际情况中,案卷版式复杂且样式繁多,例如案卷中存在的印章、指纹干扰,文字变形等情况。基于深度学习的光学字符识别技术对这类案卷进行文字识别时,需要大量且高质量的标注样本,但在工业应用场景中很难获取大量的标注样本。若想获得高精度的预训练模型的训练结果,需要大量人工对未标注的样本进行标注。在已标注案卷样本有限的情况下,亟需一种通用的方法或设备可以准确有效地自动识别案卷中的文本信息。
发明内容
有鉴于此,本公开的目的在于提出一种基于OCR的案件文本识别方法及电子设备。
基于上述目的,本公开提供了一种基于OCR的案件文本识别方法,包括:
利用由案卷图片样本集中的初始已标注样本构成的初始训练集,对目标检测模型进行预训练;
利用经过预训练的所述目标检测模型,对所述案卷图片样本集中的多个未标注样本进行主动学习,以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注;
响应于接收到已标注的所述核心样本集,将已标注的所述核心样本集与所述初始训练集合并成标注样本集;
基于所述标注样本集,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练,直至确定所述目标检测模型符合预定要求。
本公开还提供了一种案卷文本识别方法,包括:
利用预先以根据如上所述基于OCR的案件文本识别方法训练好的目标检测模型,从获取的案卷图片中检测出文本框;
利用预定的文本识别模型,识别出所述文本框中的文本。
本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其中,所述处理器在执行所述计算机程序时实现如上所述案卷文本识别方法。
从上面所述可以看出,本公开提供的一种用目标检测模型训练方法、案卷文本识别方法及电子设备,利用主动学习的方式使标注样本尽量涵盖所有可能的样式,且每种样式都包含足够多的样本,减少人工标注的成本。同时,通过半监督学习的方式,选取合适的文本检测模型进行迭代训练,不断更新和扩大标注数据集,提升模型性能,实现对案卷图片较为精准的标注,直接降低人工标注样本的人力和时间损耗。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津汇智星源信息技术有限公司,未经天津汇智星源信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110304175.1/2.html,转载请声明来源钻瓜专利网。