[发明专利]基于OCR的案件文本识别方法及电子设备在审
申请号: | 202110304175.1 | 申请日: | 2021-03-22 |
公开(公告)号: | CN112861842A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 朵思惟;余梓飞;张艳丽;王斐 | 申请(专利权)人: | 天津汇智星源信息技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 孙晓凤 |
地址: | 300384 天津市滨海新区华苑产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ocr 案件 文本 识别 方法 电子设备 | ||
1.一种基于OCR的案件文本识别方法,包括:
利用由案卷图片样本集中的初始已标注样本构成的初始训练集,对目标检测模型进行预训练;
利用经过预训练的所述目标检测模型,对所述案卷图片样本集中的多个未标注样本进行主动学习,以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注;
响应于接收到已标注的所述核心样本集,将已标注的所述核心样本集与所述初始训练集合并成标注样本集;
基于所述标注样本集,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练,直至确定所述目标检测模型符合预定要求。
2.根据权利要求1所述的方法,还包括:
在对所述目标检测模型进行预训练之前,对所述初始训练集进行数据增强处理。
3.根据权利要求2所述的方法,还包括:
在将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集之前,对已标注的所述核心样本集进行所述数据增强处理,
其中,将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集包括:将经过所述数据增强处理的已标注的所述核心样本集与经过所述数据增强处理的所述初始训练集合并成所述标注样本集。
4.根据权利要求1所述的方法,其中,所述标注样本集中对每个目标的类别标注信息仅指示该目标是否为文本。
5.根据权利要求1至4中任一项所述的方法,其中,
所述目标检测模型包括YOLOv4模型,其中引入了水平瘦长的第一类锚框和竖直瘦长的第二类锚框。
6.根据权利要求5所述的方法,其中,从所述多个未标注样本中选取所述核心样本集包括:
对于通过主动学习而在所述多个未标注样本中检测到的多个检测框中的每个检测框,基于该检测框的置信度而计算该检测框的分类不确定性;
将所述多个检测框按照各自的所述分类不确定性从大到小的顺序排序;
选取排序后的所述多个检测框中的前N个检测框,将所述多个未标注样本中与所述前N个检测框分别对应的未标注样本作为所述核心样本集,其中N表示预设数量。
7.根据权利要求1至4中任一项所述的方法,其中,利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练包括:
迭代地执行下列操作,直至确定所述目标检测模型符合所述预定要求:
利用所述标注样本集对所述目标检测模型进行中间训练;
使用经过中间训练的所述目标检测模型,对所述案卷图片样本集中去除所述标注样本集后剩余的暂时未标注样本集进行预测,得到多个标签及其对应的置信度;
选取所述暂时未标注样本集中所述置信度超过预定阈值的暂时未标注样本,将所述暂时未标注样本及其对应的所述标签补充到所述标注样本集中。
8.一种案卷文本识别方法,包括:
利用预先以根据权利要求1至7中任一项所述的方法训练好的目标检测模型,从获取的案卷图片中检测出文本框;
利用预定的文本识别模型,识别出所述文本框中的文本。
9.根据权利要求8所述的方法,其中,所述文本识别模型包括卷积循环神经网络CRNN模型。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其中,所述处理器在执行所述计算机程序时实现根据权利要求8或9所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津汇智星源信息技术有限公司,未经天津汇智星源信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110304175.1/1.html,转载请声明来源钻瓜专利网。