[发明专利]一种基于OCR的文档版本管理方法和系统在审
| 申请号: | 201910536932.0 | 申请日: | 2019-06-20 |
| 公开(公告)号: | CN112115111A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 宋嘉琪;张怀朋;于航;张智俊;郭庆河 | 申请(专利权)人: | 上海怀若智能科技有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06K9/00;G06K9/34;G06K9/62 |
| 代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 邓文武 |
| 地址: | 200439 上海市宝山*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ocr 文档 版本 管理 方法 系统 | ||
1.一种基于OCR的文档版本管理方法,其特征在于,所述方法包括以下步骤:
步骤1:对图片类文档进行OCR文字识别后得到纯文本文档;
步骤2:对纯文本文档进行文本结构还原;
步骤3:对文本结构还原后的纯文本文档进行对比,得到文档对比结果;
步骤4:对文档对比结果进行结果后处理,并进行文档对比结果展示。
2.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于,OCR文字识别的步骤为:
步骤1.1:对图片类文档进行图像角度校正和图像降噪处理,并将图片类文档调整为单通道的图像数据;
步骤1.2:加载OCR文字识别模型,并将单通道的图像数据输入OCR文字识别模型进行目标检测,获取表格坐标后按照表格坐标将图片类文档分割为多个小图片;
步骤1.3:加载OCR文字识别模型,并将小图片输入OCR文字识别模型进行文字识别,得到文字识别数据;
步骤1.4:对文字识别数据进行过滤、排序以及合并处理后得到纯文本文档。
3.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于:文本结构还原包括自由文本结构还原和表格检测。
4.根据权利要求3所示的基于OCR的文档版本管理方法,其特征在于,自由文本结构还原的步骤为:
步骤2.1:根据纯文本文档的行间距、行首、行尾的特征判断纯文本文档的段落启始和结束位置,并在段落间插入换行符标记;
步骤2.2:检测并判断纯文本文档中是否存在目录,若存在,则转到步骤2.3,若不存在,则转到步骤2.4;
步骤2.3:识别目录内容,根据目录定位章节位置,根据章节位置还原图片类文档章节结构;
步骤2.4:根据纯文本文档的标题、行间距的特征定位章节位置,根据章节位置还原图片类文档章节结构。
5.根据权利要求3所述的基于OCR的文档版本管理方法,其特征在于,表格检测的步骤为:
步骤3.1:检测并定位纯文本文档中横线和竖线的交点,并按照直角坐标系的x轴和y轴对交点进行优先级排序;
步骤3.2:遍历所有横线和竖线的交点,取当前交点作为候选单元格的左侧交点;
步骤3.3:根据左侧交点所在横线,判断横线右侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.4:根据右侧交点所在竖线,判断竖线下方是否存在交点,若不存在,则转到步骤3.2;
步骤3.5:根据下方交点所在横线,判断横线左侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.6:判断左上和左下交点是否在一条竖线上,若是,则候选单元格成立,若否,则候选单元格不成立,并转到步骤3.2。
6.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于,对文本结构还原后的纯文本文档进行对比的步骤为:
步骤4.1:判断图片类文档和纯文本文档是否存为空文本,若存在,则提示异常并结束对比;
步骤4.2:判断图片类文档和纯文本文档是否相等,若相等,则将纯文本文档状态进行定义并结束对比;
步骤4.3:查找图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并将最长相同前缀和最长相同后缀状态进行定义;
步骤4.4:除去图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并查找最大相同子集;
步骤4.5:以最大相同子集为分界线将图片类文档和纯文本文档切分为图片类文档和纯文本文档的前缀、子集、后缀,将图片类文档和纯文本文档的前缀作为输入,重复步骤4.1-步骤4.5,再将图片类文档和纯文本文档的后缀作为输入,重复步骤4.1-步骤4.5;
步骤4.6:若任意一个输入长度小于等于1,则对比结束。
7.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于:结果后处理是对文档对比结果进行四角编码校正、映射表验证以及特殊符号验证处理。
8.一种基于OCR的文档版本管理系统,其特征在于:包括OCR文本识别模块、文本结构还原模块、对比处理模块、结果后处理模块以及结果展示模块;
OCR文本识别模块:对图片类文档进行OCR文字识别后得到纯文本文档;
文本结构还原模块:对纯文本文档进行结构还原,还原图片类文档的章节和段落结构,并进行表格检测;
对比模块:对文本结构还原后的纯文本文档进行对比,并以数组的形式将图片类文档和纯文本文档的所有差异格式化;
结果后处理模块:对图片类文档和纯文本文档进行四角编码校正、映射表验证以及特殊符号验证处理;
结果展示模块:对图片类文档和纯文本文档的文档对比结果进行页面展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海怀若智能科技有限公司,未经上海怀若智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910536932.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:社交电商引流裂变微信应用平台
- 下一篇:一种制冷剂充注方法和系统





