[发明专利]一种打印内容格式化提取方法有效
| 申请号: | 201910526081.1 | 申请日: | 2019-06-18 |
| 公开(公告)号: | CN110210455B | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 夏莫戛;张文静;甘玉涛;樊利红 | 申请(专利权)人: | 石家庄捷弘科技有限公司 |
| 主分类号: | G06V30/412 | 分类号: | G06V30/412 |
| 代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
| 地址: | 050000 河北省石家庄市*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 打印 内容 格式化 提取 方法 | ||
本发明涉及文档打印技术领域,具体是一种打印内容格式化提取方法,包括以下步骤:S1.将打印文档的打印内容截取转换为打印元素,生成打印元素集;S2.根据采样的打印元素集设计提取元素,生成提取模版;S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果。该打印内容格式化提取方法有效解决了纯文本内容提取的不足,可以灵活、高效、准确的提取复杂表单中的内容。对OCR形式进行了有效的补充和优化。对精确坐标提取进行了创新的改进,容器提取元素嵌入基本提取元素的组合可以有效应对复杂的提取表单。可视化的模版设计界面,极大的简化的设计难度,提高了设计的效率。
技术领域
本发明涉及文档打印技术领域,具体是一种打印内容格式化提取方法。
背景技术
目前打印输出是各行各业必不可少的一种输出内容方式,但打印输出的内容只适合人眼观看、阅读,无法有效的将输出内容再次数据格式化,不利于数据的二次处理。在当前大数据流行的时代,我们亟需一种方式将其他系统的打印输出内容重新数据格式化,这样才能在没有数据接口授权的情况下将公开的有效数据以低成本、高效率的方式重新利用起来。为大数据计算、人工智能等应用提供基础的数据获取解决方案。
现在的内容提取方式主要有三种。第一种,获取纯文本打印内容,针对特殊关键字进行文字分割和查找匹配。第二种,将打印内容完全转换为图片,利用OCR技术提取内容。第三种,解析打印标准,获取到精确的内容和匹配的坐标信息,利用坐标分区提取内容。
三种提取方式各有优缺点:第一种方式的优点是获取基础数据方式简单。缺点是无法精准的提取复杂信息,对于大量不标准表格数据(例如有些行列数据缺失等)极易产生解析错误。第二种方式的优点是可以自由划定提取区域,可对各种形式的打印内容统一转成图片处理。缺点是一般OCR解析内容准确性不高,或依赖大数据训练后获得较高的准确率和性能(技术实现难度高)。第三种方式的优点是内容精确不用解析,内容带坐标方便划分。缺点是不方便将零散的数据组合,对某些原本就是图片内容的数据无法处理。
发明内容
本发明的目的在于提供一种打印内容格式化提取方法,以解决上述背景技术中提出的复杂内容提取困难的问题;主要包括:提取的表单行数不确定,无法准确在提取前确定行数的问题;表单行大小不同对划区提取造成影响的问题;表单数据分页显示提取的问题;提取内容干扰信息去除的问题;图文混排提取方式灵活转换的问题;提取信息浮动定位的问题。
为实现上述目的,本发明提供如下技术方案:
一种打印内容格式化提取方法,包括以下步骤:
S1.将打印文档的打印内容截取转换为打印元素(包括文本内容和相对页面左上角的x、y坐标,还有文本内容显示的高度和宽度信息),生成打印元素集(包括打印文档名称,总共的打印页数,每页的索引号,每页的高度和宽度,每页内包含的打印元素,另外包括每页独立的页面图片);
S2.根据采样的打印元素集设计提取元素(主要包括提取元素类型,关键词,提取范围(提取x、y坐标和高度、宽度,提取元素可以嵌套),和其它一些特殊类型属性信息),生成提取模版;
S3.输入打印元素集和提取模版,利用提取引擎进行运算,生成格式化提取结果(包括所有经过提取元素提取出来的数据,用关键字和提取到的内容组成键值对数据)。
作为本发明进一步的方案:步骤S2中,所述提取模版包括提取模版名称、多个提取元素和一组处理脚本;所述提取元素包括基本提取元素或容器提取元素,提取元素可以嵌套组合。
作为本发明再进一步的方案:所述基本提取元素包括文本提取元素或条码提取元素;所述文本提取元素包含提取键值和一组坐标,一组坐标用于相对于当前页划定一个区域并提取在此区域中的打印元素,提取键值用于将提取到的内容生成键值对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于石家庄捷弘科技有限公司,未经石家庄捷弘科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910526081.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





