[发明专利]面向PDF表格的自动识别系统和方法有效
申请号: | 201811627644.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109670477B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 张长虹;冯卫强;张友豪;罗万昆;王瑞;贺晓燕 | 申请(专利权)人: | 上海大智慧财汇数据科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200120 上海市浦东新区自由贸易试*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 pdf 表格 自动识别 系统 方法 | ||
1.一种面向PDF表格的自动识别系统,其特征在于,包括:
识别表格模块:扫描PDF格式的报表,识别出PDF文件中的表格内容、文字内容;
抽取表格模块:完整保留原始表格样式,根据业务需求解析表格内容,对原始表格样式进行调整,得到调整后表格样式;
识别文字模块:自动识别表格内容中的文本和表头,将文本和表头以结构化形式输出,得到结构化入库数据;
筛选校验模块:对结构化入库数据进行筛选,根据业务需求过滤无效信息,校验表头各个科目数据的业务平衡性,得到校验合格数据并录入数据库;
表格展示模块:根据原始表格样式或者调整后表格样式对校验合格数据进行展示,并提供表格下载,得到excel格式的表格;
PDF文件分为4个部分,文件头、文件体、交叉引用表和文件尾;其中,文件头,指明该PDF文件所遵从的PDF规范的版本号,出现在PDF文件的第一行;文件体,由多个对象组成;交叉引用表,为间接对象的地址索引表;文件尾,声明交叉引用表的地址,从而能够找到PDF文件中各个对象的位置;
面向PDF表格的自动识别系统以二进制读取的方式打开PDF文件进行文件分析;
文件分析开始于检查头部签名和结尾签名;
分析完成后,拥有所有的间接对象的数组,接下来遍历所有的对象,并处理流对象;
面向PDF表格的自动识别系统读取和对象相关联的流,并分解流到多个间接对象上;
面向PDF表格的自动识别系统跟随从根开始的页面树来构建页内容;页对象字典有/Contents的键值对,面向PDF表格的自动识别系统将为来自于一个或多个内容流的页面创建虚拟的内容流;
最后,面向PDF表格的自动识别系统从每个内容流通过关键字参数定位到所需内容索引号;
然后进行表格抽取,通过动态提取处理及优化转换数据,过滤无效信息,提取表格及文本数据,智能判断合并与补全表格,识别虚线图片表格,构成PDF中完整表格样式;并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割,优化对图片表格的识别;
面向PDF表格的自动识别系统支持生成个性化表格样式,对表格进行拆分;
在文字识别时,自动识别PDF文件中的文字,结构化输出相关的内容,基于深度学习技术,实现各类财务报表图片的快速识别和结构化入库;在数据筛选与校验中,通过解析科目,检测其是否为必备科目,若已有必备科目,则跳过,动态提取处理转换的数据,过滤无效信息;同时对相关科目数据进行平衡校验,对主要财务数据进行勾稽关系校验,将校验合格的数据自动录入数据库;
其中,科目是对财务相关的要素具体内容进行分类;必备科目以财务的三大报表为准,同时结合实际的业务判断是否需要加入其他财务要素,如需要则视为必备科目。
2.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述扫描PDF格式的报表是通过二进制读取的方式,根据读取得到的一个或多个内容流创建虚拟内容流,并对虚拟内容流创建内容索引号,每个内容流通过关键字参数定位到所需的内容索引号。
3.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述调整后表格样式是通过对原始表格样式的合并与补全,采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。
4.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述识别表格内容基于深度学习,深度学习通过财务报表数据库进行。
5.根据权利要求1所述的面向PDF表格的自动识别系统,其特征在于,所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大智慧财汇数据科技有限公司,未经上海大智慧财汇数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811627644.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户头像的生成方法及装置、电子设备、存储介质
- 下一篇:电子设备及其控制方法