[发明专利]一种智能解析PDF图文的方法在审

申请号：	202011499539.8	申请日：	2020-12-17
公开（公告）号：	CN112633116A	公开（公告）日：	2021-04-09
发明（设计）人：	张贝贝;郭仲穗;郑浩然;仵晨伟;魏嵬	申请（专利权）人：	西安理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/46;G06K9/62
代理公司：	西安弘理专利事务所 61214	代理人：	戴媛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能解析 pdf 图文方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种智能解析PDF图文的方法，对输入文档进行数据处理，得到待处理图像；采用分类器提取待处理图像中的目标图像；采用角点对目标图像进行检测，判断箭头方向；采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况，获得解析后的股权关系。本发明一种智能解析PDF图文的方法，解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。

技术领域

本发明属于人工智能技术领域，具体涉及一种智能解析PDF图文的方法。

背景技术

图像识别技术是人工智能的一个重要应用，它是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域有重要的应用价值。目前对文本的识别研究是建立在已有的文本上，主要涉及词义转换、词频统计等方面，仅仅是对PDF文本关键信息切分、文本段落信息抽取、表格信息处理等纯文字或者高度统一的弱图像分析，然而关于PDF文档的图像识别、文本解析等比较欠缺，对PDF中的重要关系图的提取解析少之又少。

发明内容

本发明的目的是提供一种智能解析PDF图文的方法，解决了现有技术中存在的对PDF文档的图像识别、文本解析、提取重要关系图比较欠缺的问题。

本发明所采用的技术方案是一种智能解析PDF图文的方法，具体按照以下步骤实施：

步骤1，对输入文档进行数据处理，得到待处理图像；

步骤2，采用分类器提取待处理图像中的目标图像；

步骤3，采用角点对目标图像进行检测，判断箭头方向；

步骤4，采用OCR技术与步骤3所得出的箭头方向判断目标图像的多重竖直情况，获得解析后的股权关系。

本发明的特点还在于：

步骤1具体为：

在客户端网页输入系统文档A，经过筛选条件函数T(x)将其转化为B＝T(A)，再经过图片转换函数F(x)转化为C＝F(B)；具体表达式如下：

式(1)中，B为筛选后文件，C为图片集合。

步骤2具体为：