[发明专利]发行公告版面分析方法在审
申请号: | 202110403839.X | 申请日: | 2021-04-15 |
公开(公告)号: | CN113033541A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 周玉飞 | 申请(专利权)人: | 北京合众鼎成科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 郭官厚 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发行 公告 版面 分析 方法 | ||
本发明提供发行公告版面分析方法,涉及数据处理技术领域。该发行公告版面分析方法,包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置。本发明利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序,采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界,达到版面元素精确标记的目标。
技术领域
本发明涉及数据处理技术领域,具体为发行公告版面分析方法。
背景技术
理想的版面分析技术能够定位给定文档版面中的文本段落、表格和图等元素,并构建版面各个元素的阅读逻辑顺序。然而当前的版面分析技术存在着诸多不足。
当前基于图像处理方法的版面分析,主要通过对图像进行滤波、锐化等处理,利用投影,连通域分析和形态学处理方法来划分区域。由于该方法依赖于图像的形态学等特征,对背景复杂、字符较少的版面图像版面元素定位效果不佳。现有基于深度学习的目标检测技术能够将版面中的文本段落、表格和图等元素视为不同的目标进行检测,从而获得版面元素的类别和位置信息。现阶段版面逻辑阅读顺序的构建方法主要分为两类,一类利用OCR识别的结果信息,根据中文词语和英文单词字母的连续性来重建阅读顺序,另一类则基于图论理论来构建阅读顺序,此类方法把文字块的邻接关系表示为有向图,利用自然语言处技术计算连接间的权重值,采用最优化的方法建立文字块的阅读顺序。
现有发明专利(公开号为CN104516891B)公开了一种版面分析方法及系统,该发明采用逻辑参考信息与基本图元数据信息结合的方式,并在版面分析过程中充分利用这部分逻辑参考消息,从而得到更准确的版面文档的版面分析结果,有效
现有发明专利(公开号为CN100568221C)公开了一种对报纸版面进行文字阅读顺序恢复的方法,该发明以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流,利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。然而这种根据图论进行建模的方法需要利用自然语言处理技术,只能处理纯文本类的版面,对包含表格、图等其它元素版面,无法构建完整和准确的阅读逻辑顺序。
现有发明专利(公开号为CN110674721A)公开了一种试卷版面公式自动检测的方法,该试卷版面公式自动检测的方法针对扫描及拍照试卷这种特殊的文档图像数据,提出将mobilenetv2、advance east和ssd算法结合的整体解决方案,整体基于ssd网络架构,将原有主干网络替换成更加轻量级的mobilenetv2网络,并引入advance east算法中的特征融合方式,最后,从融合后的特征图上,分阶段从不同层中预测大小不同的目标物体,然而利用目标检测算法获取到的版面元素位置,通常元素边界处分割不准确,具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象,导致版面元素定位效果不佳。
综上所述,需要对现有版面分析技术进行改进。
发明内容
(一)解决的技术问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京合众鼎成科技有限公司,未经北京合众鼎成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403839.X/2.html,转载请声明来源钻瓜专利网。