[发明专利]文档版面智能化分析方法及装置有效

专利信息
申请号: 201910402163.5 申请日: 2019-05-15
公开(公告)号: CN109948598B 公开(公告)日: 2019-09-06
发明(设计)人: 王文广;马振宇;周炳诚;蔡华;陈运文;纪达麒 申请(专利权)人: 达而观信息科技(上海)有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/62
代理公司: 北京卓唐知识产权代理有限公司 11541 代理人: 唐海力;马云超
地址: 201203 上海市浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 二值图像 文档版面 非文本 连通域 智能化分析 过滤结果 灰度图像 前景元素 智能化 图像 文本 文本区域图像 原文档图像 复杂布局 文本区域 要素分析 定制化 高效率 灰度化 分类 卷积 文档 与非 矫正 剔除 过滤 投影 申请 分析 网络
【权利要求书】:

1.一种文档版面智能化分析方法,其特征在于,包括:

对原文档图像进行灰度化,得到灰度图像;

对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;

获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;

提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;

提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;

将所述过滤结果输入分离投影深度卷积网络进行分类;

其中,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:

提取出所述第二二值图像中竖直方向的竖直多级同构区域;

针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;

根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;

根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。

2.根据权利要求1所述的文档版面智能化分析方法,其特征在于,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:

获取所述灰度图像中文本倾斜角度;

在所述文本倾斜角度超过2o时,通过最大行间方差算法对所述灰度图像进行倾斜矫正;

通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。

3.根据权利要求1所述的文档版面智能化分析方法,其特征在于,在所述所有前景元素的连通域中剔除非文本的连通域,包括:

判断所述前景元素的连通域是否满足下述条件中的至少一个:

所述前景元素的连通域内像素个数小于6个;

一个所述前景元素的连通域内包含4个以上的子连通域;

所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;

所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;

在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。

4.根据权利要求1所述的文档版面智能化分析方法,其特征在于,所述提取出所述第二二值图像中竖直方向的多级同构区域,包括:

对所述第二二值图像做竖直投影,得到第一投影向量集;

将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;

根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;

根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;

分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;

如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;

将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直多级同构区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910402163.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top