[发明专利]文档版面智能化分析方法及装置有效
申请号: | 201910402163.5 | 申请日: | 2019-05-15 |
公开(公告)号: | CN109948598B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 王文广;马振宇;周炳诚;蔡华;陈运文;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;马云超 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种文档版面智能化分析方法及装置,通过对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。具备了区分复杂布局文档中的文本与非文本区域;能够针对线的特点进行定制化要素分析,效果好且效率高;高效率智能化地实现了对表格和图像的分类;适合所有文档版面进行智能化地分析等优点。 | ||
搜索关键词: | 二值图像 文档版面 非文本 连通域 智能化分析 过滤结果 灰度图像 前景元素 智能化 图像 文本 文本区域图像 原文档图像 复杂布局 文本区域 要素分析 定制化 高效率 灰度化 分类 卷积 文档 与非 矫正 剔除 过滤 投影 申请 分析 网络 | ||
【主权项】:
1.一种文档版面智能化分析方法,其特征在于,包括:对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类;其中,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:提取出所述第二二值图像中竖直方向的竖直多级同构区域;针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910402163.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种高压断路器机械故障诊断方法
- 下一篇:一种智能文字识别笔及文字识别系统