[发明专利]一种将图片转成HTML文档的方法有效

专利信息
申请号: 201710850270.5 申请日: 2017-09-15
公开(公告)号: CN107633055B 公开(公告)日: 2021-04-27
发明(设计)人: 黄博;关班记;张远世;齐兆勇;庞毅;何龙泉;季统凯 申请(专利权)人: 国云科技股份有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 523808 广东省东莞市松山湖高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图片 转成 html 文档 方法
【权利要求书】:

1.一种将图片转成HTML文档的方法,其特征在于:所述的方法是利用OCR图片识别技术和OCR识别的PHP接口API,对需要识别的内容进行设置和结果获取;将获得的背景色、大小、位置参数进行优化、层次区分和CSS转储,从而实现图片转HTML;

所述的方法主要包括背景色遍历扫描区分、背景色识别录入背景库、背景库层次迭代OCR识别、文字/非文字识别、相邻/非相邻DIV识别、CSS属性优化、已确定div边框识别;

所述背景色遍历扫描区分,利用OCR图片识别的PHP识别接口,进行横向、纵向像素点颜色值识别,获得第一背景色区域大小和背景色值;然后,遍历整个图片;得到N个第一背景色区域,全部录入背景库,得到第一包络DIV;

所述背景色识别录入背景库,利用WEB前端技术和PHP技术;首先记录每个背景色不同的第一包络DIV的属性,创建一个缓存数组对象JSON,内含多个缓存变量属性;将第一包络DIV属性遍历进这个JSON;

所述背景库层次迭代OCR识别,更新并改进JSON;利用迭代和遍历函数,分析每个第一包络DIV内的组成;将这些组成部分组合为该第一包络DIV的内部子对象;每个内部子对象都有其各自的属性;每个子对象也可能包含子对象,如此遍历下去,获得N个级别的对象合集;

所述文字/非文字识别,定义一个判断,判断是否为文字;若是,则获取到文字内容块的属性后进行自动文字识别;若否,则进入图片处理方式;

所述相邻/非相邻DIV识别,遍历每个相同级别的包络DIV的位置;若处于同一行/列,则进行相邻识别;

所述CSS属性优化,优化内容包括尽量减少/排除绝对定位属性信息,将绝对定位转换成普通定位,通过外边距进行排版;对属性值进行去零取整操作,规范属性值的数字;所有CSS属性被安排存储在一个外在的CSS文件中;HTML文件通过外链调用这个CSS文件;

所述已确定div边框识别,对非文字包络DIV;通过OCR技术扫描并判断DIV目标的包围背景和包围背景与内部背景的距离,同时获得包围背景的颜色值;再次截取边框内的包络DIV,替换掉最初的图片文件,完成图片裁剪边框的操作。

2.根据权利要求1所述的方法,其特征在于:背景色遍历扫描区分时,只识别沿图片纵向方向横向第一位的像素点的颜色值;当遇到不同的像素点颜色时,退回到上一像素点,得到纵向的相同颜色的高度;然后开始转换识别方向,只识别沿图片横向方向的像素点的颜色值;当遇到不同的像素点颜色时,退回到上一像素点,得到横向的相同颜色的宽度;从而确定第一背景色区域大小和背景色值;依次遍历整个图片;得到N个第一背景色区域,全部录入背景库,得到第一包络DIV。

3.根据权利要求1所述的方法,其特征在于:所述第一包络DIV的属性,重要属性包括宽度、高度、位置;

为每个包络DIV对象都创建一个独有的ID属性并赋值。

4.根据权利要求2所述的方法,其特征在于:所述第一包络DIV的属性,重要属性包括宽度、高度、位置;

为每个包络DIV对象都创建一个独有的ID属性并赋值。

5.根据权利要求1至4任一项所述的方法,其特征在于:所述的文字/非文字识别的文字内容块的属性包括宽度、高度、相对/绝对位置、文字大小、字体、字体颜色;

图片处理方式是:首先得到区域的范围,即同样得到宽度、高度、位置属性,其次利用PHP的图片截取函数自定义出一个图片截取方法;所截取的内容就是包括边框的图片DIV的内容;所截图片只能是矩形;且得到最终图片格式为最佳大小的JPG格式。

6.根据权利要求1至4任一项所述的方法,其特征在于:所述相邻/非相邻DIV识别中,算出DIV块之间的像素点的合,即像素距离;此距离作为外边距属性存至属性JSON内,后期可以方便进行CSS优化。

7.根据权利要求1至4任一项所述的方法,其特征在于:所述CSS属性优化中所有元素的CSS定位标签都是ID定位。

8.根据权利要求6所述的方法,其特征在于:所述CSS属性优化中所有元素的CSS定位标签都是ID定位。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710850270.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top