[发明专利]一种将图片转成HTML文档的方法有效
申请号: | 201710850270.5 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107633055B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 黄博;关班记;张远世;齐兆勇;庞毅;何龙泉;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523808 广东省东莞市松山湖高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图片 转成 html 文档 方法 | ||
本发明涉及网页开发领域,特别是一种将图片转成HTML文档的方法。本发明所述的方法是利用OCR图片识别技术和OCR识别的PHP接口API,对需要识别的内容进行设置和结果获取;将获得的背景色、大小、位置等参数进行优化、层次区分和CSS转储,从而实现图片转HTML;所述的方法主要包括背景色遍历扫描区分、背景色识别录入背景库、背景库层次迭代OCR识别、文字/非文字识别、相邻/非相邻DIV识别、CSS属性优化、已确定div边框识别。本发明能将高清的网页设计图片转为HTML格式的文件,免去人工操作的繁琐,节约调试时间;适用于网页设计等。
技术领域
本发明涉及网页开发技术领域,特别是一种将图片转成HTML文档的方法。
背景技术
网页设计/美工人员通常将一个网页设计导出成图片的形式;网页前端人员负责将图片转成前端HTML供后端人员开发功能;前端人员往往需要很大的工作量,才能完成一个前端demo的制作;
目前尚未有一项技术是能利用WEB应用自动将图片转换成HTML格式文件的。
发明内容
本发明解决的技术问题在于提供一种将图片转成HTML文档的方法;实现将web上的图片转成HTML文档。
本发明解决上述技术问题的技术方案是:
所述的方法是利用OCR图片识别技术和OCR识别的PHP接口API,对需要识别的内容进行设置和结果获取;将获得的背景色、大小、位置等参数进行优化、层次区分和CSS转储,从而实现图片转HTML。
所述的方法主要包括背景色遍历扫描区分、背景色识别录入背景库、背景库层次迭代OCR识别、文字/非文字识别、相邻/非相邻DIV识别、CSS属性优化、已确定div边框识别;
所述背景色遍历扫描区分,利用OCR图片识别的PHP识别接口,进行横向、纵向像素点颜色值识别,获得第一背景色区域大小和背景色值;然后,遍历整个图片;得到N个第一背景色区域,全部录入背景库,得到第一包络DIV;
所述背景色识别录入背景库,利用WEB前端技术和PHP技术;首先记录每个背景色不同的第一包络DIV的属性,创建一个缓存数组对象JSON,内含多个缓存变量属性;将第一包络DIV属性遍历进这个JSON;
所述背景库层次迭代OCR识别,更新并改进JSON;利用迭代和遍历函数,分析每个第一包络DIV内的组成;将这些组成部分组合为该第一包络DIV的内部子对象;每个内部子对象都有其各自的属性;每个子对象也可能包含子对象,如此遍历下去,获得N个级别的对象合集;
所述文字/非文字识别,定义一个判断,判断是否为文字;若是,则获取到文字内容块的属性后进行自动文字识别;若否,则进入图片处理方式;
所述相邻/非相邻DIV识别,遍历每个相同级别的包络DIV的位置;若处于同一行/列,则进行相邻识别;
所述CSS属性优化,优化内容包括尽量减少/排除绝对定位属性信息,将绝对定位转换成普通定位,通过外边距进行排版;对属性值进行去零取整操作,规范属性值的数字;所有CSS属性被安排存储在一个外在的CSS文件中;HTML文件通过外链调用这个CSS文件;
所述已确定div边框识别,对非文字包络DIV;通过OCR技术扫描并判断DIV目标的包围背景和包围背景与内部背景的距离,同时获得包围背景的颜色值;再次截取边框内的包络DIV,替换掉最初的图片文件,完成图片裁剪边框的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710850270.5/2.html,转载请声明来源钻瓜专利网。