[发明专利]页面转换方法、装置和页面转换设备在审
申请号: | 201711200872.2 | 申请日: | 2017-11-24 |
公开(公告)号: | CN107943956A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 黄文瀚;程浩;肖之屏;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 陈剑 |
地址: | 100000 北京市海淀区知春*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 转换 方法 装置 设备 | ||
1.一种页面转换方法,其特征在于,所述方法用于将pdf文件转化为html文件,所述方法包括:
获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性,其中,所述待转换对象包括表格对象和所述表格对象包含的文本对象,所述表格对象包括组成所述表格对象的各个表格单元格线段;
提取各个所述表格单元格线段,根据所述空间位置属性对所述表格单元格线段进行聚合,使处于同一行的所述表格单元格线段存储在同一个集合中,得到对应不同行的多个所述集合;
对多个所述集合进行划分,得到以所述表格对象为单位的线段集合;
根据所述线段集合生成表格,其中,所述表格携带有单元格空间位置信息;
根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置,以完成页面转换。
2.根据权利要求1所述的方法,其特征在于,所述获取待转换页面中包含的待转换对象和所述待转换对象的空间位置属性包括:
对所述待转换页面进行解析,按类别提取待转换对象和所述待转换对象的空间位置属性,生成所述文本对象的列表和表格单元格线段的列表;
其中,所述文本对象的空间位置属性为所述文本对象包含的文本行的最小外接矩形的空间位置属性;
所述表格对象的空间位置属性为组成所述表格对象的各个所述表格单元格线段的最小外接矩形的空间位置属性;
所述空间位置属性包括:所述最小外接矩形的左下角距离所述待转换页面左边界的水平距离和所述左下角距离所述待转换页面下边界的垂直距离;以及,所述最小外接矩形的右上角距离所述待转换页面左边界的水平距离和所述右上角距离所述待转换页面下边界的垂直距离。
3.根据权利要求2所述的方法,其特征在于,所述根据所述空间位置属性对所述表格单元格线段进行聚合包括:
以所述表格单元格线段的最小外接矩形的左下角距离所述待转换页面下边界的垂直距离为关键字,查找所述表格单元格线段的列表中,所述空间位置属性包含所述关键字的所述表格单元格线段;
将包含所述关键字的所述表格单元格线段保存至所述关键字对应的集合中。
4.根据权利要求3所述的方法,其特征在于,所述对多个所述集合进行划分包括:
根据所述空间位置属性对多个所述集合中的所述表格单元格线段中连续的竖直线段进行合并,得到合并后不连续的列线段;
以所述表格对象为单位,对所述不连续的列线段进行存储;
查找每个所述不连续的列线段划定的范围中包含的水平线段;
对所述水平线段进行划分,形成每个所述表格对象的线段集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述线段集合生成表格包括:
统计所述关键字的个数,根据所述个数确定所述表格的行数;
以及,查找所述线段集合中每个所述关键字对应的水平线段,根据所述水平线段确定所述表格的列数;
根据所述行数和所述列数生成所述表格。
6.根据权利要求1所述的方法,其特征在于,所述根据所述空间位置信息将所述文本对象回填至所述表格的单元格位置包括:
获取所述表格的单元格位置和所述文本对象的空间位置属性;
判断所述文本对象包括的文本行是否被所述单元格位置包围;
如果是,确定所述文本行属于所述单元格位置;
将所述文本行回填至所述单元格位置对应的空间位置信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待转换页面有多个时,按照页面浏览顺序,依次获取所述待转换页面,以对所述待转换页面进行转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711200872.2/1.html,转载请声明来源钻瓜专利网。