[发明专利]自适应抽取HTMLTable标签中结构化信息的方法及装置在审

专利信息
申请号: 201611234018.3 申请日: 2016-12-28
公开(公告)号: CN106777259A 公开(公告)日: 2017-05-31
发明(设计)人: 张军;贾西贝 申请(专利权)人: 深圳市华傲数据技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京酷爱智慧知识产权代理有限公司11514 代理人: 任媛
地址: 518000 广东省深圳市龙华新区清*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应 抽取 htmltable 标签 结构 信息 方法 装置
【说明书】:

技术领域

发明涉及数据处理技术领域,具体涉及一种自适应抽取HTML Table标签中结构化信息的方法及装置。

背景技术

随着互联网的普及和发展,电子商务网站,门户网站,博客,微博等各种类型的信息都发布在互联网上,人们可以通过互联网搜集海量资讯并进行分析、统计,以获取需要的信息。

但是,网页上的这些信息大多是半结构化数据,网页上的表格采用HTML Table标签的方式进行编辑,虽然在页面上的显示效果较为规整,但是底层标签及数据并不规整,甚至非常混乱,导致标题部分和与业务数据混杂在一起,无法快速准确地抽取业务数据。

常规的处理方法是预先获取页面资源,然后针对每一个具有相同页面结构的HTML页面专门编写程序。HTML的灵活性和开发的随意性,导致表格的样式千变万化,也许有表格标题、备注,也许没有,也许是横向,也许是纵向,一旦表格结构发生了变化,就需要编写新的程序。因此,现有的抽取网页中结构化数据的方法开发和维护效率不高,缺乏普适性和可靠性。

发明内容

针对现有技术中的缺陷,本发明提供的自适应抽取HTML Table标签中结构化信息的方法及装置,在提取网页中的结构化信息时,具有更好的普适性和可靠。

第一方面,本发明提供的一种自适应抽取HTML Table标签中结构化信息的方法,包括:检测Table标签中的标题部分;抽取所述Table标签中除标题部分的多维度信息;根据抽取的所述多维度信息判断表格布局;根据所述表格布局,对所述多维度信息中的直接内容进行后置处理,得到结构化数据。

本发明提供的自适应抽取HTML Table标签中结构化信息的方法,首先检测Table标签中的标题部分,排除了不属于业务数据部分的内容,防止无用数据的混入;然后抽取Table标签中除标题部分的多维度信息,根据多维度信息综合判断表格布局,由于Table标签中的信息能够反映表格布局,因此,无论网页中的表格发生了怎样的改变,通过对Table标签中的信息进行分析,均可以得到新的表格布局。因此,本实施例提供的自适应抽取HTML Table标签中结构化信息的方法,无需提前获知表格的布局,针对不同结构的HTML Table无需在重新编写程序,解决了现有的Table抽取算法缺乏普适性的问题,同时提高了抽取数据的可靠性,尤其对大规模半结构化数据识别和抽取时更为实用。

优选地,所述检测Table标签中的标题部分,包括:在Table标签中检测每一行是否为一个合并单元格,若是,则被检测的行属于标题部分,并进行下一行的检测;若不是,则停止标题部分的检测。

优选地,所述抽取所述Table标签中除标题部分的多维度信息,包括:抽取所述Table标签中除标题部分的多维度信息,对抽取的信息中的合并单元格进行拆分后,再将每个维度的信息分别以二维数组形式存储,并对拆分的单元格做特殊标记。

优选地,所述判断表格布局包括以下操作中的至少一种:根据抽取的直接内容,排除不是TL的行和列;根据抽取的background-color属性分布,判断表格布局;根据同一行或同一列中的直接内容的数据类型是否相同,判断表格布局;根据th/td分布,判断表格布局。

优选地,所述根据抽取的直接内容,排除不是TL的行和列,包括:逐行、逐列检测抽取的直接内容;若所述直接内容的数据类型是数字型字符串,则所述直接内容所在行或列就不是TL;若所述直接内容的字段长度超过阈值,则所述直接内容所在行或列就不是TL;若某一行或某一列的多项直接内容中包含有给定关键词,则该行或列是TL。

优选地,所述根据th/td分布,判断表格布局,包括:若Table标签中存在th分布,则根据th分布判断表格布局,若Table标签中不存在th分布,则根据td分布判断表格布局。

优选地,还包括:若判断表格布局为纵向布局,则将直接内容形成的表格转置为横向布局。

优选地,还包括:若判断表格布局为多TL,则对直接内容形成的表格做切割合并操作,转换为单TL的布局。

优选地,所述若判断表格布局为多TL,所述对直接内容形成的表格做切割合并操作,转换为单TL的布局,包括:比较多个TL的直接内容;内容相同的TL只保留一行TL;将内容不同的TL拼接成一行TL。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611234018.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top