[发明专利]自适应抽取HTMLTable标签中结构化信息的方法及装置在审
申请号: | 201611234018.3 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106777259A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张军;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京酷爱智慧知识产权代理有限公司11514 | 代理人: | 任媛 |
地址: | 518000 广东省深圳市龙华新区清*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 抽取 htmltable 标签 结构 信息 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,具体涉及一种自适应抽取HTML Table标签中结构化信息的方法及装置。
背景技术
随着互联网的普及和发展,电子商务网站,门户网站,博客,微博等各种类型的信息都发布在互联网上,人们可以通过互联网搜集海量资讯并进行分析、统计,以获取需要的信息。
但是,网页上的这些信息大多是半结构化数据,网页上的表格采用HTML Table标签的方式进行编辑,虽然在页面上的显示效果较为规整,但是底层标签及数据并不规整,甚至非常混乱,导致标题部分和与业务数据混杂在一起,无法快速准确地抽取业务数据。
常规的处理方法是预先获取页面资源,然后针对每一个具有相同页面结构的HTML页面专门编写程序。HTML的灵活性和开发的随意性,导致表格的样式千变万化,也许有表格标题、备注,也许没有,也许是横向,也许是纵向,一旦表格结构发生了变化,就需要编写新的程序。因此,现有的抽取网页中结构化数据的方法开发和维护效率不高,缺乏普适性和可靠性。
发明内容
针对现有技术中的缺陷,本发明提供的自适应抽取HTML Table标签中结构化信息的方法及装置,在提取网页中的结构化信息时,具有更好的普适性和可靠。
第一方面,本发明提供的一种自适应抽取HTML Table标签中结构化信息的方法,包括:检测Table标签中的标题部分;抽取所述Table标签中除标题部分的多维度信息;根据抽取的所述多维度信息判断表格布局;根据所述表格布局,对所述多维度信息中的直接内容进行后置处理,得到结构化数据。
本发明提供的自适应抽取HTML Table标签中结构化信息的方法,首先检测Table标签中的标题部分,排除了不属于业务数据部分的内容,防止无用数据的混入;然后抽取Table标签中除标题部分的多维度信息,根据多维度信息综合判断表格布局,由于Table标签中的信息能够反映表格布局,因此,无论网页中的表格发生了怎样的改变,通过对Table标签中的信息进行分析,均可以得到新的表格布局。因此,本实施例提供的自适应抽取HTML Table标签中结构化信息的方法,无需提前获知表格的布局,针对不同结构的HTML Table无需在重新编写程序,解决了现有的Table抽取算法缺乏普适性的问题,同时提高了抽取数据的可靠性,尤其对大规模半结构化数据识别和抽取时更为实用。
优选地,所述检测Table标签中的标题部分,包括:在Table标签中检测每一行是否为一个合并单元格,若是,则被检测的行属于标题部分,并进行下一行的检测;若不是,则停止标题部分的检测。
优选地,所述抽取所述Table标签中除标题部分的多维度信息,包括:抽取所述Table标签中除标题部分的多维度信息,对抽取的信息中的合并单元格进行拆分后,再将每个维度的信息分别以二维数组形式存储,并对拆分的单元格做特殊标记。
优选地,所述判断表格布局包括以下操作中的至少一种:根据抽取的直接内容,排除不是TL的行和列;根据抽取的background-color属性分布,判断表格布局;根据同一行或同一列中的直接内容的数据类型是否相同,判断表格布局;根据th/td分布,判断表格布局。
优选地,所述根据抽取的直接内容,排除不是TL的行和列,包括:逐行、逐列检测抽取的直接内容;若所述直接内容的数据类型是数字型字符串,则所述直接内容所在行或列就不是TL;若所述直接内容的字段长度超过阈值,则所述直接内容所在行或列就不是TL;若某一行或某一列的多项直接内容中包含有给定关键词,则该行或列是TL。
优选地,所述根据th/td分布,判断表格布局,包括:若Table标签中存在th分布,则根据th分布判断表格布局,若Table标签中不存在th分布,则根据td分布判断表格布局。
优选地,还包括:若判断表格布局为纵向布局,则将直接内容形成的表格转置为横向布局。
优选地,还包括:若判断表格布局为多TL,则对直接内容形成的表格做切割合并操作,转换为单TL的布局。
优选地,所述若判断表格布局为多TL,所述对直接内容形成的表格做切割合并操作,转换为单TL的布局,包括:比较多个TL的直接内容;内容相同的TL只保留一行TL;将内容不同的TL拼接成一行TL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611234018.3/2.html,转载请声明来源钻瓜专利网。