[发明专利]一种基于不完全子树匹配的Web数据记录提取方法有效

申请号：	201210277173.9	申请日：	2012-08-06
公开（公告）号：	CN102937958A	公开（公告）日：	2013-02-20
发明（设计）人：	胡海斌;王慧昌	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	北京恒都律师事务所 11395	代理人：	安筱琼
地址：	361008 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于不完全子树匹配 web 数据记录提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于不完全子树匹配的Web数据记录提取方法。

背景技术

随着互联网的高速发展，Web技术的不断改进，越来越多的机构和个人将信息发放到互联网。每天，互联网上都有成千上万的网页被生成，互联网已经成为了一个巨大的信息共享的“图书库”。如何从海量的Web信息中寻找、提取有效的数据信息成为了一个重要的课题。

HTML网页是互联网的一种最重要的数据格式，它是一个标签语言，在结合脚本、样式后，由浏览器进行显示。HTML本质是一种半结构化的语言，它适合被渲染后由人类进行浏览，但是却不利于由计算机程序对数据进行识别和抽取。在HTML标签的定义中，是没有语义方面的定义的，内容的展现组合很多，导致程序无法根据标签来判断某个标签的区域是数据区域、广告区域、还是版权声明区域等其他区域。如果过滤HTML网页中的噪声信息，获取所需的数据区域记录已经形成了一门研究课程。

Web信息的自动抽取，已有不少研究：

1.基于统计的方法

这种方法是针对新闻、博客等网页的正文提取类任务，有通过DOM树中的特定节点(Table、Div，P)等进行处理来得到网页有用信息，如：《基于统计的网页正文信息抽取方法的研究》中认为网页的正文信息一般存在于一个Table节点中，通过统计节点中文文字的信息得到特定的Table节点，提取其中的文字得到网页的有用正文。此类研究还有《基于标记窗的网页正文信息提取方法》等。

2.基于规则训练的抽取方法

此类方法是希望通过机器学习的方法获取数据抽取的规则，方法的步骤一般是要先标注训练集的网页的数据区域，由程序区自动的“学习”，在需要的情况下加以辅助的启发式规则，在实际的应用中应用训练出来的抽取器来提取新出现的网页的数据记录。

3.基于人工的特定网站的数据记录提取

此类方式一般是通过组件(比如标签解析器或者DOM树)解析HTML网页，然后编写专门的程序从特点的标签中抽取所需数据记录。

对Web网页的类型进行粗分大体上有三种：首页类型的链接列表网页，商品搜索结果类型的数据记录类型和新闻类型的正文类型网页。以上的研究对于不同类型的网页数据抽取都可能发挥其效果，比如对于新闻类的网站，基于统计的方法可能奏效；人工的方法对于特定的网站提取效果在精确度上优于任何自动的方法；基于规则的方法在具有大规模的训练集的前提下，提取数据的效果也不错。

本文针对的是商品搜索结果类型的数据记录提取，此类的网页一般包含较多的数据记录，典型的数据记录如：淘宝的商品搜索结果页面，论坛的帖子列表和回复列表页面，微博的页面等。典型页面数据记录区块如图4所示。

针对此类型的页面基于统计的方法已经不适用，因为统计的方法一般要利用较长文字的统计信息，而数据记录类型的网页不满足这一特点。基于规则的方法需要训练的数据集大，人工标注网页是一个相当耗费人力的过程，而且规则一般适用一个网站，对于多个网站的数据抽取要得到一个通用的，精确率高的规则是不现实的。当下，采用较多的方法是人工编写程序的方法，这种方法精确度较高，但是它的突出缺点是耗费人力比较大而且维护困难。针对每一个网站都必须编写相对应的抽取代码，在目标网站改版的情况下，程序失效不易察觉，察觉后还是需要更改代码。

发明内容

本发明所要解决的技术问题是提供一种基于不完全子树匹配的Web数据记录提取方法。

本发明是通过以下技术方案来实现的：一种基于不完全子树匹配的Web数据记录提取方法，包括如下步骤：

a.根据HTTP协议下载网页的HTML源代码，并将下载的字符以统一的UNICODE进行编码；

b.过滤噪声标记信息；

c.利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析，构造网页的Document树；

d.候选子树集抽取；

e.不完全子树匹配；

f.数据记录集确定；

作为优选，所述噪声标记信息包括JavaScript脚本、CSS样式表、注释说明、部分无用标签和空内容标签。

作为优选，所述数据记录集的个数大于1，则还需要进行数据记录集的确定。

本发明的有益效果是：1.基于子树的匹配，不依赖于网页的模板结构所以方法具有很高的通用性；