[发明专利]一种在线Web新闻内容的抽取方法及系统有效

申请号：	201310173280.1	申请日：	2013-05-10
公开（公告）号：	CN103246732A	公开（公告）日：	2013-08-14
发明（设计）人：	吴共庆;李莉;徐喆昊;胡学钢;吴信东	申请（专利权）人：	合肥工业大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	何梅生
地址：	230009 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种在线 web 新闻内容抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网络信息处理领域，尤其涉及一种在线Web新闻内容抽取方法及系统。

背景技术

目前，Web新闻内容抽取技术根据抽取工具的自动化程度，分为手工构建规则的抽取系统、有监督的抽取系统、半监督的抽取系统、无监督的抽取系统和在线抽取系统。

手工构建规则的抽取系统是最简单和最直接的抽取方法。使用Java、Perl这样通用的程序设计语言或用户自行设计的特定语言，用户面向特定的网站构建包装器。这类的系统需要用户有一定计算机和编程方面的知识、熟悉数据源和输出结果的格式、理解抽取规则的内涵。所以这种系统的自动化程度不高，构造代价高，对于大量网站和网页的抽取，这种花费往往是无法容忍的。特别地，当网页结构发生变化时，抽取系统需手工修改，维护代价高，难以扩展和推广。

有监督的抽取系统需要手工或使用工具标记训练网页，通过归纳得到抽取规则。该类系统虽然无需用户编程，有良好的扩展性，但是训练集标记任务具有一定的专业要求且工作量较大，一般用户难以胜任。

半监督的抽取系统相对于有监督的抽取系统，通常不需要用户对网页做出准确的标注就可以生成抽取规则。虽然这类系统能减轻用户的标记工作，但往往也需要用户的参与，如选择目标模式或粗略标记等。此外，该类系统通常需要嵌入一些启发性背景知识，扩展性不高。

在无监督的抽取系统中，不需要用户标记任何训练集，在生成包装器的过程中不需要与用户交互的界面。这类系统通常假定Web页面是根据请求从后台数据库中选取数据并嵌入到通用的模板中生成的，研究如何从模板生成的网页中检测出原始的模板，从而进一步抽取嵌入其中的数据。但是这类系统的假设条件强，难以扩展。全自动的抽取方式往往会抽取出许多用户不需要的信息，用户需要的一些信息却可能没有抽取出来。

在线抽取系统无需对网页进行预处理或预知它们的结构，能适应任何结构的新闻网页。目前比较流行的在线抽取方法基于新闻网页的HTML文本中字符的分布规律，设定抽取规则，识别抽取对象。但是这些在线方法主要基于网网页中的字符或行，以至于网页忽略网页的结构信息，抽取的精度低。

总之，目前的Web新闻内容抽取技术主要存在如下问题：

第一，目前很多的网页抽取技术假定被抽取的网页对象由同一个网页模板生成，已有的包装器难以有效抽取未知模板生成的网页的内容，通用性较差。如果需要抽取未知模板的网页的内容，需要针对该模板构建新的包装器，且任何模板的变化将导致包装器失效，在线维护这些模板的代价极高。即使网页由同一个模板生成，这些网页中依然存在着很多非模板节点，不同网页的非模板节点之间存在着一定的差异性，只有部分训练网页生成的包装器就无法涵盖这些差异性，无法胜任部分网页的抽取任务。

第二，目前很多的网页抽取技术难以胜任在线抽取任务。为达到较高的抽取精度，较好的匹配被抽取的网页，往往需要较多的训练网页和人工干预，用户负担重，实时性能低，无法满足在线抽取的要求。

第三，现有的在线抽取方法虽然能满足在线抽取，但是很多都是基于HTML文本，以行或整个文本为单位，分析字符和标签的分布特点，识别抽取对象。这类方法设计简单，考虑角度单一，完全忽略了HTML文本中字符的层次性，且该层次性与网页内容的分布有着密切的关系，难以用于海量异构的Web新闻网页的抽取。

发明内容

为了解决上述的技术问题，本发明提供一种通用性强、用户负担轻、能在线抽取海量异构Web新闻网页的在线Web新闻内容的抽取方法及系统。

本发明通过以下技术方案实现。

本发明在线Web新闻内容抽取方法的特点是按如下步骤进行：

步骤1，使用HTML解析器解析被抽取的Web新闻网页，得到被抽取的Web新闻网页的DOM树；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310173280.1/2.html，转载请声明来源钻瓜专利网。