[发明专利]一种在线Web新闻内容的抽取方法及系统有效
申请号: | 201310173280.1 | 申请日: | 2013-05-10 |
公开(公告)号: | CN103246732A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 吴共庆;李莉;徐喆昊;胡学钢;吴信东 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 何梅生 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 web 新闻 内容 抽取 方法 系统 | ||
技术领域
本发明属于网络信息处理领域,尤其涉及一种在线Web新闻内容抽取方法及系统。
背景技术
随着Internet的飞速发展,Web新闻网页已经继传统的报纸、广播、电视之后,成为人们发布和获取信息的主要平台。目前,Web新闻网页除了包含主要内容外,还掺杂着大量的与主题内容无关的信息,如导航条、广告、推荐链接、版权声明等。这些占整个Web页面数据越40%-50%的噪音数据严重影响着许多Web应用的服务质量。如何获取“干净”的网页日益成为一个重要的研究课题。
目前,Web新闻内容抽取技术根据抽取工具的自动化程度,分为手工构建规则的抽取系统、有监督的抽取系统、半监督的抽取系统、无监督的抽取系统和在线抽取系统。
手工构建规则的抽取系统是最简单和最直接的抽取方法。使用Java、Perl这样通用的程序设计语言或用户自行设计的特定语言,用户面向特定的网站构建包装器。这类的系统需要用户有一定计算机和编程方面的知识、熟悉数据源和输出结果的格式、理解抽取规则的内涵。所以这种系统的自动化程度不高,构造代价高,对于大量网站和网页的抽取,这种花费往往是无法容忍的。特别地,当网页结构发生变化时,抽取系统需手工修改,维护代价高,难以扩展和推广。
有监督的抽取系统需要手工或使用工具标记训练网页,通过归纳得到抽取规则。该类系统虽然无需用户编程,有良好的扩展性,但是训练集标记任务具有一定的专业要求且工作量较大,一般用户难以胜任。
半监督的抽取系统相对于有监督的抽取系统,通常不需要用户对网页做出准确的标注就可以生成抽取规则。虽然这类系统能减轻用户的标记工作,但往往也需要用户的参与,如选择目标模式或粗略标记等。此外,该类系统通常需要嵌入一些启发性背景知识,扩展性不高。
在无监督的抽取系统中,不需要用户标记任何训练集,在生成包装器的过程中不需要与用户交互的界面。这类系统通常假定Web页面是根据请求从后台数据库中选取数据并嵌入到通用的模板中生成的,研究如何从模板生成的网页中检测出原始的模板,从而进一步抽取嵌入其中的数据。但是这类系统的假设条件强,难以扩展。全自动的抽取方式往往会抽取出许多用户不需要的信息,用户需要的一些信息却可能没有抽取出来。
在线抽取系统无需对网页进行预处理或预知它们的结构,能适应任何结构的新闻网页。目前比较流行的在线抽取方法基于新闻网页的HTML文本中字符的分布规律,设定抽取规则,识别抽取对象。但是这些在线方法主要基于网网页中的字符或行,以至于网页忽略网页的结构信息,抽取的精度低。
总之,目前的Web新闻内容抽取技术主要存在如下问题:
第一,目前很多的网页抽取技术假定被抽取的网页对象由同一个网页模板生成,已有的包装器难以有效抽取未知模板生成的网页的内容,通用性较差。如果需要抽取未知模板的网页的内容,需要针对该模板构建新的包装器,且任何模板的变化将导致包装器失效,在线维护这些模板的代价极高。即使网页由同一个模板生成,这些网页中依然存在着很多非模板节点,不同网页的非模板节点之间存在着一定的差异性,只有部分训练网页生成的包装器就无法涵盖这些差异性,无法胜任部分网页的抽取任务。
第二,目前很多的网页抽取技术难以胜任在线抽取任务。为达到较高的抽取精度,较好的匹配被抽取的网页,往往需要较多的训练网页和人工干预,用户负担重,实时性能低,无法满足在线抽取的要求。
第三,现有的在线抽取方法虽然能满足在线抽取,但是很多都是基于HTML文本,以行或整个文本为单位,分析字符和标签的分布特点,识别抽取对象。这类方法设计简单,考虑角度单一,完全忽略了HTML文本中字符的层次性,且该层次性与网页内容的分布有着密切的关系,难以用于海量异构的Web新闻网页的抽取。
发明内容
为了解决上述的技术问题,本发明提供一种通用性强、用户负担轻、能在线抽取海量异构Web新闻网页的在线Web新闻内容的抽取方法及系统。
本发明通过以下技术方案实现。
本发明在线Web新闻内容抽取方法的特点是按如下步骤进行:
步骤1,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310173280.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包括投影透镜和光导体的车辆前灯
- 下一篇:利用溶剂萃取的方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法