[发明专利]网页正文抽取方法和装置无效
申请号: | 200910137364.3 | 申请日: | 2009-04-24 |
公开(公告)号: | CN101872350A | 公开(公告)日: | 2010-10-27 |
发明(设计)人: | 贾晓建;王主龙;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 正文 抽取 方法 装置 | ||
技术领域
本发明涉及信息处理领域,具体而言,涉及一种网页正文抽取方法和装置。
背景技术
随着互联网信息技术的不断发展,互联网的信息量日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB(1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库,如何更好的理解这海量的信息一直是信息处理领域内的关键问题。
虽然说XML可以被认为是web中的通用语,但是,当前几乎所有可以得到的网络信息都是按照HTML格式写成的网页,而且这种状况在短期内很难改变(参见非专利文献[1]“Giacomo Fiumara.AutomatedInformation Extraction from Web Source:a Survey.Salita Sperone 31,I-98166 Messina,Italy”)。而HTML是一种面向显示的标记性语言,主要是为了方便浏览器显示网页用,对人来说,有很多无用的信息,尤其是在网页上引入广告后,无用信息就更多了,所以要想更好地理解网络上浩瀚的信息,从HTML格式的网页中提取正文信息是必不可少的前提条件。因此,需要一种网页正文抽取方法,以便对网络上的结构化文档,如网页、XML文档等,采用一定的技术手段提取其中的正文内容。
传统的网页数据抽取方法,是使用包装器(wrapper)来抽取网页中感兴趣的数据。包装器是一个程序,它从HTML文档中读取特定的内容,并用一定的格式保存下来,通常是XML形式。包装器包含一系列的规则,并利用这些规则来抽取网页的特定内容。因此目前网页数据抽取研究工作的重点之一就是探索如何能够较为容易的获得构造一个包装器所需的规则的有效方法(参见非专利文献[1])。
非专利文献[2]“Hammer J,McHugh J.,et al.Semistructured Data:The TSIMMIS Experience[A].In:proceeding ot the First East EuropeanSymposium on Advance in Databases and Information Systems[C].1997:1-8”中介绍的TSIMMIS工具中的包装器需要人工来书写抽取规则,并且规则放在专门的文件中。规则的形式是[variables,source,pattern]。其中variables保存抽取结果,source保存输入,pattern保存数据在source中的模式信息。variable可以用作后面的规则的source。文件中最后一个规则执行结束后,variable中保存了最后的抽取结果。这种需要人工书写规则的方法不仅费时、费力,而且容易出错、不易维护。
非专利文献[3]“Liu,L.,Pu,C.et al.XWRAP:An XML-enableWrapper Construction System for the Web Information Source[C].In:proceedings of the 16th IEEE International Conference on DataEngineering,2000:611-620”中介绍的XWRAP系统的包装器采用了半自动化的方法来获取规则。它提供了友好的人机交互界面,用户可以根据系统的引导来完成规则的编写。最终系统生成一个针对特定数据源的用Java语言编写的包装器。在进行抽取之前,XWRAP系统对网页进行检查,修正其中不符合规范的语法错误和标记,并且把网页解析成一棵树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910137364.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:秸秆气化类生物质燃气多用炉
- 下一篇:框架式秸秆取暖锅炉