[发明专利]基于DOM节点文本密度的网页核心块确定方法无效
申请号: | 201110096132.5 | 申请日: | 2011-04-18 |
公开(公告)号: | CN102184189A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 孙飞;宋丹丹;廖乐健;王晓华 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dom 节点 文本 密度 网页 核心 确定 方法 | ||
技术领域
本发明涉及一种基于DOM节点文本密度的网页核心块确定算法,属于计算机应用技术领域。
背景技术
随着互联网的高速发展,WWW已经成为目前世界上最大的资料库。因此,在web中进行数据挖掘以获取有用的信息或知识逐渐成为一个新兴的热点研究方向。
这些研究需要快速高效地收集、处理和存储web中核心内容。然而,网页中的这些核心内容,往往被大量的无关信息所包围。如,导航菜单、边栏广告、版权信息等等。虽然这些信息,能够使网页的内容丰富美观,同时方便用户浏览,但是其与网页的主题并不相关,也使得这些网页难以被计算机程序解析。
为了显著提高web数据挖掘和信息检索的效果,内容抽取(Content Extraction——CE)技术被提出以删除网页中存在的这些噪声数据。一般情况下,内容抽取技术能够显著地提高这些算法的效果,并且对于很多实际应用来说,其也是必不可少的。
在传统情况下,构建语料库是一个非常昂贵且耗时的工程。但是,通过从web中自动地下载文本数据,可以在短时间内以相对较低的开销来建立一个异常庞大的语料库。因此,“Web as Corpus”(网络语料库)这个创意,已经吸引了众多自然语言处理以及相关领域的研究人员。为准备数据以用于自然语言研究,ACL-SIGWAC在2007年举行了第一届CleanEval比赛。
另一方面,随着手机、PDA等小屏幕移动设备的大量普及,得到网页核心内容,从而调整网页以适应这些小屏幕已成为一个日益重要且极具挑战的任务。
近十年来,研究人员已经提出了大量的CE方法。早期,一些方法根据多个结构相似的网页中存在的共同模板,利用正则表达式来手动提取网页中的核心内容。这种方法的准确度非常好,计算效率也很高。但是一个明显的缺陷是,对于不同的网站,都需要生成不同的正则表达式。甚至,大多数网站都具有多个不同的结构模板。另外,即使只针对一个站点,网站的改版也会使得此算法失效。
2010年WWW会议,Tim Weninger等人提出了CETR算法对网页进行核心内容的抽取。CETR算法首先计算每一行中字符个数与标签个数的比例,然后在此基础上提出了三种不同的方法来提取核心内容。CETR-TM使用简单的阈值办法进行核心内容的抽取;CETR-KM使用K-means聚类进行核心块的抽取;而最终的CETR算法添加了另一维数据,在二维数据上进行聚类。
但CETR算法存在以下缺点:
1.以行为单位计算文本比例。导致这种计算方法,受不同的网页代码风格影响很大,使得对于不同的网页可能效果差异很大。如极端情况下,所有的代码都写在一行。虽然作者进行了一定的处理,当一行字符数超过65,则截断。但并不能完全消除这样的影响。
2.只能提取网页核心块的文本信息,不能保留网页原本的结构信息。这样难以与其他应用集成,如结构化信息抽取。
3.没有充分利用网页中噪声数据的特点,区分效果不是十分明显。
4.不能完整地提取出核心块内容,容易丢失其中密度低的行。
发明内容
本发明的目的在于针对现有技术的缺点,提供一种新的高效的网页核心块确定方法。
本发明提供了一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:
步骤一、解析HTML网页,生成DOM树;
本发明基于网页的DOM树结构对网页进行核心内容的抽取。文档对象模型(Document Object Model,DOM)是通用的用来操作和更新文档内容、结构和样式的标准的、语言和平台无关的接口。每一个网页都对应了一个DOM树,其中每一个HTML标签对应于DOM中的一个节点,其中网页中的文字内容,则是DOM树的叶子节点。
优选的,在生成DOM树之前,首先删除网页中的script、comment和style等标签内容,因为这些内容在网页中并不可见,如果将其计算在内则会干扰最终结果。在生成DOM树过程中,我们以<body>为起始标签,因为整个网页中所有可视内容都包含在<body>标签中。
步骤二、计算DOM树中各节点的文本密度
一旦一个HTML文档被解析成一棵DOM树,每一个节点所包含的文本字符和标签的数量都可以被统计出来。因此,可对每个节点添加两个统计信息:
1.Chars:节点所包含的所有文本字符的个数;
2.Tags:节点所包含的所有标签的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110096132.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双缸风冷中型超静音汽油发电机组
- 下一篇:可以电加热的陶器、瓷器