[发明专利]基于排名网站的互联网排行榜抓取系统有效
申请号: | 201210580975.7 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103020286A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 朱其立;张至先 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 排名 网站 互联网 排行榜 抓取 系统 | ||
技术领域
本发明涉及一种互联网数据挖掘技术领域的系统,具体是一种基于排名网站的互联网排行榜抓取系统。
背景技术
互联网是目前世界上最庞大的信息源,它包含着海量的数据和知识。这些信息可以有多种方式在网页上予以呈现,如纯文本,图片,列表以及表格等。其中,后两者相对于其他方式具有结构化的组织形式,因而其包含的信息更有实际应用价值。因此,网络列表及表格的提取和处理已经成为互联网和数据挖掘领域一个重要的课题。
排行榜(英文名:Top-k List)是一种特殊的网络列表。其定义为对一个领域根据固定的标准进行的固定个数的排名。典型的例子有,“世界上最有影响力的20个科学家”,“北京最高的十栋楼”等等。领域可以包括各种概念(如,汽车、城市、作家等等);标准可以是根据主观的评价(如:最好的,最美的),也可以是基于客观的事实(如:最高的,最快的等等);固定个数是指排名列表的表项数目是由列表标题中指定的(如十大,前20等等)。包含排行榜内容的网页被称为排名网页,典型的排名网页包括“世界十大海滩”,“你不能错过的十部经典电影”等。
相比于一般的网络列表,网络排行榜具有更高的价值。首先,网络排行榜数量庞大,种类丰富。据估计,目前仅英文网站中就包含超过200万个网络排行榜,这个数字还在随着网络的快速发展急速生长。第二,网络排行榜的质量很高。普通的网络列表只有很少一部分包含有用的信息,并且没有固定的含义。相比之下,排行榜语义清楚,形式规范,信息量更大。第三,排行榜包含排名的信息,因此我们可以比较一个榜单中不同位置上的列表项的优劣。最后,排行榜的信息更有影响力,一般而言,排行榜的作者或编辑往往是该领域的专家,因此享有一定的权威;另一方面,人们对排名的信息更感兴趣。
因此,网络排行榜的批量获取和分析是一项非常有意义的工作,其数据可以用来帮助建立一个知识数据库(knowledge base)或者自动问题回答系统(Q/A machine)。然而,目前针对这方面的工作相对较少,而现有的网络表格抓取系统并不能有效地用来处理排行榜网页。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于排名网站的互联网排行榜抓取系统。
根据本发明的一个方面,提供一种基于排名网站的互联网排行榜抓取系统,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:
网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;
网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;
候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;
排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;
排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
优选地,网页标题识别模块在对网页进行分类之前,对标题进行预处理,预处理具体为:用正则表达式匹配的方式,去掉标题中的次要部分,确定标题的主要部分;对主要部分进行英文词法分析,获得单词序列中每一个单词的词性和原型,并将单词、词性、原型构成特征表格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210580975.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:石墨反应釜
- 下一篇:一种网页的控制方法及浏览器