[发明专利]基于排名网站的互联网排行榜抓取系统有效
申请号: | 201210580975.7 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103020286A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 朱其立;张至先 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 排名 网站 互联网 排行榜 抓取 系统 | ||
1.一种基于排名网站的互联网排行榜抓取系统,其特征在于,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:
网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;
网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;
候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;
排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;
排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
2.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块在对网页进行分类之前,对标题进行预处理,预处理具体为:用正则表达式匹配的方式,去掉标题中的次要部分,确定标题的主要部分;对主要部分进行英文词法分析,获得单词序列中每一个单词的词性和原型,并将单词、词性、原型构成特征表格。
3.根据权利要求2所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块包括分类器,分类器利用事先训练好的模型将对输入的特征表格进行分析,其结果为对输入单词序列对应的标注序列,其中K代表列表项的个数,F代表排行榜的领域,C表示排行榜的标准,对于分类结果的处理分为两种情况:如果标注序列中包含K,则说明输入网页为一个排名网页,则需要将结果整理为<个数,领域,标准,时间,地点>的五元组的形式,并触发候选列表抓取模块执行;否则判定该网页非排名网页,系统退出。
4.根据权利要求3所述的基于排名网站的互联网排行榜抓取系统,其特征在于,分类器的模型是基于条件随机域训练获得的。
5.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,HTML标签路径的含义为,在树状数据结构中,任意一个节点到根节点的路径,具体表示为路径中各个节点的HTML标签的连接;基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历,将具有相同标签路径的节点进行聚类,形成多个类,其中,包含K个节点的类即为候选的排行榜列表,K为网页标题识别模块中得到的排行榜列表项个数;如果没有找到任何候选列表,则判定列表抓取失败,系统退出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210580975.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:石墨反应釜
- 下一篇:一种网页的控制方法及浏览器