[发明专利]超文本抓取方法和装置在审
申请号: | 201710228779.6 | 申请日: | 2017-04-10 |
公开(公告)号: | CN108694197A | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 张波;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 权威度 抓取 遍历 方法和装置 链接页面 超文本页面 页面集合 链接 舍弃 指向 保留 申请 | ||
1.一种超文本抓取方法,包括:
基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,
对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;
若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则:
舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;
其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
2.如权利要求1所述的超文本抓取方法,其中,
若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
3.如权利要求1或2所述的超文本抓取方法,其中,从所述第二训练集合中选取的与该当前页面相似的页面包括与该当前页面相同的页面。
4.如权利要求1或2所述的超文本抓取方法,其中,所述调整包括:使用第二训练页面所包含的链接所指向页面的权威度调整该第二训练页面的权威度。
5.如权利要求4所述的超文本抓取方法,其中,使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。
6.如权利要求5所述的超文本抓取方法,其中,使用迭代算法进行所述调整。
7.如权利要求6所述的超文本抓取方法,所述调整使用以下计算公式:Q(A,B)=Reward(B)+γMax(Q(B,x))其中,Q(A,B)为A页面中的链接指向的B页面的调整后的权威度,Reward(B)为B页面的未经调整的权威度,Q(B,x)为B页面中的链接指向的x页面的调整后的权威度,其中x为B页面中的所有链接,γ为最大远程回报,其取值范围为0-1。
8.如权利要求7所述的超文本抓取方法,其中γ为0.8。
9.一种超文本抓取装置,包括:
遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;
权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及
训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;
其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。
10.如权利要求9所述的超文本抓取装置,其中,所述遍历单元被进一步配置为:若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710228779.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种WEB网络的知识管理系统
- 下一篇:信息收集设备和信息收集方法