[发明专利]超文本抓取方法和装置在审

专利信息
申请号: 201710228779.6 申请日: 2017-04-10
公开(公告)号: CN108694197A 公开(公告)日: 2018-10-23
发明(设计)人: 张波;孟遥;孙俊 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 李春晖;李德山
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 页面 权威度 抓取 遍历 方法和装置 链接页面 超文本页面 页面集合 链接 舍弃 指向 保留 申请
【权利要求书】:

1.一种超文本抓取方法,包括:

基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,

对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;

若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则:

舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;

其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。

2.如权利要求1所述的超文本抓取方法,其中,

若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。

3.如权利要求1或2所述的超文本抓取方法,其中,从所述第二训练集合中选取的与该当前页面相似的页面包括与该当前页面相同的页面。

4.如权利要求1或2所述的超文本抓取方法,其中,所述调整包括:使用第二训练页面所包含的链接所指向页面的权威度调整该第二训练页面的权威度。

5.如权利要求4所述的超文本抓取方法,其中,使用第二训练页面所包含的链接所指向页面的最大权威度调整该第二训练页面的权威度。

6.如权利要求5所述的超文本抓取方法,其中,使用迭代算法进行所述调整。

7.如权利要求6所述的超文本抓取方法,所述调整使用以下计算公式:Q(A,B)=Reward(B)+γMax(Q(B,x))其中,Q(A,B)为A页面中的链接指向的B页面的调整后的权威度,Reward(B)为B页面的未经调整的权威度,Q(B,x)为B页面中的链接指向的x页面的调整后的权威度,其中x为B页面中的所有链接,γ为最大远程回报,其取值范围为0-1。

8.如权利要求7所述的超文本抓取方法,其中γ为0.8。

9.一种超文本抓取装置,包括:

遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;

权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及

训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;

其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。

10.如权利要求9所述的超文本抓取装置,其中,所述遍历单元被进一步配置为:若作为当前页面的所述链接页面中第二权威度最大的页面的第二权威度大于第二阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710228779.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top