[发明专利]一种电商网站的页面信息获取方法有效

专利信息
申请号: 201410260218.0 申请日: 2014-06-12
公开(公告)号: CN105205061B 公开(公告)日: 2018-08-10
发明(设计)人: 冯亮;尹亚伟;费志军 申请(专利权)人: 中国银联股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/02
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 郑冀之;汤春龙
地址: 200135 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网站 页面 信息 获取 方法
【说明书】:

发明公开一种电商网站的页面信息获取方法,该电商网站包括主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品页面URL,一个导航页面对应一个类别的商品,该方法包括:从主页面提取导航页面URL,从导航页面提取商品页面URL,根据商品页面URL下载商品页面信息。

技术领域

本发明涉及互联网信息技术,并且尤其涉及一种电商网站的页面信息获取方法。

背景技术

电商网站(诸如淘宝、亚马逊)的网站页面包含诸如商品和用户评论等信息。这些信息可以被收集以用于数据分析,例如被用于个性化推荐、商品营销分析、情感分析等。

现有技术中,网络爬虫作为遍历下载网络资源的程序常常被用于收集网站页面信息。网络爬虫根据页面抓取策略确定页面抓取的次序和更新策略等。主流开源网络爬虫诸如Nutch、Heritrix和Crawler4J采用广度优先搜索策略或者宽度优先搜索策略分析已抓取页面中的链接发现新页面;同时,在固定时间重新遍历整个网站页面,然后更新已抓取的页面内容。对于电商网站而言,这种页面信息获取方案不能稳定地抓取页面信息,消耗较大的计算资源来更新已抓取的内容将,并且难以控制抓取过程。

发明内容

根据本发明的一个目的公开一种电商网站的页面信息获取方法,该电商网站包括主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品页面URL,一个导航页面对应一个类别的商品,该方法包括:

从主页面提取导航页面URL,

从导航页面提取商品页面URL,

根据商品页面URL下载商品页面信息,

其中,每隔预定的时间间隔从导航页面重新下载商品页面URL,其中下载的商品页面URL按上架时间被排序,

其中,通过以下过程对商品页面信息进行更新:

按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,当比较结果不相同时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面URL的商品信息。

在一个实施例中,通过以下过程对商品页面信息进行更新:

按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash特征码,

当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于设定值时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面URL的商品信息。

在一个实施例中,通过导航页面URL模式从主页面提取导航页面URL,其中,导航页面URL模式以正则表达式形式表示。

在一个实施例中,从导航页面提取商品页面URL包括以下过程:

根据商品页面XPath模式从导航页面提取匹配XPath模式的URL作为商品页面URL,其中,通过以下过程获得对应一个导航页面的一类商品页面的XPath模式:

创建该导航页面的所有URL所在节点的XPath集合,

对该XPath集合利用KNN聚类算法进行聚类,其中使用XPath距离作为该KNN聚类算法的距离度量参数,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410260218.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top