[发明专利]一种电商网站的页面信息获取方法有效
| 申请号: | 201410260218.0 | 申请日: | 2014-06-12 |
| 公开(公告)号: | CN105205061B | 公开(公告)日: | 2018-08-10 |
| 发明(设计)人: | 冯亮;尹亚伟;费志军 | 申请(专利权)人: | 中国银联股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 郑冀之;汤春龙 |
| 地址: | 200135 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网站 页面 信息 获取 方法 | ||
本发明公开一种电商网站的页面信息获取方法,该电商网站包括主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品页面URL,一个导航页面对应一个类别的商品,该方法包括:从主页面提取导航页面URL,从导航页面提取商品页面URL,根据商品页面URL下载商品页面信息。
技术领域
本发明涉及互联网信息技术,并且尤其涉及一种电商网站的页面信息获取方法。
背景技术
电商网站(诸如淘宝、亚马逊)的网站页面包含诸如商品和用户评论等信息。这些信息可以被收集以用于数据分析,例如被用于个性化推荐、商品营销分析、情感分析等。
现有技术中,网络爬虫作为遍历下载网络资源的程序常常被用于收集网站页面信息。网络爬虫根据页面抓取策略确定页面抓取的次序和更新策略等。主流开源网络爬虫诸如Nutch、Heritrix和Crawler4J采用广度优先搜索策略或者宽度优先搜索策略分析已抓取页面中的链接发现新页面;同时,在固定时间重新遍历整个网站页面,然后更新已抓取的页面内容。对于电商网站而言,这种页面信息获取方案不能稳定地抓取页面信息,消耗较大的计算资源来更新已抓取的内容将,并且难以控制抓取过程。
发明内容
根据本发明的一个目的公开一种电商网站的页面信息获取方法,该电商网站包括主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品页面URL,一个导航页面对应一个类别的商品,该方法包括:
从主页面提取导航页面URL,
从导航页面提取商品页面URL,
根据商品页面URL下载商品页面信息,
其中,每隔预定的时间间隔从导航页面重新下载商品页面URL,其中下载的商品页面URL按上架时间被排序,
其中,通过以下过程对商品页面信息进行更新:
按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,当比较结果不相同时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面URL的商品信息。
在一个实施例中,通过以下过程对商品页面信息进行更新:
按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash特征码,
当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于设定值时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面URL的商品信息。
在一个实施例中,通过导航页面URL模式从主页面提取导航页面URL,其中,导航页面URL模式以正则表达式形式表示。
在一个实施例中,从导航页面提取商品页面URL包括以下过程:
根据商品页面XPath模式从导航页面提取匹配XPath模式的URL作为商品页面URL,其中,通过以下过程获得对应一个导航页面的一类商品页面的XPath模式:
创建该导航页面的所有URL所在节点的XPath集合,
对该XPath集合利用KNN聚类算法进行聚类,其中使用XPath距离作为该KNN聚类算法的距离度量参数,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410260218.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





