[发明专利]透过分析网页结构抓取网站信息的方法无效
申请号: | 200880017826.1 | 申请日: | 2008-05-29 |
公开(公告)号: | CN101689176A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 崔文圣;韩万镇;金泰均 | 申请(专利权)人: | 怡斯福乐株式会社 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京华夏博通专利事务所 | 代理人: | 刘 俊 |
地址: | 韩国首*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 透过 分析 网页 结构 抓取 网站 信息 方法 | ||
1.一种透过网页结构分析以确定网站信息的方法,包括:
当一网页开始作动时,产生一动作开始讯息,该动作开始讯息含有所核发的身份认证以识别各别网页;
当一网页开始作动时,产生一动作终止讯息,该动作终止讯息含有网页位置,该网页位置关于一对应网页以及透过该身份认证确定一对应网页是否为一主页面或一次页面的信息;
当已加载所有网页时,产生一文件终止讯息,该文件终止讯息含有分析何网页已被作动的信息;
收集该等讯息并产生一讯息数据库;以及
根据该讯息数据库的分析,确定一特定使用者的参访状态的网站信息以及该网站的存取状态。
2.如权利要求1所述的方法,其中,
当该复数个网页被作动时,根据网页依序产生该动作开始讯息,并且根据该加载顺序随机产生该动作终止讯息以及该文件终止讯息;以及
所收集的关于产生该等讯息的顺序的信息储存于该讯息数据库中。
3.如权利要求1所述的方法,其中一讯息数据库的产生包括:于一树状结构,透过各别讯息自该主页面至次页面,产生有一特定网站的复数个网页被确定的讯息数据库。
4.如权利要求1所述的方法,其中一动作开始讯息的产生包括:为确定该对应网页是否为第一次参访,确认关于该对应网页的身份认证信息是否储存于该讯息数据库中。
5.如权利要求1所述的方法,当该网页执行一对应于一复合页面的重新整理功能时,进一步包括:
以一现存身份认证比较一核发至该次页面的身份认证;
执行该比较的一分析;以及
确定该复合页面是否重新整理。
6.如权利要求1所述的方法,当该网页执行一对应于一单一页面的重新整理功能时,进一步包括:
产生一标题变更讯息;以及
当该网页的内部内容已下载时,产生一额外的下载终止讯息,其中该单一页面的重新整理状态根据该标题变更讯息或该下载终止讯息而确定。
7.如权利要求1所述的方法,当于一复合页面中仅该次页面变更时,进一步包括:
维护该次页面的一工作身份认证;
透过所维护的该工作身份认证,自该讯息数据库搜寻该对应网页的一位置;以及
当现用的网页位置不同于关于所搜寻的网页的网页位置信息时,辨识该网页经变更。
8.如权利要求1所述的方法,其中一文件终止讯息的产生包括:
确认一标识是否额外地附加于该对应网页;以及
当一标识附加于该对应网页时,产生关于该标识的现存信息。
9.如权利要求8所述的方法,其中,
关于该标识的该现存信息包括标识位置信息以及标识内容信息;以及
该现存信息储存于一额外数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于怡斯福乐株式会社,未经怡斯福乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880017826.1/1.html,转载请声明来源钻瓜专利网。