[发明专利]一种信息处理方法及装置在审
申请号: | 201510385974.0 | 申请日: | 2015-06-30 |
公开(公告)号: | CN105095395A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 侯建 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
1.一种信息处理方法,其特征在于,包括:
检测当前时间是否到达预设时间点;
当到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
对所述目标网站的网站信息进行数据处理,并输出所述数据处理后的网站信息。
2.根据权利要求1所述的方法,其特征在于,所述抓取目标网站的网站信息,包括:
解析目标网站的页面结构;
以所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站信息。
3.根据权利要求2所述的方法,其特征在于,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述目标网站的网站信息是通过预设的第一方式抓取得到的;所述对所述目标网站的网站信息进行数据处理,包括:
分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
所述方法还包括:
若对所述目标网站信息的数据处理失败,则通过预设的第二方式重新抓取所述数据处理失败的目标网站信息,并对重新抓取的所述目标网站信息进行数据处理。
5.根据权利要求1所述的方法,其特征在于,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站信息。
6.一种信息处理装置,其特征在于,包括:
时间检测模块,用于检测当前时间是否到达预设时间点;
信息抓取模块,用于在所述时间检测模块检测到所述当前时间到达所述预设时间点时,抓取目标网站的网站信息,其中,所述目标网站的网站信息包括需要从所述目标网站抓取的所有网站信息;
数据处理模块,用于对所述信息抓取模块抓取的所述目标网站的网站信息进行数据处理;
信息输出模块,用于输出所述数据处理模块进行所述数据处理后的网站信息。
7.根据权利要求6所述的装置,其特征在于,所述信息抓取模块包括:
页面解析单元,用于解析目标网站的页面结构;
策略确定单元,用于以所述页面解析单元解析出的所述目标网站的页面结构为依据,确定对所述目标网站的信息抓取策略,并通过所述信息抓取策略抓取所述目标网站的网站信息。
8.根据权利要求7所述的装置,其特征在于,所述信息抓取策略包括文档对象模型DOM节点解析策略和/或基于正则表达式的信息抓取策略。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述目标网站的网站信息是通过预设的第一方式抓取得到的;
所述数据处理模块具体用于:
分别将抓取的所述目标网站的每一条网站信息作为目标网站信息,并对所述目标网站信息进行数据处理;
所述信息抓取模块,还用于在所述数据处理模块对所述目标网站信息的数据处理失败时,通过预设的第二方式重新抓取所述数据处理失败的目标网站信息;
所述数据处理模块,还用于对所述信息抓取模块重新抓取的所述目标网站信息进行数据处理。
10.根据权利要求6所述的装置,其特征在于,所述目标网站包括与服务器关联的多个网站,且所述多个网站为网站类型相同的网站;或,
所述目标网站存在多个信息源,所述目标网站的网站信息包括所述多个信息源的网站信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510385974.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息提供方法和装置
- 下一篇:一种检索结果的输出方法及装置