[发明专利]信息抓取方法及装置有效
| 申请号: | 201510938034.X | 申请日: | 2015-12-15 |
| 公开(公告)号: | CN105447184B | 公开(公告)日: | 2019-06-11 |
| 发明(设计)人: | 杜晓梦;刘钰;骆永健;党拓;张扬;吴昊;谭树国;张建枝;李红梅;谢靖鹏 | 申请(专利权)人: | 北京百分点信息科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/955 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
| 地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息 抓取 方法 装置 | ||
1.一种信息抓取方法,其特征在于,包括如下的步骤:
统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的URL地址的对照关系;
从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;
将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;
根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式;
其中,
从所述第一数据库中读取所述列表页的内容,进一步包括:
读取所述第一数据库,查询下次抓取时间字段,若判定下次抓取时间小于当前时间,则通过查询所述第一数据库中的状态码获取所述列表页中待抓取的所述详情页链接地址,并修改所述数据库状态码为正在抓取;
将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中,进一步包括:
将所述详情页链接地址分配到不同的所述抓取机器后,通过修改所述第一数据库中的所述数据库状态码来监控相应详情页的抓取状态,并将抓取到的网页详情数据保存到所述第二数据库;
根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式,进一步包括:
根据预设频率将所述目标信息数据从本地磁盘中读取至所述第二数据库,抽取所述目标字段并结构化所述目标字段;
将所述结构化的所述目标字段保存在抽取列表中,通过关联列表页标签,生成目标格式并导入到目标系统中;
通过所述第一数据库中的抓取状态码判断当前列表页链接的使用状态来实时监控信息的采集状态,当列表页中的某一网站上的信息正在被抓取时,所述数据库状态码被修改为正在抓取,而抓取得到的数据保存在所述第二数据库,根据数据库状态码查询出需要解析的网页,进入所述第二数据库中查询,并解析网页。
2.根据权利要求1所述的方法,其特征在于,
从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库,进一步包括:
访问互联网进行数据下载,当判定下载成功之后,抽取目标信息网站的详情页链接地址,并以所述目标信息网站和对应的所述详情页链接地址更新所述详情页数据库,其中,所述数据为目标信息网站及对应的所述详情页链接地址。
3.根据权利要求2所述的方法,其特征在于,
所以所述目标信息网站和对应的所述详情页链接地址更新所述列表页,进一步包括:
每保存一个新的所述详情页链接地址,则计算所述列表页中出现的最新详情页比例,从而动态规划抓取间隔,更新所述第一数据库中的下次抓取时间字段。
4.根据权利要求1所述的方法,其特征在于:
所述第一数据库为关系型数据库,包括:MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access;
所述第二数据库为非关系型数据库,包括:Cassandra、HBase、Riak、Voldemort、OracleBDB。
5.根据权利要求1所述的方法,其特征在于,将所述详情页链接地址分配到不同的抓取机器上进行抓取,进一步包括:
所述抓取机器根据预设的格式下载目标信息,并将所述目标信息数据保存到本地磁盘用以备份数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点信息科技有限公司,未经北京百分点信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510938034.X/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





