[发明专利]一种直播网页爬取方法及装置有效
申请号: | 201710946257.X | 申请日: | 2017-10-12 |
公开(公告)号: | CN110020073B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 满悦 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 直播 网页 方法 装置 | ||
1.一种直播网页爬取方法,其特征在于,包括:
接收直播网页爬取指令,所述直播网页爬取指令包括直播时段、目标直播网页地址;
在所述直播时段内,将所述目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中;
若所述目标直播网页在所述标签页中加载完成,将预定义的爬取脚本文件嵌入到所述标签页中;
实时检测所述目标直播网页是否符合预设爬取条件,并在符合所述预设爬取条件的情况下,运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据;
当所述预设爬取条件为预先生成的爬取时间条件时,所述实时检测所述目标直播网页是否符合预设爬取条件,包括:
实时获取所述目标直播网页的当前时间点;
判断所述当前时间点是否符合所述爬取时间条件;
爬取时间条件的生成过程,包括:
确定所述目标直播网页在所述标签页中加载完成时的加载完成时间点;
根据所述加载完成时间点和预设时间间隔,计算所述直播时段内的全部爬取时间点;
生成包含有全部所述爬取时间点的爬取时间条件。
2.根据权利要求1所述的方法,其特征在于,还包括:
将爬取到的直播数据上传至服务器。
3.根据权利要求1所述的方法,其特征在于,还包括:
判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据;
若是,将所述新数据上传至服务器。
4.根据权利要求1所述的方法,其特征在于,所述运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据,包括:
根据所述目标直播网页地址,确定所述目标直播网页所对应的规则文件;
依据所述规则文件生成所述目标直播网页的元素路径配置文件;
基于所述元素路径配置文件中的元素路径信息运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据。
5.一种直播网页爬取装置,其特征在于,包括:指令接收模块、网页加载模块、脚本文件嵌入模块和数据爬取模块;
所述指令接收模块,用于接收直播网页爬取指令,所述直播网页爬取指令包括直播时段、目标直播网页地址;
所述网页加载模块,用于在所述直播时段内,将所述目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中;
所述脚本文件嵌入模块,用于若检测到所述目标直播网页在所述标签页中加载完成,将预定义的爬取脚本文件嵌入到所述标签页中;
所述数据爬取模块,用于实时检测所述目标直播网页是否符合预设爬取条件,并在符合所述预设爬取条件的情况下,运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据;当所述预设爬取条件为预先生成的爬取时间条件时,所述实时检测所述目标直播网页是否符合预设爬取条件,包括:
实时获取所述目标直播网页的当前时间点;
判断所述当前时间点是否符合所述爬取时间条件;
爬取时间条件的生成过程,包括:
确定所述目标直播网页在所述标签页中加载完成时的加载完成时间点;
根据所述加载完成时间点和预设时间间隔,计算所述直播时段内的全部爬取时间点;
生成包含有全部所述爬取时间点的爬取时间条件。
6.根据权利要求5所述的装置,其特征在于,还包括:数据上传模块;
所述数据上传模块,用于判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据;若是,将所述新数据上传至服务器。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4中任意一项所述的直播网页爬取方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的直播网页爬取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946257.X/1.html,转载请声明来源钻瓜专利网。