[发明专利]一种直播网页爬取方法及装置有效
申请号: | 201710946257.X | 申请日: | 2017-10-12 |
公开(公告)号: | CN110020073B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 满悦 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 直播 网页 方法 装置 | ||
本发明公开了一种直播网页爬取方法及装置,该方法包括:接收直播网页爬取指令,所述直播网页爬取指令包括直播时段、目标直播网页地址;在直播时段内,将目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中;若目标直播网页在标签页中加载完成,将预定义的爬取脚本文件嵌入到标签页中;实时检测目标直播网页是否符合预设爬取条件,并在符合预设爬取条件的情况下,运行爬取脚本文件,爬取目标直播网页上的直播数据。这就可以在直播网页运行的过程中不断爬取直播数据,从而保证所爬取直播数据的全面性。
技术领域
本发明涉及互联网技术领域,尤其涉及一种直播网页爬取方法及装置。
背景技术
视频直播是指用户通过网络收看远端正在进行的现场视频实况,比如,主播表演、赛事、会议等,具有较高的实时性。
由于直播网页上的直播数据,例如,弹幕内容和参观人数等会实时更新,并且不会被保存下来,因此,传统静态网页爬虫无法爬取到所有的直播数据。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的直播网页爬取方法及装置。
具体技术方案如下:
一种直播网页爬取方法,包括:
接收直播网页爬取指令,所述直播网页爬取指令包括直播时段、目标直播网页地址;
在所述直播时段内,将所述目标直播网页地址所对应的目标直播网页加载至预设浏览器的标签页中;
若所述目标直播网页在所述标签页中加载完成,将预定义的爬取脚本文件嵌入到所述标签页中;
实时检测所述目标直播网页是否符合预设爬取条件,并在符合所述预设爬取条件的情况下,运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据。
可选的,还包括:
将爬取到的直播数据上传至服务器。
可选的,还包括:
判断爬取到的直播数据中是否存在和历史爬取的历史直播数据不同的新数据;
若是,将所述新数据上传至服务器。
可选的,当所述预设爬取条件为预先生成的爬取时间条件时,所述实时检测所述目标直播网页是否符合预设爬取条件,包括:
实时获取所述目标直播网页的当前时间点;
判断所述当前时间点是否符合所述爬取时间条件。
可选的,爬取时间条件的生成过程,包括:
确定所述目标直播网页在所述标签页中加载完成时的加载完成时间点;
根据所述加载完成时间点和预设时间间隔,计算所述直播时段内的全部爬取时间点;
生成包含有全部所述爬取时间点的爬取时间条件。
可选的,所述运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据,包括:
根据所述目标直播网页地址,确定所述目标直播网页所对应的规则文件;
依据所述规则文件生成所述目标直播网页的元素路径配置文件;
基于所述元素路径配置文件中的元素路径信息运行所述爬取脚本文件,爬取所述目标直播网页上的直播数据。
一种直播网页爬取装置,包括:指令接收模块、网页加载模块、脚本文件嵌入模块和数据爬取模块;
所述指令接收模块,用于接收直播网页爬取指令,所述直播网页爬取指令包括直播时段、目标直播网页地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946257.X/2.html,转载请声明来源钻瓜专利网。