[发明专利]一种视频URL抓取方法、装置及终端设备有效

专利信息
申请号: 201310395725.0 申请日: 2013-09-03
公开(公告)号: CN103455602A 公开(公告)日: 2013-12-18
发明(设计)人: 徐琰;张少伟;左景龙 申请(专利权)人: 小米科技有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100085 北京市海淀区清*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 视频 url 抓取 方法 装置 终端设备
【说明书】:

技术领域

发明涉及网页分析技术领域,尤其涉及一种视频URL抓取方法、装置及终端设备。

背景技术

现有技术中,当用户需要下载的内容比较冷门或下载速度较慢时,可以采用离线下载的方式下载视频。离线下载其实就是下载工具的服务器代替电脑用户先行下载。比如,电脑用户的正常下载最大速度能达到200KB/S,但是某个资源是冷门资源,下载速度只能达到10KB/S,电脑用户就得下很久,如果用户使用离线下载技术,就可以让服务商的服务器代替电脑用户下载,电脑用户就可以关掉下载工具或者机器,节约时间和电费。等到离线下好了,电脑用户再从下载工具的服务器上以200KB/S的速度下到自己的电脑上。即使对于热门资源,离线下载也能省却许多挂机等待的时间,最重要的是能够腾出电脑宽带做其他的事情。

现有对于视频资源的离线下载,都是基于对自身网站的资源调用,即其知道相关视频的视频统一资源定位符(Uniform Resource Locator,URL)。但是,当视频URL地址未知的情况下,就不能自动抓取视频资源。

发明内容

本发明实施例提供一种视频URL抓取方法、装置及终端设备,用于实现对视频URL的准确抓取。

一种视频URL抓取方法方法,包括:

从web页面上提取视频标签;

对所述视频标签的类型进行识别;

根据所述视频标签的类型提取视频URL。

本方案中,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且下载的效率较高。

优选地,从web页面上提取视频标签包括:

扫描web页面的DOM树,找到所有文字节点;

从所有文字节点中提取包括有预设特征文字的文字节点;

将包括有预设特征文字的文字节点的父节点作为所述视频标签。

本方案中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到web页面中的视频标签。

优选地,从web页面上提取视频标签之后还包括:

从所述web页面提取视频标题;

分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;

当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;

当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。

本方案中,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。

优选地,从web页面上提取视频标签之后还包括:

检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;

当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。

本方案中,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。

优选地,从web页面上提取视频标签之前还包括:

解析所述web网页,判断所述web网页是否包含video标签;

当所述web网页包含video标签,从web页面上提取视频标签。

本方案中,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。

优选地,根据所述视频标签的类型提取视频URL包括:

通过所述视频标签提取第一URL;

通过所述第一URL进行网络访问,获取包括MIME Type的协议头;

当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;

当所述第一URL为视频URL时,则获取该视频URL;

当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。

本方案中,通过对从视频标签中提取的URL进行网络验证,使得抓取到的URL为最终的视频URL,避免获得不可下载的HTML页面URL,提高了视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。

优选地,根据所述HTML页面URL获取视频URL包括:

根据所述HTML页面URL获取HTML页面数据;

从所述HTML页面数据中查找第二URL;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310395725.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top