[发明专利]一种视频URL抓取方法、装置及终端设备有效
申请号: | 201310395725.0 | 申请日: | 2013-09-03 |
公开(公告)号: | CN103455602A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 徐琰;张少伟;左景龙 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 url 抓取 方法 装置 终端设备 | ||
技术领域
本发明涉及网页分析技术领域,尤其涉及一种视频URL抓取方法、装置及终端设备。
背景技术
现有技术中,当用户需要下载的内容比较冷门或下载速度较慢时,可以采用离线下载的方式下载视频。离线下载其实就是下载工具的服务器代替电脑用户先行下载。比如,电脑用户的正常下载最大速度能达到200KB/S,但是某个资源是冷门资源,下载速度只能达到10KB/S,电脑用户就得下很久,如果用户使用离线下载技术,就可以让服务商的服务器代替电脑用户下载,电脑用户就可以关掉下载工具或者机器,节约时间和电费。等到离线下好了,电脑用户再从下载工具的服务器上以200KB/S的速度下到自己的电脑上。即使对于热门资源,离线下载也能省却许多挂机等待的时间,最重要的是能够腾出电脑宽带做其他的事情。
现有对于视频资源的离线下载,都是基于对自身网站的资源调用,即其知道相关视频的视频统一资源定位符(Uniform Resource Locator,URL)。但是,当视频URL地址未知的情况下,就不能自动抓取视频资源。
发明内容
本发明实施例提供一种视频URL抓取方法、装置及终端设备,用于实现对视频URL的准确抓取。
一种视频URL抓取方法方法,包括:
从web页面上提取视频标签;
对所述视频标签的类型进行识别;
根据所述视频标签的类型提取视频URL。
本方案中,通过对提取到的视频标签的类型进行识别,来抓取视频URL,使得在视频URL未知的情况下,可以从网页上准确地抓取可用视频URL,以实现对视频资源的自动批量下载,并且下载的效率较高。
优选地,从web页面上提取视频标签包括:
扫描web页面的DOM树,找到所有文字节点;
从所有文字节点中提取包括有预设特征文字的文字节点;
将包括有预设特征文字的文字节点的父节点作为所述视频标签。
本方案中,通过视频标签的文字特性对视频标签进行提取,可以快速准确地提取到web页面中的视频标签。
优选地,从web页面上提取视频标签之后还包括:
从所述web页面提取视频标题;
分析所述视频标签是否包含前导符,所述前导符为所述视频标签中除所述预设特征文字外的文字;
当所述视频标签包含前导符,分析所述前导符中是否包含有提取到的所述视频标题;
当所述视频标签中的前导符不包含有提取到的所述视频标题时,判定所述视频标签无效,不作处理。
本方案中,通过对视频标签前导符的验证,实现对视频标签的准确提取,过滤掉无效的视频标签。
优选地,从web页面上提取视频标签之后还包括:
检测所述视频标签是否为超链接或所述视频标签是否包含onclick事件;
当所述视频标签不是超链接且不包含onclick事件时,判定所述视频标签无效,不作处理。
本方案中,进一步提高视频标签提取的准确性,过滤掉无效的视频标签。
优选地,从web页面上提取视频标签之前还包括:
解析所述web网页,判断所述web网页是否包含video标签;
当所述web网页包含video标签,从web页面上提取视频标签。
本方案中,提高视频标签提取的效率,避免对不包含视频元素的网页进行视频标签提取,而造成对处理资源的浪费。
优选地,根据所述视频标签的类型提取视频URL包括:
通过所述视频标签提取第一URL;
通过所述第一URL进行网络访问,获取包括MIME Type的协议头;
当所述MIME Type为视频类型时,判定所述第一URL为视频URL;当所述MIME Type为HTML页面类型时,判定所述第一URL为HTML页面URL;
当所述第一URL为视频URL时,则获取该视频URL;
当所述第一URL为HTML页面URL时,根据所述HTML页面URL获取视频URL。
本方案中,通过对从视频标签中提取的URL进行网络验证,使得抓取到的URL为最终的视频URL,避免获得不可下载的HTML页面URL,提高了视频URL抓取的准确性,使得后续可以根据该视频URL顺利的下载到视频资源,提高视频下载的效率。
优选地,根据所述HTML页面URL获取视频URL包括:
根据所述HTML页面URL获取HTML页面数据;
从所述HTML页面数据中查找第二URL;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310395725.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微信帐号的排序过滤检索方法
- 下一篇:短信息通知界面主题设置系统与方法