[发明专利]一种面向主题的获取动态页面内容的方法及系统有效
申请号: | 201210060335.3 | 申请日: | 2012-03-08 |
公开(公告)号: | CN102662966A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 归文胜;黎建辉;杨风雷 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 主题 获取 动态 页面 内容 方法 系统 | ||
技术领域
本发明属于网络数据采集技术领域,尤其涉及一种面向主题的获取动态页面内容的方法及系统。
背景技术
当今是信息技术高速发展的时代,各种新事物层出不穷,网络信息呈爆炸趋势,如何从海量数据信息中获取有用的信息,在很多领域和行业中成为一种必需的支撑手段,能够最快最全地掌握行业领域相关的信息往往有利于做出恰当的抉择。与此同时,互联网信息爬取技术已经有了相当发展,尤其是在通用搜索领域,提供给用户的信息量比以前更大,处理用户请求的响应时间也大大提高;特定于客户需求的服务也越来越人性化,搜索内容也从文本、图片覆盖到当今的热门领域-视频。然而随着信息多元化发展,对于特定领域和特定主题的搜索需求越来越多,但通用搜索技术在这些领域的召回率和准确率通常无法满足特定的需求。于是垂直搜索技术应运而生,由于其提供的信息相关度高、同主题信息更多更深入、目标群体更为明确等特点,当前该领域的新技术与新应用越来越广泛。
尽管垂直搜索与通用搜索一样面临着在互联网抓取过程中如何爬取动态页面信息的问题,但由于垂直搜索面向的用户更为具体,需求更为明确,因此如何提供更为全面的基于主题的动态页面信息是垂直搜索引擎的生存基础。目前在垂直搜索领域,如何获取动态页面方面已经取得了一些进展,例如在获取动态页面信息上多采用在抓取客户端中嵌入浏览器内核的方式来获取动态内容,然而该方式虽能获取到一定层次的动态内容,但由于浏览器解析过程中加载了页面布局模块、大量的兼容性代码、与主题无关的动态图片或Flash以及各种广告联盟的广告推广代码等与抓取主题无关的内容,因此时空效率比较低下。为此有人提出将JavaScript解析器嵌入到抓取过程中来实现动态抓取的方式,通常的做法是获取页面、构造DOM、标记DOM中的JavaScript、构造宿主对象、执行JavaScript、返回动态页面。通过这种方式虽然减少了与抓取主题无关的页面布局代码、兼容性代码和图片操作代码等内容的加载解析,但仍然存在着一些缺点:1.加载与主题无关的JavaScript;2.从远程主机请求外部JavaScript文件的时间效率低;3.在执行JavaScript获取的动态页面内容丢失了原页面中存在的部分信息。鉴于这种状况,本申请在这里提供一种新的面向主题的获取动态页面内容的方法。
发明内容
针对当前普遍采用的以嵌入JavaScript解析器的方式实现动态页面内容获取的方法存在的问题,本发明的目的在于提供一种面向主题的获取动态页面内容的方法及系统。
本发明提出以下解决方案,通过建立JavaScript过滤库以过滤与主题无关的JavaScript文件,从而减少加载与主题无关的外部JavaScript文件;通过建立JavaScript本地库以便从本地加载原本需要从远程主机加载的JavaScript文件,从而减少与远程主机之间的交互,进而减少加载外部JavaScript文件所需的时间;通过将原页面中存在而JavaScript解析器解析后的动态页面中缺少的信息加入到动态页面中来提高动态页面的完整性。
本申请提供一种面向主题的获取页面动态内容的方法及系统,用以解决垂直搜索领域如何爬取动态页面信息的问题,技术方案如下:
本申请提供一种面向主题的获取页面动态内容的方法,具体步骤如下:
1.建立JavaScript过滤库
分析每一个抓取页面内部的JavaScript文件,根据其是否与抓取主题相关来决定是否将其相关信息存入到JavaScript过滤库,并增加库维护模块。
2.建立JavaScript本地库
初始存入常见的JavaScript文件,然后根据每一次远程请求的外部JavaScript文件来完善该JavaScript本地库,并增加库维护模块。
3.提供生成各种宿主对象的类
主要包括JavaScript语言本身不存在但在执行JavaScript代码时可能需要访问的对象。
4.获取页面信息
基于正确的页面编码获取页面信息。
5.生成当前页面的DOM对象
利用DOMParser,HTMLParser等HTML解析器生成该页面的DOM对象,当前页面中如果使用到相关宿主对象,则从步骤3提供的宿主类中实例化相应对象。
6.标记是否需过滤JavaScript文件
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210060335.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页预加载方法及系统
- 下一篇:一种进程通信方法和装置