[发明专利]一种通用的可用于任何网页的网页内容抓取的方法无效

专利信息
申请号: 201010002563.6 申请日: 2010-01-12
公开(公告)号: CN101763425A 公开(公告)日: 2010-06-30
发明(设计)人: 胡加明 申请(专利权)人: 苏州阔地网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 215021 江苏省苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明名称是一种通用的可用于任何网页的网页内容抓取的方法,属于网络技术领域。采用的技术方案:一种通用的用于任何网页的网页内容抓取方法。本发明提供一种通用的用于任何网页的网页内容抓取的方法。方法是:用户输入要抓取的网址和条件表达式,创建子页面,并将网址和条件表达式发送给子页面,子页面请求服务器并获取该网址的网页所有内容,并给网页内容嵌入一段javascript程序。javascript程序将条件表达式转换为一个数组变量,javascript程序遍历数组,找出符合条件的所有节点。javascript程序获取所有节点的innerHTML或者outerHTML属性值来获取对应的网页内容。该方法能使用户只需简单地修改条件表达式即可抓取网页中的任何内容,而无须针对每个网页都写一份解析网页内容的代码。
搜索关键词: 一种 通用 用于 任何 网页 内容 抓取 方法
【主权项】:
一种通用的可用于任何网页的网页内容抓取的方法,包括以下步骤:1)客户端输入一个待抓取的目标网址和条件表达式,在客户端生成一个显示网页所有内容的子页面;2)客户端将条件表达式解析为节点标签和条件的数组变量3)遍历数组,在子页面找出符合条件的节点,并将符合最后一个条件的所有节点保存到一个数组变量;4)客户端获取保存的数组变量中的所有节点的innerHTML属性值或者outerHTML属性值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州阔地网络科技有限公司,未经苏州阔地网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010002563.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top