[发明专利]一种通用的可用于任何网页的网页内容抓取的方法无效
| 申请号: | 201010002563.6 | 申请日: | 2010-01-12 |
| 公开(公告)号: | CN101763425A | 公开(公告)日: | 2010-06-30 |
| 发明(设计)人: | 胡加明 | 申请(专利权)人: | 苏州阔地网络科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 215021 江苏省苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明名称是一种通用的可用于任何网页的网页内容抓取的方法,属于网络技术领域。采用的技术方案:一种通用的用于任何网页的网页内容抓取方法。本发明提供一种通用的用于任何网页的网页内容抓取的方法。方法是:用户输入要抓取的网址和条件表达式,创建子页面,并将网址和条件表达式发送给子页面,子页面请求服务器并获取该网址的网页所有内容,并给网页内容嵌入一段javascript程序。javascript程序将条件表达式转换为一个数组变量,javascript程序遍历数组,找出符合条件的所有节点。javascript程序获取所有节点的innerHTML或者outerHTML属性值来获取对应的网页内容。该方法能使用户只需简单地修改条件表达式即可抓取网页中的任何内容,而无须针对每个网页都写一份解析网页内容的代码。 | ||
| 搜索关键词: | 一种 通用 用于 任何 网页 内容 抓取 方法 | ||
【主权项】:
一种通用的可用于任何网页的网页内容抓取的方法,包括以下步骤:1)客户端输入一个待抓取的目标网址和条件表达式,在客户端生成一个显示网页所有内容的子页面;2)客户端将条件表达式解析为节点标签和条件的数组变量3)遍历数组,在子页面找出符合条件的节点,并将符合最后一个条件的所有节点保存到一个数组变量;4)客户端获取保存的数组变量中的所有节点的innerHTML属性值或者outerHTML属性值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州阔地网络科技有限公司,未经苏州阔地网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010002563.6/,转载请声明来源钻瓜专利网。
- 上一篇:输液臭氧治疗机
- 下一篇:一种具有解酒防醉作用的组合物及其制备方法





