[发明专利]一种基于XMLHTTP组件技术的网页内容采集方法无效
| 申请号: | 200710106960.6 | 申请日: | 2007-05-15 |
| 公开(公告)号: | CN101136026A | 公开(公告)日: | 2008-03-05 |
| 发明(设计)人: | 陈世杰 | 申请(专利权)人: | 北京聚生科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100085北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 xmlhttp 组件 技术 网页 内容 采集 方法 | ||
本发明涉及的是通过XML中XMLHTTP组件技术,来实现对远程网页数据信息进行批量采集的方法。
当前国内一般的信息获取方式都是通过人工对信息进行逐条搜集来实现,费时、费力,并且效率低下。同时,靠人工方式获取信息将受到人力资源、资金、时间等限制,从而影响了企业及时有效地获得特定的信息。
本发明的独特之处在于通过利用互联网的XML中XMLHTTP组件技术,获取远程网页的源代码,并且根据特定的截取规则来获取源代码里面的数据的网址表;通过利用XMLHTTP组件技术查看数据的网址对应的数据的源代码,通过设置特定的截取规则对源代码里面的特定信息进行截取,并将截取的数据进行保存。通过利用此采集方法,可以使得企业的信息搜集人员在短时间内获得大量的信息,可以充实企业的网站内容,可以将信息汇总成情报,可以实现对信息自动化处理。
当前互联网的信息量十分巨大,并且成几何级的增长速度。有效地获取互联网有用的信息来为企业服务,已经成为当前企业的一个迫切的需求。但是目前企业收集信息的方式,很多情况下是靠企业自身的人员,通过手工去对一条条信息进行编辑、拷贝,效率十分低下;如果企业想获得更大量的信息,就不得不部署大量的人力,投入大量的资金,这对企业来说难以承受;同时,如果企业从外部购买信息,由于缺乏针对性,从而无法满足企业对信息的特定的要求。
结合说明书附图,本发明工作原理如下:首先确定要采集的网页地址,通过利用XMLHTTP组件技术获取远程网页的源代码,设置特定的截取规则获取远程网页源代码中数据的网址表;利用XMLHTTP组件技术获取数据的网址所对应的网页的源代码,设置特定的截取规则,根据设定的截取规则获取特定的数据信息。
一种基于XMLHTTP组件技术的网页内容采集方法,其特征如下:1)首先确定要采集的网页地址;2)利用XMLHTTP组件技术,获取远程网页的源代码;3)设置特定的截取规则,从获取的源代码中获取数据的网址表;4)根据数据的网址,利用XMLHTTP组件技术,获取数据的源代码;5)设置特定的截取规则,根据设定的截取规则从获取的数据的源代码中获取特定的数据信息。
按照本采集方法的技术特征,可以用任意的编程语言来实现。通过应用本采集技术,企业可以在短时间内获得大量的信息,这些信息可以用来充实企业的网站内容,可以为企业决策提供情报支持;可以使得企业能够通过信息分析市场,获得潜在的商机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京聚生科技有限公司,未经北京聚生科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710106960.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电化学反应控制型pH调节仪
- 下一篇:超临界CO2经轴染色系统





