[发明专利]网络信息获取方法和装置无效
| 申请号: | 200910237238.5 | 申请日: | 2009-11-05 |
| 公开(公告)号: | CN102054008A | 公开(公告)日: | 2011-05-11 |
| 发明(设计)人: | 陈文斌;汪洋;徐瑞峰;罗丽俊;杜宇程;曹晓航;程鹏 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
| 地址: | 100083 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 信息 获取 方法 装置 | ||
技术领域
本发明涉及通信领域,尤其涉及一种网络信息获取方法和装置。
背景技术
随着网络的不断发展和普及,互联网正在为人们的日常工作和生活提供越来越多的信息。
利用网络的搜索引擎进行搜索是从网络获取信息的一个重要途径。目前,网络上的搜索引擎会根据用户输入的关键字进行搜索,并将搜索到的与关键字匹配的条目呈献给用户。由于网路搜索引擎的功能很强,因此能够搜索到的条目非常多,但是,在这些搜索到的条目中,有很多条目仅仅是包含用户提供的关键词,但是其主要内容与用户期望搜索的内容并不匹配,并且,对于一些实时变换的信息,很可能会有已经过期的旧内容被搜索到,因此,如果用户要得到其期望的内容,就需要根据自己的判断对这些搜索条目进行逐条筛选,从而增加用户的工作量。
例如,在现阶段的导航电子地图数据生产过程中,基本上都是通过人工来进行情报数据的获取和更新,由于路况信息的更新比较快,这种人工获取数据的方式已经很难满足大规模地理信息数据生产的需求,并且难以适应信息的更新。
针对这种人工筛选搜索条目工作量很大的问题,很多设计者都提出了通过编写软件在网上搜索并过滤条目的搜索技术,但是这些技术大多需要自行编写搜索引擎以及索引库,并且需要配置复杂的过滤模板才能够进行搜索条目的过滤,如果需要更改搜索的条件就需要重新配置搜索模板,灵活性较差;并且,不论是搜索引擎的编写还是模板的配置都会产生很大的工作量,不能够有效提高搜索的效率,且配置的搜索引擎很可能不能够全面搜集数据,导致信息的遗漏。
针对相关技术中网络信息获取人工操作量大、灵活性差的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中网络信息获取人工操作量大、灵活性差的问题,本发明提出一种网络信息获取方案,能够使网络信息的获取具有更好的灵活性,并且减少人工操作。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种网络信息获取方法。
根据本发明的网络信息获取方法包括:通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。
其中,在搜索到与关键词相关的网络信息之后、进行价值评分之前,该方法可进一步包括:将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
另外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括:根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除。
此外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括:根据预设的标题过滤规则对搜索到的网络信息的标题进行过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除。
可选地,保存价值评分达到第一分数阈值的网络信息的处理具体可以包括:对于价值评分达到第一分数阈值的网络信息,根据该网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并保存。
根据本发明的另一方面,提供了一种网络信息获取装置。
根据本发明的网络信息获取装置包括:搜索模块,用于通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;分析模块,用于根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分;存储模块,用于存储价值评分达到第一分数阈值的网络信息。
其中,搜索模块可以进一步包括:第一处理子模块,用于将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;第二处理子模块,用于对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
并且,分析模块可以进一步包括:第一分析子模块,用于根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除;第二分析子模块,根据预设的标题过滤规则对第一分析子模块过滤后剩余的网络信息的标题进行匹配并给出过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除;第三分析子模块,用于根据模糊过滤规则第二分析子模块过滤后剩余的网络信息进行价值评分。
此外,分析模块还可用于根据价值评分达到第一分数阈值的网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并提供给存储模块进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910237238.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





