[发明专利]基于移动设备的可视Web对象搜索引擎方法有效
| 申请号: | 201110113856.6 | 申请日: | 2011-05-04 |
| 公开(公告)号: | CN102193996A | 公开(公告)日: | 2011-09-21 |
| 发明(设计)人: | 寿黎但;陈珂;陈刚;胡天磊;张超 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 移动 设备 可视 web 对象 搜索引擎 方法 | ||
技术领域
本发明涉及可视Web对象搜索引擎,尤其是涉及一种基于移动设备的可视Web对象搜索引擎方法。
背景技术
目前,信息物理系统(Cyber Physical System, 简称CPS)正受到国内外计算机领域工作者们的广泛关注。CPS是在环境感知的基础上,深入融合计算、通信和控制能力的可控可信可扩展的网络化物理设备系统,通过计算进程和物理进程相互影响的反馈循环实现深入融合和实时交互来增加或扩展新的功能,以安全、高效和实时的方式监测或者控制一个物理实体。
本发明就是一个以移动设备(比如手机、GPS导航仪等)为载体的CPS搜索引擎,通过融合Web对象的物理可视性与语义相关性,搜索引擎返回用户视野范围内与查询关键词密切相关的Web对象,并能够根据用户位置的变化动态更新搜索结果。在传统信息检索技术和空间数据库查询技术的基础上,针对海量Web对象设计高效的索引、检索、排序机制是构建本系统的关键。
在信息检索领域,常见的全文搜索引擎采用倒排文件对Web对象进行索引。搜索引擎通过爬虫从互联网提取各个网站的信息(以网页文字为主),建立网页数据库以及关键词与网页之间的对应关系,用户输入关键词进行检索时,搜索引擎从索引数据库中找到匹配该关键词的网页,并按一定的排列顺序返回结果。
在空间数据库领域,常见的索引方法包括网格、四叉树和R树等,这些空间索引通常以层次型的结构组织空间对象,从而支持高效的空间查询。以被业界广泛采用的R树为例,空间上位置相近的数据点被聚类到最小包围盒里,这些最小包围盒又根据空间局部性递归的进行聚类,直到到达根节点。在空间索引结构的基础上,研究者们提出了多种多样的空间查询方法,比如范围查询、最近邻查询、反向最近邻查询、可视查询等。目前的主流数据库管理系统都已经能够高效支持空间索引的建立以及空间查询的处理,比如Maplnfo的SpatialWare、Oracle的Spatial、IBM DB2的Spatial Extender,以及MySQL的Spatial Extensions等,这些空间查询引擎被广泛应用于地理信息系统、计算机辅助设计、多媒体信息系统以及数据仓库等。
上述空间数据库引擎和信息检索平台只能片面地处理空间查询或语义查询,为了处理空间-关键词搜索,必须综合利用空间索引与文本索引,一种方法是先通过空间索引得到满足空间查询条件的候选对象,然后通过文本索引过滤不满足关键词查询条件的对象,最后得到同时满足空间和文本条件的结果集。另一种方法则与之相反,即先通过关键词的筛选,再利用空间信息进一步提炼,以得到最终结果。但是,无论是先空间再文本,还是先文本再空间的过滤方式,在中间过程中都会产生大量的候选对象,这是影响查询性能的主要瓶颈。针对此缺陷,近年来研究者们提出了若干种混合索引机制,比如在R-Tree的节点中附加上签名的IR2树索引,以及在R树的节点中附加倒排文件索引指针的IR树索引等等,在这些混合型索引的基础上,结合最好优先策略,可以高效地获取离用户欧氏距离较近且文本内容较匹配的Web对象。
混合索引的提出较好地解决了空间位置与文本属性融合的问题,但是研究者们所提出的查询处理方法只是简单地以绝对欧式距离作为空间匹配程度的标准,而在CPS框架下,用户感兴趣的通常只是其视野范围内的对象,相对于欧氏距离,可视程度是一种更合适的物理匹配程度衡量标准,如何以移动设备为载体,融合Web对象的可视性与语义信息从而支持海量Web对象的可视检索是一个新的课题。
发明内容
本发明的目的在于提供一种基于移动设备的可视Web对象搜索引擎方法。
本发明解决其技术问题采用的技术方案的步骤如下:
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型;
2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库;
3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的IR树索引;
4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的IR树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110113856.6/2.html,转载请声明来源钻瓜专利网。





