[发明专利]用于搜索多个数据记录的方法和搜索引擎有效

专利信息
申请号: 201180040712.0 申请日: 2011-08-17
公开(公告)号: CN103098052A 公开(公告)日: 2013-05-08
发明(设计)人: 埃明·卡拉耶尔;卡斯滕·海因茨;马蒂亚斯·克林斯 申请(专利权)人: 欧米克数据质量有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 刘继富;王春伟
地址: 德国普福*** 国省代码: 德国;DE
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 搜索 数据 记录 方法 搜索引擎
【说明书】:

发明涉及一种用于搜索多个数据记录的计算机实施的方法。另外,本发明涉及一种可以由一台计算机执行的适当的搜索引擎。

例如在称作网上商店的活动中,搜索多个数据记录是非常重要的。多个产品的一位供应商使用数据记录来记录提供在一个数据库中的产品。一位用户随后可以使用他的计算机经由一个网络(如互联网)来建立到该网上商店的连接并且从该数据库中再调用这些数据记录。如果该数据库包括非常大的数据库存,并且如果单独的数据记录具有一个相对复杂的结构,则对该用户来说能够使用一个搜索引擎来搜索这些数据记录是必要的。在这种情况下,该用户将一个搜索查询传送到该网上商店。该网上商店或连接到其上的一个系统处理该搜索查询并且当符合时将以一种特殊方式排序的数据记录返回给该用户。在这种背景下,引起确定与来自该用户的搜索查询具体相关的数据记录的问题。

此外,已知的实践是不但搜索一个网上商店的数据库而且搜索可以经由互联网接收的数据。这类搜索引擎称为互联网搜索引擎。

对于所有这些搜索引擎而言,出现搜索查询频繁地模糊并且遭受不确定性的问题。在搜索查询中的搜索词语频繁地与有待搜索的数据记录中出现的词语不精确地相对应。此外,这些搜索词语可能包含打字错误或也可能旨在表示语法上不同形式的搜索词语。当处理搜索查询时,因此始终要尽力考虑到搜索查询的模糊性和不确定性的因素。

EP1095326B1描述了一种用于检索以文本格式存储的信息的搜索系统。为了检索这些信息,该搜索系统涉及将一个树形结构作为用于文本的一个数据结构使用。另外,使用一个量度来确定一个查询和检索到的信息之间的匹配程度,其中该量度确定用于文本中的词或符号与查询之间的一个近似匹配程度的一个间隔量度和用于文本中的词或符号的顺序与一个查询顺序之间的一个匹配近似程度的另一个间隔量度的一个组合。

EP1208465B1描述了一种用于搜索文件集合的搜索引擎。在这种搜索引擎的情况下,数据处理单元形成连接在一个网络中的多组节点。搜索引擎被定制,这样使得它可以相对于供搜索查询的数据体和查询速度来被按比例缩放。

EP1341009B1描述了一种用于操作互联网搜索引擎的方法。该方法涉及借助一个智能代理处理的互联网上的网站之间的链路。被访问的网站内容被过滤以便确定内容的关联性。在这种情况下确认的关联网站被编索引,并且被编索引的主题特定的信息被存储在一个数据库之中。这种过滤允许一个网站的内容通过基于字典的一个主题特定的过滤,所述过滤将该网站的内容与在该字典中查找到的术语相比较。

EP1459206B1描述了一种用于搜索项目集合的计算机实施的方法,在该集合中每一个项目均具有一个属性集合。该方法涉及从两个或更多个属性的一个第一集合中形成的一个查询的接收。距离函数随后被应用到该集合中的项目的一个或多个上,并且一个所得项目或多个所得项目基于该距离函数而被识别。在这种情况下,确切地基于集合中的具有在属性的第一集合与用于该项目的属性的集合之间的交集内的所有属性的项目的数量,距离函数确定该查询与该集合中的一个项目之间的距离。

最终,EP1622054A1、WO2008/085637A2以及WO2008/137395A1描述了用于搜索数据记录的另外搜索方法和搜索引擎。

最终,Tuan-Quang Nguyen等人的“在扩展的布尔模型中使用扩充词语的查询扩展(Query expansion using augmented terms in an extended Boolean model)”,韩国信息科学家和工程师计算科学与工程韩国研究所杂志,第2卷,第1期,2008年3月(2008-03),第26-43页,国际标准期刊编号:1976-4677披露一种涉及首先由例如选自检索词典的词语扩展的原始搜索查询的搜索方法。这些添加的词语的选择考虑到与原始搜索词语的相似性的因素。最终,考虑到在文件中搜索词语的共同出现的因素而添加另外的词语(扩充词语)。随后为以这种方式扩展的搜索查询中的词语提供加权,为原始查询词语提供加权1并且为所添加的词语提供取决于与原始搜索词语的相似性的一个加权。然而,不利的是,这个文献中的方法没有解决尤其以下问题:在一个搜索查询中的拼写错误的词导致对于该拼写错误的词的一个非常高水平的关联性,因为不正确拼写的词在文件中根本不出现或很少出现。本发明是基于提供一种用于搜索多个数据记录的计算机实施的方法和一种适当搜索引擎的技术问题的,该搜索引擎可以由一台计算机执行并且获得该多个数据记录并且输出与一个接收到的搜索查询尽可能相关的特殊数据记录。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧米克数据质量有限公司,未经欧米克数据质量有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201180040712.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top