[发明专利]索引装置、索引方法、检索装置、检索方法和检索系统无效

专利信息
申请号: 201110319562.9 申请日: 2011-10-20
公开(公告)号: CN103064844A 公开(公告)日: 2013-04-24
发明(设计)人: 许欢庆;吴尉林;夏亮;郭永福;陈沛 申请(专利权)人: 北京中搜网络技术股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市盈科律师事务所 11344 代理人: 赵成伟
地址: 100191 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 装置 方法 检索 检索系统
【说明书】:

技术领域

发明涉及计算机技术领域,具体而言,涉及索引装置、索引方法、检索装置、检索方法和检索系统。

背景技术

搜索引擎已经成为互联网的主要入口,人们通过搜索引擎查询和定位互联网信息资源。传统的搜索引擎索引方法是采用关键词指向文档的倒排索引的方式。在倒排索引中,关键词是按照自然语义切分而来,切分的规则符合自然用语习惯,所以关键词列表的大小是在计算机硬件可接受的一个范围内的。一般的做法都是将关键词列表全部放到内存中,达到快速访问的目的。

具体地,主流的搜索引擎采用倒排索引技术,通过建立检索关键词到文档之间的庞大倒排映射表,实现用户检索请求的快速检索。倒排索引的建立过程中,首先对输入文档进行处理,按照一定语法、语义规则抽取能够表达文档的关键词集合,然后建立词到文档集合的映射表。对于英文而言,通常将空格作为语义分割符号,切分后的单词进行相应的预处理(比如,去词根处理等)作为关键词。中文文档没有显式的词语分割标记,通常采用基于统计规则、语法规则等策略的分词引擎对文档进行关键词切分,获得关键词集合。文档预处理阶段获得的关键词包括:中文词、英文单词、数字串、标点符号等。通常,人们遵循自然用语习惯进行文档撰写,文档预处理过程抽取的关键词总量(通常小于千万)在一定数量范围之内,不会随着索引文档数量的增加而线性膨胀。但是,随着互联网技术的发展,网络媒体的传播自由、便捷分享、即时沟通等特性很快吸引了大量用户,创造了海量的原创信息。区别于传统文档,网络信息不再严格遵循已有语法、语用习惯,行文更趋自由,产生了层出不穷的新鲜词汇。同时,互联网信息繁杂,文档内容极其丰富,各种专业领域也创造了非常用词汇。比如,药名、企业名、个人昵称、网络用语等。这些词汇具有低频、量大、词长的特征,我们将其称之为非规则词。由于,用户提交的搜索引擎检索请求具有“长尾效应”,这些词汇在某些场景下具有重要的价值。

“非规则字符串”是不准遵循自然语义的字符串,所以按照正常切分程序没有办法对其进行切分。在这种情况下,按照传统模式可以采用两种方法进行索引:

第一种方法:一个非规则字符串当作一个关键词,但这种情况下,每个关键词对应的文档很少,甚至可能只对应一篇文档,这样也就造成了大量的资源浪费;第二种方法:非规则字符串中的单个字符做关键词,这种方法与第一种方法相比,优点是关键词列表的大小大大减小,不足的地方是每一个关键词指向的文档数增加,并且每一次非规则串的查询计算量将大大增加,相应的查询速度就是变慢。以上两种方法各有利弊,第一个采用空间换时间的做法,但是硬件资源会浪费,第二个采用时间换空间,但是查询一次非常耗时,两者都没有很好的解决非规则串的索引问题。

因此,需要一种新的用非规则字符串建立索引和进行检索的方法,使得用户可以在现有的计算机硬件条件下,利用文档中的非规则字符串建立索引和进行检索,在获得更好的检索效果的同时,减小索引数据所占内存空间,并提高检索效率。

发明内容

本发明要解决的技术问题在于,提供一种新的用非规则字符串建立索引和进行检索的方法,使得用户可以在现有的计算机硬件条件下,利用文档中的非规则字符串建立索引和进行检索,在获得更好的检索效果的同时,减小索引数据所占内存空间,并提高检索效率。

有鉴于此,本发明提出了一种索引装置,包括:非规则字符串切分模块,对文档中的非规则字符串进行切分;索引建立模块,根据切分后得到的字符串和所述文档建立索引。在该技术方案中,提出对文档中的非规则字符串进行切分,将切分后的新字符串作为关键词建立索引,可以合理地控制索引结构中的关键词指向的文件链表的长度,以及关键词列表的长度,即能够控制索引大小在计算机内存可接受的范围内,可以提高字符串检索速度。

在上述技术方案中,优选地,还包括:过滤模块,创建规范词典和/或规范规则库,并判断当前词是否在所述规范词典中和/或是否符合所述规范规则库中的规则,并在判断结果为否时,确定所述当前词为所述非规则字符串,并启用所述规则字符串切分模块。通过该技术方案,可以有效过滤出非规则字符串,不致遗漏。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110319562.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top