[发明专利]索引装置、索引方法、检索装置、检索方法和检索系统无效
申请号: | 201110319562.9 | 申请日: | 2011-10-20 |
公开(公告)号: | CN103064844A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 许欢庆;吴尉林;夏亮;郭永福;陈沛 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 赵成伟 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 装置 方法 检索 检索系统 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及索引装置、索引方法、检索装置、检索方法和检索系统。
背景技术
搜索引擎已经成为互联网的主要入口,人们通过搜索引擎查询和定位互联网信息资源。传统的搜索引擎索引方法是采用关键词指向文档的倒排索引的方式。在倒排索引中,关键词是按照自然语义切分而来,切分的规则符合自然用语习惯,所以关键词列表的大小是在计算机硬件可接受的一个范围内的。一般的做法都是将关键词列表全部放到内存中,达到快速访问的目的。
具体地,主流的搜索引擎采用倒排索引技术,通过建立检索关键词到文档之间的庞大倒排映射表,实现用户检索请求的快速检索。倒排索引的建立过程中,首先对输入文档进行处理,按照一定语法、语义规则抽取能够表达文档的关键词集合,然后建立词到文档集合的映射表。对于英文而言,通常将空格作为语义分割符号,切分后的单词进行相应的预处理(比如,去词根处理等)作为关键词。中文文档没有显式的词语分割标记,通常采用基于统计规则、语法规则等策略的分词引擎对文档进行关键词切分,获得关键词集合。文档预处理阶段获得的关键词包括:中文词、英文单词、数字串、标点符号等。通常,人们遵循自然用语习惯进行文档撰写,文档预处理过程抽取的关键词总量(通常小于千万)在一定数量范围之内,不会随着索引文档数量的增加而线性膨胀。但是,随着互联网技术的发展,网络媒体的传播自由、便捷分享、即时沟通等特性很快吸引了大量用户,创造了海量的原创信息。区别于传统文档,网络信息不再严格遵循已有语法、语用习惯,行文更趋自由,产生了层出不穷的新鲜词汇。同时,互联网信息繁杂,文档内容极其丰富,各种专业领域也创造了非常用词汇。比如,药名、企业名、个人昵称、网络用语等。这些词汇具有低频、量大、词长的特征,我们将其称之为非规则词。由于,用户提交的搜索引擎检索请求具有“长尾效应”,这些词汇在某些场景下具有重要的价值。
“非规则字符串”是不准遵循自然语义的字符串,所以按照正常切分程序没有办法对其进行切分。在这种情况下,按照传统模式可以采用两种方法进行索引:
第一种方法:一个非规则字符串当作一个关键词,但这种情况下,每个关键词对应的文档很少,甚至可能只对应一篇文档,这样也就造成了大量的资源浪费;第二种方法:非规则字符串中的单个字符做关键词,这种方法与第一种方法相比,优点是关键词列表的大小大大减小,不足的地方是每一个关键词指向的文档数增加,并且每一次非规则串的查询计算量将大大增加,相应的查询速度就是变慢。以上两种方法各有利弊,第一个采用空间换时间的做法,但是硬件资源会浪费,第二个采用时间换空间,但是查询一次非常耗时,两者都没有很好的解决非规则串的索引问题。
因此,需要一种新的用非规则字符串建立索引和进行检索的方法,使得用户可以在现有的计算机硬件条件下,利用文档中的非规则字符串建立索引和进行检索,在获得更好的检索效果的同时,减小索引数据所占内存空间,并提高检索效率。
发明内容
本发明要解决的技术问题在于,提供一种新的用非规则字符串建立索引和进行检索的方法,使得用户可以在现有的计算机硬件条件下,利用文档中的非规则字符串建立索引和进行检索,在获得更好的检索效果的同时,减小索引数据所占内存空间,并提高检索效率。
有鉴于此,本发明提出了一种索引装置,包括:非规则字符串切分模块,对文档中的非规则字符串进行切分;索引建立模块,根据切分后得到的字符串和所述文档建立索引。在该技术方案中,提出对文档中的非规则字符串进行切分,将切分后的新字符串作为关键词建立索引,可以合理地控制索引结构中的关键词指向的文件链表的长度,以及关键词列表的长度,即能够控制索引大小在计算机内存可接受的范围内,可以提高字符串检索速度。
在上述技术方案中,优选地,还包括:过滤模块,创建规范词典和/或规范规则库,并判断当前词是否在所述规范词典中和/或是否符合所述规范规则库中的规则,并在判断结果为否时,确定所述当前词为所述非规则字符串,并启用所述规则字符串切分模块。通过该技术方案,可以有效过滤出非规则字符串,不致遗漏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110319562.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于阀门定位器的气压调节机构
- 下一篇:智能型交流列头柜监控系统