[发明专利]索引装置、索引方法、检索装置、检索方法和检索系统无效
申请号: | 201110319562.9 | 申请日: | 2011-10-20 |
公开(公告)号: | CN103064844A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 许欢庆;吴尉林;夏亮;郭永福;陈沛 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 赵成伟 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 装置 方法 检索 检索系统 | ||
1.一种索引装置,其特征在于,包括:
非规则字符串切分模块,对文档中的非规则字符串进行切分;
索引建立模块,根据切分后得到的字符串和所述文档建立索引。
2.根据权利要求1所述的索引装置,其特征在于,还包括:过滤模块,创建规范词典和/或规范规则库,并判断当前词是否在所述规范词典中和/或是否符合所述规范规则库中的规则,并在判断结果为否时,确定所述当前词为所述非规则字符串,并启用所述规则字符串切分模块。
3.根据权利要求1或2所述的索引装置,其特征在于,还包括:
固定长度设置模块,设置固定长度;
所述非规则字符串切分模块按所述固定长度对所述非规则字符串进行切分。
4.一种索引方法,其特征在于,包括:
步骤202,非规则字符串切分模块对文档中的非规则字符串进行切分;
步骤204,索引建立模块根据切分后得到的字符串和所述文档建立索引。
5.根据权利要求4所述的索引方法,其特征在于,在所述步骤202之前,还包括:过滤模块创建规范词典和/或规范规则库,并判断当前词是否在所述规范词典中和/或是否符合所述规范规则库中的规则,并在判断结果为否时,确定所述当前词为所述非规则字符串,并进入所述步骤202。
6.根据权利要求4或5所述的索引方法,其特征在于,在所述步骤202之前,还包括:固定长度设置模块设置固定长度;
所述步骤202具体包括:所述非规则字符串切分模块按所述固定长度对所述非规则字符串进行切分。
7.一种检索装置,其特征在于,包括:
非规则字符串切分模块,对检索串中的非规则字符串进行切分;
检索模块,根据切分后得到的字符串,在预建立的索引中进行检索。
8.根据权利要求7所述的检索装置,其特征在于,还包括:
如权利要求1至3中任一项所述的索引装置,以预建立所述索引。
9.根据权利要求8所述的检索装置,其特征在于,所述非规则字符串切分模块还在所述字符串的被切分处添加标记;
所述检索模块根据所述标记,将所有所述字符串所匹配的索引合并,以及对合并的索引中的文档计算相关性,并根据得到的相关性来选取作为检索结果的文档。
10.一种检索方法,其特征在于,包括:
步骤402,非规则字符串切分模块对检索串中的非规则字符串进行切分;
步骤404,检索模块根据切分后得到的字符串,在预建立的索引中进行检索。
11.根据权利要求10所述的检索方法,其特征在于,在所述步骤404之前,还包括:
根据权利要求4至6中任一项所述的索引方法,预建立所述索引。
12.根据权利要求11所述的检索方法,其特征在于,在所述步骤402中,还包括:
所述非规则字符串切分模块在所述字符串的被切分处添加标记;
所述步骤404具体包括:所述检索模块根据所述标记,获取所述字符串,并统计所述字符串在所述文档中顺序出现的次数,以用于为所述文档计算相关性,并根据得到的相关性来选取作为检索结果的文档。
13.一种检索系统,其特征在于,包括:
权利要求1至3中任一项所述的索引装置;
权利要求7至9中任一项所述的检索装置,所述检索装置使用其生成的字符串,在所述索引装置建立的索引中进行检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110319562.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于阀门定位器的气压调节机构
- 下一篇:智能型交流列头柜监控系统