[发明专利]一种基于后缀数组的自适应索引构建方法及系统有效
| 申请号: | 201810238041.2 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108595508B | 公开(公告)日: | 2020-11-13 |
| 发明(设计)人: | 胡学东;解静仪;徐文涛;农革 | 申请(专利权)人: | 佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 左恒峰 |
| 地址: | 528399 广东省佛山市顺德区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 后缀 数组 自适应 索引 构建 方法 系统 | ||
1.一种基于后缀数组的自适应索引构建方法,其特征在于,包括以下步骤:
S1、读取索引文档并获取该文档的字节数n,计算存储该文档每个字节地址所需的最小位数p并转换为存储索引地址的最小字节数t;
S2、计算存储索引地址的最小字节数t、所述索引文档的字节数n和构建工具的构建系数k三者的相乘值,从而得到构建该文档的最小所需内存a;
S3、筛选出所有a小于或等于m的索引文档集,选取对应符合所述内存要求的候选构建工具集,其中m为计算机可用内存;
S4、依次调用候选构建工具集中的构建工具进行所述索引文档集的后缀数组的训练构建,从而获取记录信息,其中,所述记录信息包括所有的训练构建数据以及每个构建工具所用的构建时间;
S5、读取所述的记录信息,从而选择并调用构建时间最少的构建工具构建后缀数组。
2.根据权利要求1所述的一种基于后缀数组的自适应索引构建方法,其特征在于,所述步骤S1中,计算存储该文档每个字节地址所需的最小位数p包括:若log2n为整数,则p=log2n;若log2n不为整数,则p=[log2n]+1。
3.根据权利要求2所述的一种基于后缀数组的自适应索引构建方法,其特征在于,所述步骤S1中,转换为存储索引地址的最小字节数t,包括:若log2n为8的倍整数,则t=log2n/8;若log2n不为8的倍整数,则t=[log2n/8]+1。
4.根据权利要求1所述的一种基于后缀数组的自适应索引构建方法,其特征在于:所述步骤S4和S5中的训练构建数据包括计算机CPU类型、硬盘类型和可用内存m,待索引文档的字节数n、数据类型和字符集以及构建时间最少的构建工具名称。
5.根据权利要求1所述的一种基于后缀数组的自适应索引构建方法,其特征在于:所述步骤S5中,采用kNN算法选择并调用构建时间最少的构建工具构建后缀数组。
6.一种基于后缀数组的自适应索引构建系统,其特征在于,包括:
索引模块,用于读取索引文档并获取该文档的字节数n,计算存储该文档每个字节地址所需的最小位数p并转换为存储索引地址的最小字节数t;
计算模块,用于计算存储索引地址的最小字节数t、所述索引文档的字节数n和构建工具的构建系数k三者的相乘值,从而得到构建该文档的最小所需内存a;
筛选模块,用于筛选出所有a小于或等于m的索引文档集,选取对应符合所述内存要求的候选构建工具集,其中m为计算机可用内存;
训练记录模块,用于依次调用候选构建工具集中的构建工具进行所述索引文档集的后缀数组的训练构建,从而获取记录信息,其中,所述记录信息包括所有的训练构建数据以及每个构建工具所用的构建时间;
构建模块,用于读取所述的记录信息,从而选择并调用构建时间最少的构建工具构建后缀数组。
7.根据权利要求6所述的一种基于后缀数组的自适应索引构建系统,其特征在于,所述索引模块计算存储该文档每个字节地址所需的最小位数p,包括:若log2n为整数,则p=log2n;若log2n不为整数,则p=[log2n]+1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经佛山市顺德区中山大学研究院;广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810238041.2/1.html,转载请声明来源钻瓜专利网。





