[发明专利]一种基于区块链和分布式存储的大文本存储、索引及检索方法有效
| 申请号: | 201910142361.2 | 申请日: | 2019-02-26 |
| 公开(公告)号: | CN109918375B | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 黄步添;闫凤喜;张维赛;徐启源;石太彬;俞之贝 | 申请(专利权)人: | 杭州云象网络技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06Q40/04 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
| 地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 区块 分布式 存储 文本 索引 检索 方法 | ||
1.一种基于区块链和分布式存储的大文本存储、索引及检索方法,包括如下步骤:
(1)将大文本数据存储到分布式存储网络中,分布式存储网络为大文本数据分配唯一标识doc_id,并且通过doc_id对大文本的数据进行寻址;
(2)对大文本数据进行分词处理,生成关键词列表,并基于所有关键词构建关键词倒排索引表keywords_index_table,使每个关键词哈希keyword_hash指向大文本数据的唯一标识doc_id;
(3)将索引表keywords_index_table存储到分布式存储网络中,并将其唯一标识keywords_index_table_id和索引表名称keywords_index_table_name存储到区块链网络中具体智能合约的数据结构中;
(4)在智能合约中建立一种特殊的类型bigtext,通过该类型声明的变量将会被映射为分布式存储网络中的相应索引表keywords_index_table,其变量名称与对应索引表keywords_index_table绑定,且与变量相关的大文本数据一同被存入分布式存储网络中,并得到一个唯一标识进行寻址,同时大文本数据也会被构建索引到索引表keywords_index_table中。
2.根据权利要求1所述的大文本存储、索引及检索方法,其特征在于:所述类型bigtext的变量名称根据索引表keywords_index_table所满足的功能进行制定,且与索引表名称keywords_index_table_name一致。
3.根据权利要求1所述的大文本存储、索引及检索方法,其特征在于:所述智能合约开放有写入接口和检索接口,写入接口用于接受变量名称及大文本数据,将对应大文本数据存入分布式存储系统并为其构建索引表keywords_index_table;检索接口用于接受变量名称及关键词,并返回符合条件的文档列表。
4.根据权利要求3所述的大文本存储、索引及检索方法,其特征在于:所述步骤(2)通过以下两个程序实现:
分词程序,用于对大文本数据进行分词处理,生成关键词列表,并将关键词列表传递给索引表构建程序;
索引表构建程序,用于对关键词列表进行哈希运算,并基于关键词哈希keyword_hash构建关键词倒排索引表keywords_index_table,使每个关键词哈希keyword_hash指向大文本数据的唯一标识doc_id。
5.根据权利要求4所述的大文本存储、索引及检索方法,其特征在于:所述智能合约写入接口的具体功能实现过程如下:
1.1根据变量名称,通过合约虚拟机的程序自动查找到该变量名称所关联的索引表唯一标识keywords_index_table_id,并通过该唯一标识,从分布式文件系统中读取对应的索引表数据;
1.2自动调用分词程序对大文本数据进行分词,生成关键词列表,并将关键词列表传递给索引表构建程序;
1.3自动调用索引表构建程序对大文本数据的关键词列表进行哈希运算,并基于关键词哈希keyword_hash构建关键词倒排索引表keywords_index_table,使关键词哈希keyword_hash指向大文本数据的唯一标识doc_id。
6.根据权利要求4所述的大文本存储、索引及检索方法,其特征在于:所述智能合约检索接口的具体功能实现过程如下:
2.1根据变量名称,通过合约虚拟机的程序自动查找到该变量名称所关联的索引表唯一标识keywords_index_table_id,并通过该唯一标识,从分布式文件系统中读取对应的索引表数据;
2.2根据关键词,计算关键词哈希keyword_hash,并通过关键词哈希keyword_hash搜索索引表keywords_index_table,获取对应的doc_id列表;然后,根据doc_id列表从分布式存储网络中读取对应的大文本数据,并返回给用户,进而对返回结果中每个大文本数据进行针对关键词的匹配度计算,所得的匹配度分数用于对返回结果进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云象网络技术有限公司,未经杭州云象网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910142361.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:海量数据存储的方法及终端设备
- 下一篇:数据表处理方法、装置以及电子设备





