[发明专利]基于去中心化存储数据的索引建立方法有效
| 申请号: | 202110167802.1 | 申请日: | 2021-02-07 |
| 公开(公告)号: | CN112836008B | 公开(公告)日: | 2023-03-21 |
| 发明(设计)人: | 周喜;石秋娥;王轶;马博;王磊;马玉鹏 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
| 代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
| 地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 中心 存储 数据 索引 建立 方法 | ||
1.一种基于去中心化存储数据的索引建立方法,其特征在于该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;
c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文本中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为 128 维的特征向量;
e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为 128 维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤e所述词向量进行降维,得到关键词160bit的词哈希;
g、将步骤f所述词哈希与步骤a所述数据标识组合,得到索引项,通过将索引项存储在分布式哈希表中实现索引文件的存储,所述的索引的存储方法:分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时,相似的词哈希在分布式哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合。
2.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤d中所述词向量是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性。
3.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤f中所述的通过使用局部敏感哈希算法,将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110167802.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁屏蔽层
- 下一篇:一种有机酸或有机碱改性斜发沸石的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





