[发明专利]基于去中心化存储数据的索引建立方法有效

专利信息
申请号: 202110167802.1 申请日: 2021-02-07
公开(公告)号: CN112836008B 公开(公告)日: 2023-03-21
发明(设计)人: 周喜;石秋娥;王轶;马博;王磊;马玉鹏 申请(专利权)人: 中国科学院新疆理化技术研究所
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 代理人: 张莉
地址: 830011 新疆维吾尔*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 中心 存储 数据 索引 建立 方法
【权利要求书】:

1.一种基于去中心化存储数据的索引建立方法,其特征在于该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:

a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;

b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;

c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文本中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;

d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为 128 维的特征向量;

e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为 128 维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;

f、获取关键词的哈希表示,使用局部敏感哈希算法对步骤e所述词向量进行降维,得到关键词160bit的词哈希;

g、将步骤f所述词哈希与步骤a所述数据标识组合,得到索引项,通过将索引项存储在分布式哈希表中实现索引文件的存储,所述的索引的存储方法:分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,因此节点地址与索引项的键值具有相同值域,索引项采用去中心化的存储方式,使用分布哈希表存储,将索引项存储在索引存储节点的节点地址与其相同或相近的节点,同时,相似的词哈希在分布式哈希表上相邻,索引存储节点使用倒排表结构对索引项进行整合。

2.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤d中所述词向量是使用深度学习方法进行多次迭代,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性。

3.根据权利要求1所述的基于去中心化存储数据的索引建立方法,其特征在于,步骤f中所述的通过使用局部敏感哈希算法,将数据从原高维空间经过哈希映射到一个新的低维空间,使得在原空间相似的数据,在新空间中也相似的概率很大,而在原空间不相似的数据,在新空间中相似的概率很小,因此空间位置相邻的词向量,在哈希以后也保持一定的相似性,实现词汇间的空间相似性转为哈希相似性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110167802.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top