[发明专利]KAD网络中由关键词哈希值推测关键词的方法及系统有效
申请号: | 201310556473.5 | 申请日: | 2013-11-11 |
公开(公告)号: | CN103605708B | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 程学旗;冯凯;孙庆;刘备;席鹏弼;王元卓;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | kad 网络 关键词 哈希值 推测 方法 系统 | ||
技术领域
本发明涉及对等网络技术,尤其涉及一种KAD网络中由关键词哈希值推测关键词的方法及系统。
背景技术
近年来随着P2P技术的飞速发展,P2P的流量已占据了互联网流量的48%~80%。其体系结构也不断发生演变,从最初的非结构化对等网络,到目前的结构化对等网络。分布式哈希表(DHT)是实现结构化对等网络的主要技术。Kademlia(KAD)协议是DHT的一种实现,是美国纽约大学P etar Maymounkov和David Mezieres在2002年发表的一项研究成果。通过独特的异或算法(XOR)为距离度量基础,建立了一种全新的DHT拓扑结构,与其他算法相比大大提高了路由查询速度。
随着eMule的普及以及其对Kademlia协议的支持,使得KAD成为目前被广泛部署和应用的DHT网络,其共享和传输的资源(包括关键词资源、文件资源)数量更是数以亿计。在KAD网络中,节点ID是用一个128位的二进制字符串来表示的。通常在节点第一次启动时通过MD4哈希函数生成该节点的ID,哈希的随机性保证了节点的均匀性和无碰撞。KAD网络资源中,关键词资源用于索引文件的信息,其在KAD网络中的数据形式为<key,value>,其中key是对由分词规则分割文件名得到的关键词使用哈希函数生成的ID值(即关键词哈希值),value则包括了含有该关键词的文件资源的一系列信息,如文件名、文件大小、文件ID等。在进行关键词资源搜索时,KAD会先使用MD4哈希函数计算出关键词的哈希值,再进行迭代查找。
从关键词得到ID值采用的MD4算法是一种不可逆算法,而如何从关键词哈希值来推测关键词信息具有重要意义。例如,在KAD网络中根据检测到的关键词哈希值推测流行词汇,再根据流行词汇采取进一步的动作,以达到安全监管的目的。然而,目前还没有任何研究成果能够实现这一目标。
发明内容
根据本发明的一个实施例,提供一种KAD网络中由关键词哈希值推测关键词的方法,所述方法包括:
步骤1)、利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;
步骤2)、对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数;
步骤3)、根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。
在一个实施例中,步骤3)包括:
选择在所述相关资源文件的文件名中出现次数大于等于预定阈值的候选关键词;
当所选择的候选关键词的个数大于1时,对所选择的候选关键词进行哈希计算,将哈希计算的结果与所述关键词哈希值相同的候选关键词作为推测结果;
当所选择的候选关键词的个数等于1时,将该候选关键词作为推测结果;
否则,确定推测结果为空。
在进一步的实施例中,所述预定阈值为所述相关资源文件的个数。
在一个实施例中,步骤2)包括:
找到所述相关资源文件的文件名中的分词符,将由所述分词符隔开的词作为候选关键词;以及
计算所述候选关键词在所述相关资源文件的文件名中出现的次数。
在进一步的实施例中,所述分词符包括标点符号。
根据本发明的一个实施例,还提供一种KAD网络中由关键词哈希值推测关键词的系统,所述系统包括:
搜索模块,用于利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;
推测模块,用于对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数;以及根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。
在一个实施例中,所述推测模块用于选择在所述相关资源文件的文件名中出现次数大于等于预定阈值的候选关键词;
当所选择的候选关键词的个数大于1时,对所选择的候选关键词进行哈希计算,将哈希计算的结果与所述关键词哈希值相同的候选关键词作为推测结果;
当所选择的候选关键词的个数等于1时,将该候选关键词作为推测结果;
否则,确定推测结果为空。
在一个实施例中,推测模块用于找到所述相关资源文件的文件名中的分词符,将由所述分词符隔开的词作为候选关键词;以及计算所述候选关键词在所述相关资源文件的文件名中出现的次数。
采用本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管网络、提高网络安全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310556473.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:烟囱排放的颗粒物粉尘净化设备
- 下一篇:桥牌竞赛信息录入装置及方法