[发明专利]隐私保护k-means聚类方法、设备、介质、终端在审
申请号: | 202110823353.1 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113626858A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 刘雪峰;张思君;雷静 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 何畏 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私 保护 means 方法 设备 介质 终端 | ||
本发明属于信息隐私保护技术领域,公开了一种隐私保护k‑means聚类方法、设备、介质、终端,隐私保护k‑means聚类方法包括:采集并加密原始数据,利用两个服务器处理加密后的数据,通过K‑means算法将数据分类,根据距离度量将相似数据进行分组。本发明能够整个K‑means聚类算法的过程中,很好的保护用户的隐私信息,且计算成本和时间两个方面都是友好的。本发明的隐私保护k‑means聚类方法具备用户友好性、安全性与正确性以及有效性。本发明提出的高效的隐私保护k‑means聚类方法是高效的,均为线性复杂度,在解决了用户信息隐私问题的情况下又不影响正确性和效率。
技术领域
本发明属于隐私保护技术领域,尤其涉及一种隐私保护k-means聚类方法、设备、介质、终端。
背景技术
目前:在目前的环境下机器学习是一个重要的也是一个热门的话题。机器学习的出现解决各种领域的众多问题带来了突破,例如,推荐服务、垃圾邮件过滤、网络搜索引擎、欺诈检测、股市分析和认证技术。虽然最近的技术支持对大数据进行更高效的存储和计算,但保护来自不同来源的组合数据仍然是一大挑战。
而机器学习需要依赖大量的训练数据,原始的数据杂乱无章,同时现有的直接在明文的情况使用K-means算法对数据进行分类,会导致用户的隐私信息和分类的结果极其容易被泄露。
目前现有的技术都不能够很好的解决以上的问题,就如同专利一种物联网医疗系统中增强数据隐私性的数据聚类方法所提出的方法,该专利中所提到的方法在一定的程度上保护了用户隐私不被泄露,但是由于仅仅只有一个数据分析端,导致所有的运算全在密文的情况下进行。时间成本太大。
通过上述分析,现有技术存在的问题及缺陷为:现有的聚类方法导致用户的隐私信息和分类的结果极其容易被泄露,安全性不够,同时现有基于隐私保护的聚类方法时间成本大,聚类效率低,且聚类结果不准确。
解决以上问题难度和意义为:如何在不泄露隐私和保证结果的准确性的前提下,大幅度的提高聚类的效率,降低时间成本。解决此问题后,隐私保护下的聚类算法均可按照本专利所提供的方法来达到一个较为理想的时间成本。
发明内容
针对现有技术存在的问题,本发明提供了一种隐私保护k-means聚类方法、设备、介质、终端。
本发明是这样实现的,一种隐私保护k-means聚类方法,所述隐私保护k-means聚类方法包括:
采集并加密原始数据,利用两个服务器处理加密后的数据,通过K-means算法将数据分类,根据距离度量将相似数据进行分组。
进一步,所述隐私保护k-means聚类方法包括以下步骤:
步骤一,进行数据收集:数据拥有者即用户使用服务器S1的公钥pk1加密数据发送给服务器S0,同时使用服务器S0的公钥pk0加密数据发送给服务器S1;由于用户的隐私被自身加密,提高了安全性。
步骤二,生成初始中心:服务器S0将所有密文数据初始化分类,并计算得到初始密文中心点;
步骤三,进行相似度测量:服务器S0将密文中心点信息发给服务器S1,服务器S1解密并利用同态技术计算得到各点到中心点的密文距离,并将密文距离发送给服务器S0;使用了同态技术,在不泄露用户的隐私前提下,极大的提高了聚类计算的效率。
步骤四,比较更新迭代:服务器S0解密并根据距离比较结果重新进行分类,得到新一轮的分类结果,重复步骤二至步骤三直至分类结果不再发生改变。通过迭代对结果进行比较以达到与明文下的聚类算法相同的正确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110823353.1/2.html,转载请声明来源钻瓜专利网。