[发明专利]一种基于大规模Embedding技术的Wi-Fi聚类方法及系统有效
申请号: | 201810096348.3 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108345661B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 张宇;李雯 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06Q30/06;G06K9/62;G06N3/04;G06N3/08;H04L29/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 大规模 embedding 技术 wi fi 方法 系统 | ||
1.一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于:首先进行数据样本整理,将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列,统计每个用户连接过的Wi-Fi的数量的分布情况,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,将样本中出现过的Wi-Fi进行统计得到一个字典,根据字典将每一个Wi-Fi进行One-Hot独热编码,随机选取字典中一部分的Wi-Fi根据Wi-Fi来源场景人工标注其场景类别作为这个Wi-Fi的类别;然后,将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,当前窗口后面一个Wi-Fi标注为局部信息和全局信息的样本标签;联合局部信息样本和全局信息样本作为一组大规模Embedding的训练样本;通过一个三层神经网络模型将Wi-Fi进行Embedding映射到一个高维空间,使每一个Wi-Fi在高维空间有一个向量与其一一对应,且该高维向量能保存其对应Wi-Fi的特征,该三层神经网络模型通过输入一组训练样本,预测该样本标签出现的概率,学习到的输入层与隐藏层之间的权重即为Embedding到高维空间的新的向量;其次,在人工标注的Wi-Fi类别下使用Embedding的Wi-Fi高维向量计算类内平均余弦相似度和类间平均余弦相似度,设定一个阈值,比较两个余弦相似度的差异程度,当这个差别超过这个阈值,即认为这个训练的向量有效,并将Embedding的向量使用TSNE和Tensorboard可视化,直接观察相同类别的Wi-Fi向量的聚拢程度;最后,根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数,将学习到的Wi-Fi的向量输入到Kmeans聚类算法中进行聚类得到每一个Wi-Fi的类别。
2.根据权利要求1所述的一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于,包括以下步骤:
1)数据样本整理
1.1)进行数据处理,将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列,统计每个用户连接过的Wi-Fi数量以及其分布,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,然后将样本随机抽取一部分作为训练集,其余部分作为测试集;
1.2)将出现过的Wi-Fi进行统计,制成字典,根据字典将每一个Wi-Fi进行One-Hot独热编码;选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别,来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi;
2)设计一个大规模Embedding方法,具体实现按以下步骤实现:
2.1)整理Embedding方法的数据样本,将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,联合局部信息和全局信息作为一组训练的样本,将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签;
2.2)采用一个三层神经网络模型将Wi-Fi进行Embedding,使其映射到一个高维空间,将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中,该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵,将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元,将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中,得到的值即为预测的窗口后面Wi-Fi出现的概率,使用AUC、LogLoss这些评价指标计算预测误差,再使用反向传播的方式更新迭代每一层的参数直到收敛;根据这个三层神经网络,即Embedding映射关系,将每一个Wi-Fi Embedding成一个高维空间的向量,使每一个向量与Wi-Fi一一对应,并保留其对应Wi-Fi的特征;
3)对学习到的Embedding向量进行评估,首先,在已标注的类别下对学习到的Wi-Fi的新的向量,在同一个类别下计算两两之间的余弦相似度,得到每个类别下的平均余弦相似度,然后,再计算不同类别下的Wi-Fi的平均余弦相似度,设定一个阈值,当类内类间比小于这个阈值时,就认为该Embedding向量有好的表达效果;将学习到的Wi-Fi Embedding之后的向量用PCA方式降维,再作为输入用TSNE和Tensorboard进行可视化,直接观察向量的聚拢效果;
4)对学习到的向量用Kmeans方法进行聚类,具体实现按以下具体步骤执行:
4.1)确定要聚类的类别K,从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点;
4.2)分别计算其余每个样本点到这K个聚类中心点的距离,选择最近的一个聚类中心点与其为同一类别;
4.3)对于4.2)中同一类别的所样本点,通过求平均样本点的方法重新选择其聚类中心点,重复4.2)的步骤直到所有的样本点的内容不再发生改变;
4.4)多次重复以上步骤选择最优的聚类结果。
3.一种使用权利要求1或2所述聚类方法的聚类系统,其特征在于,包括:
数据处理模块,包括方法样本数据抽取单元和样本数据处理单元;所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据,包括UserID、连接Wi-Fi时间、Wi-FiID;所述样本数据处理单元用于将抽取出的数据整理成样本的形式,通过Spark读取样本数据抽取模块中数据,将每个用户连接过的Wi-Fi按照时间顺序整理成序列;
算法实现模块,基于分布式计算框架参数服务器PS-Lite,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算;
评估模块,该评估模块主要分为两部分,一部分是对学习到的向量的一个量化的评估,将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度,通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣;另一部分是对学习到的向量的一个可视化,首先通过降维的方式,将学习到的向量,其向量的长度上百维,降维到二至三维,然后使用不同的可视化方式将其展现出来,能够直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810096348.3/1.html,转载请声明来源钻瓜专利网。