[发明专利]一种基于大规模Embedding技术的Wi-Fi聚类方法及系统有效

申请号：	201810096348.3	申请日：	2018-01-31
公开（公告）号：	CN108345661B	公开（公告）日：	2020-04-28
发明（设计）人：	张宇;李雯	申请（专利权）人：	华南理工大学
主分类号：	G06F16/9537	分类号：	G06F16/9537;G06Q30/06;G06K9/62;G06N3/04;G06N3/08;H04L29/08
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于大规模 embedding 技术 wi fi 方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大规模Embedding技术的Wi-Fi聚类方法，其特征在于：首先进行数据样本整理，将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列，统计每个用户连接过的Wi-Fi的数量的分布情况，根据分布情况，确定上下两个阈值，去掉连接过的Wi-Fi数量超出阈值范围内的用户序列，将样本中出现过的Wi-Fi进行统计得到一个字典，根据字典将每一个Wi-Fi进行One-Hot独热编码，随机选取字典中一部分的Wi-Fi根据Wi-Fi来源场景人工标注其场景类别作为这个Wi-Fi的类别；然后，将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理，窗口内的Wi-Fi记为局部信息，对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息，当前窗口后面一个Wi-Fi标注为局部信息和全局信息的样本标签；联合局部信息样本和全局信息样本作为一组大规模Embedding的训练样本；通过一个三层神经网络模型将Wi-Fi进行Embedding映射到一个高维空间，使每一个Wi-Fi在高维空间有一个向量与其一一对应，且该高维向量能保存其对应Wi-Fi的特征，该三层神经网络模型通过输入一组训练样本，预测该样本标签出现的概率，学习到的输入层与隐藏层之间的权重即为Embedding到高维空间的新的向量；其次，在人工标注的Wi-Fi类别下使用Embedding的Wi-Fi高维向量计算类内平均余弦相似度和类间平均余弦相似度，设定一个阈值，比较两个余弦相似度的差异程度，当这个差别超过这个阈值，即认为这个训练的向量有效，并将Embedding的向量使用TSNE和Tensorboard可视化，直接观察相同类别的Wi-Fi向量的聚拢程度；最后，根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数，将学习到的Wi-Fi的向量输入到Kmeans聚类算法中进行聚类得到每一个Wi-Fi的类别。

2.根据权利要求1所述的一种基于大规模Embedding技术的Wi-Fi聚类方法，其特征在于，包括以下步骤：

1)数据样本整理

1.1)进行数据处理，将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列，统计每个用户连接过的Wi-Fi数量以及其分布，根据分布情况，确定上下两个阈值，去掉连接过的Wi-Fi数量超出阈值范围内的用户序列，然后将样本随机抽取一部分作为训练集，其余部分作为测试集；

1.2)将出现过的Wi-Fi进行统计，制成字典，根据字典将每一个Wi-Fi进行One-Hot独热编码；选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别，来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi，其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi；

2)设计一个大规模Embedding方法，具体实现按以下步骤实现：

2.1)整理Embedding方法的数据样本，将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理，窗口内的Wi-Fi记为局部信息，对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息，联合局部信息和全局信息作为一组训练的样本，将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签；

2.2)采用一个三层神经网络模型将Wi-Fi进行Embedding，使其映射到一个高维空间，将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中，该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵，将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元，将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中，得到的值即为预测的窗口后面Wi-Fi出现的概率，使用AUC、LogLoss这些评价指标计算预测误差，再使用反向传播的方式更新迭代每一层的参数直到收敛；根据这个三层神经网络，即Embedding映射关系，将每一个Wi-Fi Embedding成一个高维空间的向量，使每一个向量与Wi-Fi一一对应，并保留其对应Wi-Fi的特征；

3)对学习到的Embedding向量进行评估，首先，在已标注的类别下对学习到的Wi-Fi的新的向量，在同一个类别下计算两两之间的余弦相似度，得到每个类别下的平均余弦相似度，然后，再计算不同类别下的Wi-Fi的平均余弦相似度，设定一个阈值，当类内类间比小于这个阈值时，就认为该Embedding向量有好的表达效果；将学习到的Wi-Fi Embedding之后的向量用PCA方式降维，再作为输入用TSNE和Tensorboard进行可视化，直接观察向量的聚拢效果；

4)对学习到的向量用Kmeans方法进行聚类，具体实现按以下具体步骤执行：

4.1)确定要聚类的类别K，从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点；

4.2)分别计算其余每个样本点到这K个聚类中心点的距离，选择最近的一个聚类中心点与其为同一类别；

4.3)对于4.2)中同一类别的所样本点，通过求平均样本点的方法重新选择其聚类中心点，重复4.2)的步骤直到所有的样本点的内容不再发生改变；

4.4)多次重复以上步骤选择最优的聚类结果。

3.一种使用权利要求1或2所述聚类方法的聚类系统，其特征在于，包括：

数据处理模块，包括方法样本数据抽取单元和样本数据处理单元；所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据，包括UserID、连接Wi-Fi时间、Wi-FiID；所述样本数据处理单元用于将抽取出的数据整理成样本的形式，通过Spark读取样本数据抽取模块中数据，将每个用户连接过的Wi-Fi按照时间顺序整理成序列；

算法实现模块，基于分布式计算框架参数服务器PS-Lite，PS-Lite由一系列Server节点和一系列Worker节点组成，每个Server节点分配到输入层到隐藏层之间的部分参数权重，所有的Server节点共同维护神经网络中的所有参数；每个Worker对分配给自己的数据进行梯度计算处理，再将计算好的梯度情况通过push的形式发送给相应的Server，Server将参数更新后，再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算；

评估模块，该评估模块主要分为两部分，一部分是对学习到的向量的一个量化的评估，将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度，通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣；另一部分是对学习到的向量的一个可视化，首先通过降维的方式，将学习到的向量，其向量的长度上百维，降维到二至三维，然后使用不同的可视化方式将其展现出来，能够直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810096348.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于政府数据的数据分析方法
下一篇：一种考虑用户分布区域差异的签到微博数据加权统计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于大规模Embedding技术的Wi-Fi聚类方法及系统有效

专利文献下载