[发明专利]一种基于大规模Embedding技术的Wi-Fi聚类方法及系统有效

专利信息
申请号: 201810096348.3 申请日: 2018-01-31
公开(公告)号: CN108345661B 公开(公告)日: 2020-04-28
发明(设计)人: 张宇;李雯 申请(专利权)人: 华南理工大学
主分类号: G06F16/9537 分类号: G06F16/9537;G06Q30/06;G06K9/62;G06N3/04;G06N3/08;H04L29/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 大规模 embedding 技术 wi fi 方法 系统
【权利要求书】:

1.一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于:首先进行数据样本整理,将每一个用户半年的连接过Wi-Fi按照时间顺序组成一个个序列,统计每个用户连接过的Wi-Fi的数量的分布情况,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,将样本中出现过的Wi-Fi进行统计得到一个字典,根据字典将每一个Wi-Fi进行One-Hot独热编码,随机选取字典中一部分的Wi-Fi根据Wi-Fi来源场景人工标注其场景类别作为这个Wi-Fi的类别;然后,将每一个用户的Wi-Fi序列经过滑动窗口的进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,当前窗口后面一个Wi-Fi标注为局部信息和全局信息的样本标签;联合局部信息样本和全局信息样本作为一组大规模Embedding的训练样本;通过一个三层神经网络模型将Wi-Fi进行Embedding映射到一个高维空间,使每一个Wi-Fi在高维空间有一个向量与其一一对应,且该高维向量能保存其对应Wi-Fi的特征,该三层神经网络模型通过输入一组训练样本,预测该样本标签出现的概率,学习到的输入层与隐藏层之间的权重即为Embedding到高维空间的新的向量;其次,在人工标注的Wi-Fi类别下使用Embedding的Wi-Fi高维向量计算类内平均余弦相似度和类间平均余弦相似度,设定一个阈值,比较两个余弦相似度的差异程度,当这个差别超过这个阈值,即认为这个训练的向量有效,并将Embedding的向量使用TSNE和Tensorboard可视化,直接观察相同类别的Wi-Fi向量的聚拢程度;最后,根据实际应用场景的多少以及Wi-Fi数量级的大小选择聚类的类别个数,将学习到的Wi-Fi的向量输入到Kmeans聚类算法中进行聚类得到每一个Wi-Fi的类别。

2.根据权利要求1所述的一种基于大规模Embedding技术的Wi-Fi聚类方法,其特征在于,包括以下步骤:

1)数据样本整理

1.1)进行数据处理,将每一个用户半年内连接过的Wi-Fi按照连接时间顺序分别组成序列,统计每个用户连接过的Wi-Fi数量以及其分布,根据分布情况,确定上下两个阈值,去掉连接过的Wi-Fi数量超出阈值范围内的用户序列,然后将样本随机抽取一部分作为训练集,其余部分作为测试集;

1.2)将出现过的Wi-Fi进行统计,制成字典,根据字典将每一个Wi-Fi进行One-Hot独热编码;选取字典中一部分的Wi-Fi进行人工标注其Wi-Fi来源场景作为Wi-Fi的类别,来源场景包括公共场所Wi-Fi、商场大厦Wi-Fi、餐馆Wi-Fi、酒店Wi-Fi、私人Wi-Fi,其中公共场所Wi-Fi包括图书馆Wi-Fi、医院Wi-Fi、机场Wi-Fi;

2)设计一个大规模Embedding方法,具体实现按以下步骤实现:

2.1)整理Embedding方法的数据样本,将每一个用户的Wi-Fi序列经过滑动窗口进行加窗处理,窗口内的Wi-Fi记为局部信息,对扫描过的Wi-Fi进行随机采样得到一组Wi-Fi记为全局信息,联合局部信息和全局信息作为一组训练的样本,将窗口后面一个Wi-Fi来源场景记为这一组训练样本的标签;

2.2)采用一个三层神经网络模型将Wi-Fi进行Embedding,使其映射到一个高维空间,将样本中Wi-Fi的One-Hot独热编码输入到该三层神经网络中,该神经网络输入层与隐藏层之间设有大小为词典大小n乘以向量长度d的权重矩阵,将输入的One-Hot编码乘以权重矩阵得到d维长度的向量即为隐藏层d个神经元,将隐藏层每一个神经元累加得到一个神经元然后输入到激活函数Sigmoid函数中,得到的值即为预测的窗口后面Wi-Fi出现的概率,使用AUC、LogLoss这些评价指标计算预测误差,再使用反向传播的方式更新迭代每一层的参数直到收敛;根据这个三层神经网络,即Embedding映射关系,将每一个Wi-Fi Embedding成一个高维空间的向量,使每一个向量与Wi-Fi一一对应,并保留其对应Wi-Fi的特征;

3)对学习到的Embedding向量进行评估,首先,在已标注的类别下对学习到的Wi-Fi的新的向量,在同一个类别下计算两两之间的余弦相似度,得到每个类别下的平均余弦相似度,然后,再计算不同类别下的Wi-Fi的平均余弦相似度,设定一个阈值,当类内类间比小于这个阈值时,就认为该Embedding向量有好的表达效果;将学习到的Wi-Fi Embedding之后的向量用PCA方式降维,再作为输入用TSNE和Tensorboard进行可视化,直接观察向量的聚拢效果;

4)对学习到的向量用Kmeans方法进行聚类,具体实现按以下具体步骤执行:

4.1)确定要聚类的类别K,从所有学习到的Wi-Fi向量中随机选择K个样本点作为K个聚类中心点;

4.2)分别计算其余每个样本点到这K个聚类中心点的距离,选择最近的一个聚类中心点与其为同一类别;

4.3)对于4.2)中同一类别的所样本点,通过求平均样本点的方法重新选择其聚类中心点,重复4.2)的步骤直到所有的样本点的内容不再发生改变;

4.4)多次重复以上步骤选择最优的聚类结果。

3.一种使用权利要求1或2所述聚类方法的聚类系统,其特征在于,包括:

数据处理模块,包括方法样本数据抽取单元和样本数据处理单元;所述数据抽取单元是指从数据仓库HIVE中的用户行为数据记录中抽取出制造样本所需的数据,包括UserID、连接Wi-Fi时间、Wi-FiID;所述样本数据处理单元用于将抽取出的数据整理成样本的形式,通过Spark读取样本数据抽取模块中数据,将每个用户连接过的Wi-Fi按照时间顺序整理成序列;

算法实现模块,基于分布式计算框架参数服务器PS-Lite,PS-Lite由一系列Server节点和一系列Worker节点组成,每个Server节点分配到输入层到隐藏层之间的部分参数权重,所有的Server节点共同维护神经网络中的所有参数;每个Worker对分配给自己的数据进行梯度计算处理,再将计算好的梯度情况通过push的形式发送给相应的Server,Server将参数更新后,再采用pull的形式将新的参数传送给Worker节点进行下一轮的迭代计算;

评估模块,该评估模块主要分为两部分,一部分是对学习到的向量的一个量化的评估,将学习到的Wi-Fi的向量在标注数据中分别计算类内、类间余弦相似度,通过量化同类别以及不同类别下的Wi-Fi的向量的表达的差异来评估向量的优劣;另一部分是对学习到的向量的一个可视化,首先通过降维的方式,将学习到的向量,其向量的长度上百维,降维到二至三维,然后使用不同的可视化方式将其展现出来,能够直观的观察到标注类别下同类别的Wi-Fi向量的聚拢程度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810096348.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top