[发明专利]基于包长概率分布与k近邻算法的物联网设备识别方法有效

申请号：	202011506245.3	申请日：	2020-12-18
公开（公告）号：	CN112633353B	公开（公告）日：	2022-06-24
发明（设计）人：	杨家海;段晨鑫;王之梁	申请（专利权）人：	清华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G16Y30/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗文群
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于概率分布近邻算法联网设备识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机网络管理技术领域，尤其涉及一种基于包长概率分布与k近邻算法的物联网设备识别方法。本方法在充分挖掘不同物联网设备流量特征的基础上，以一定时间内通信设备产生的网络数据包的长度概率分布作为单一特征，并进一步设计了一种基于k近邻算法的分类器，利用k近邻算法对产生流量的源设备的类型，尤其是特定的物联网设备类型，进行分类和识别的系统。本方法能有效区分产生流量的源设备是否是物联网设备以及是哪种已知的具体设备类型。与已有的用于同类任务的方法相比，本发明不仅实现了更高的识别准确率，同时在运行效率、鲁棒性、可扩展性与对特殊场景的适应能力等性能指标上都取得了提升。

技术领域

本发明属于计算机网络管理技术领域，尤其涉及一种基于包长概率分布与k近邻算法的物联网设备识别方法。

背景技术

随着物联网技术的快速发展，各种各样不同类型的物联网设备已经被大量部署于人类生产生活的各个领域，如智能家居、智慧城市与工业控制系统等。在带来巨大便捷的同时，物联网设备的使用也为网络管理带来了新的挑战。不同于通用联网设备如智能手机和笔记本电脑，物联网设备通常仅具有受限的计算与通信能力，因此他们需要定制化的网络管理策略，如资源分配和预留、服务质量管理、访问控制和异常检测等。用一个具体的场景作为案例，当某种物联网设备被纰漏存在安全漏洞时，为了防止这些设备被攻击者入侵并进一步利用，网络管理员需要立即发现当前网络中是否存在同类型的危险设备。实现这类网络管理需求都依赖于能够从流量中快速准确识别出产生流量的源设备的类型的技术。

识别物联网设备最直接的方法是观察设备流量中存在的具有辨识性的信息，如MAC地址中的OUI(Organizationally Unique Identifier)字段，DNS请求中的域名，IP地址的所有者和HTTP请求的user-agent字段。然而，由于存在同时提供多种设备类型的厂商以及加密流量的普及，这种方法适用范围十分有限，且由于要等待特定的数据包，通常伴随着很大且不确定的识别延迟。因此，当前用于物联网设备分类与识别的方法的范式是通过特征工程与机器学习算法来完成。然而，现存的方法即使能够达到较高的分类准确率，却仍然缺少很多其他在实际场景中需求很高的特性，列举如下：

1、运行效率：由于设备分类系统通常会被用作处理实时流量的在线运行系统，其本身的运行时效率应该尽可能高，且尽量减少对各种计算资源的开销。然而，已有方法趋向于从流量中提取各种不同类型的特征，不少特征都依赖于对数据包载荷的深度检查与匹配，使得系统运行效率不高且消耗较多的计算资源。

2、鲁棒性：目前已有的很多方法都在较为纯净的网络环境中进行评估，而在实际网络环境中，各种易于混淆的设备类型，如同厂商生产的不同类型设备和不同厂商生产的同类型设备，以及网络中普遍存在的扫描流量等，都可能会硬性识别系统的性能。因此，设备识别系统应该尽可能提高自身的鲁棒性，使得其在各种干扰条件下仍然能够取得较高的分类准确率。

3、可拓展性：物联网技术仍然处于快速发展中，这意味着不断会有新的设备类型出现，此外，已经部署的设备类型也可能被纰漏为存在安全隐患。因此，设备分类系统应该具有可拓展性，每当有新的需要识别的设备类型出现时，可以在尽量不干扰运行中的系统的前提下对系统进行扩展。然而，目前很多设备识别方法都采用了有监督的机器学习方法，这类方法每次更新都需要重新训练并替换掉原有的系统。另一类方法采用为每一种设备训练一个二分类器的方式，然而这种方法仍然需要额外的训练过程，且在不同的分类器给出矛盾的结果时需要额外的处理。

4、对特殊场景的适应能力：很多已有的分类方法能够在训练数据充足的情况下取得较好的性能，然而，现实场景中，获得大量有标签的数据是困难的，这就意味着系统需要能够较好的适应小样本学习的场景。或者另一个典型的场景是，采集大量的训练数据是容易的，但是对它们进行标注是费时费力的，这就要求分类系统能够被较为容易地切换为一种半监督学习的模式，从而充分利用有标签和无标签的数据来获得更好的分类准确率。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011506245.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种瓶盖喷涂上挂系统
下一篇：安全认证系统、方法、装置、设备和计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于包长概率分布与k近邻算法的物联网设备识别方法有效

专利文献下载