[发明专利]一种私有协议的加密字段的识别方法及系统有效

申请号：	202011014521.4	申请日：	2020-09-24
公开（公告）号：	CN112153045B	公开（公告）日：	2023-03-28
发明（设计）人：	李青;鞠永慧;赵唱;何鑫泰;李光松	申请（专利权）人：	中国人民解放军战略支援部队信息工程大学
主分类号：	H04L9/40	分类号：	H04L9/40
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	陈志海
地址：	450001 河南省***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种私有协议加密字段识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种私有协议的加密字段的识别方法及系统，获取多条待测数据；对所有待测数据进行数据预处理和分组处理，得到p组预处理数据集；针对每一预处理数据集，提取预处理数据中相同位置的字节构建重构数据，得到重构数据集；将所有重构数据集输入识别模型进行明密识别，得到明密结果分布矩阵；根据明密结果分布矩阵，确定加密概率序列；利用加密概率序列和第一过滤规则，确定多种加密字段分布模式；针对每一待测数据，计算待测数据在每种加密字段分布模式下的统计量，并结合第二过滤规则确定待测数据的匹配加密字段分布模式。通过以上方式识别私有协议的加密流量，并确定加密流量的加密字段分布模式，提高加密流量的识别准确性和识别效果。

技术领域

本发明涉及数据处理技术领域，具体涉及一种私有协议的加密字段的识别方法及系统。

背景技术

随着互联网的发展，确保网络安全是网络管理建设中最为重要的环节之一。黑客通常利用加密协议隐藏网络攻击行为，导致加密流量中包括携带蠕虫和木马等恶意流量，因此需要从所有流量中识别出加密流量和非加密流量，再对加密流量进行后续分析。

目前识别加密流量的方式为负载随机性检测方式，即对数据有效负载进行频数检测、游程检测和信息熵计算等随机性检测。但是，负载随机性检测方式只能对数据规格已知的协议数据进行加密流量的识别，对于私有协议数据，由于私有协议数据的数据规格未知，负载随机性检测方式无法对私有协议数据进行加密流量的准确识别，即负载随机性检测方式识别加密流量的准确率较低和效果较差。

发明内容

有鉴于此，本发明实施例提供一种私有协议的加密字段的识别方法，以解决负载随机性检测方式存在的识别准确率低和效果差等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种私有协议的加密字段的识别方法，所述方法包括：

获取多条待测数据，每条所述待测数据的类型为离散序列报文数据；

对所有所述待测数据进行数据预处理和分组处理，得到p组预处理数据集，每组所述预处理数据集包含q条预处理数据，p和q为正整数；

针对每一组所述预处理数据集，提取所述预处理数据集的每条所述预处理数据中相同位置的字节构建一条重构数据，得到包含多条所述重构数据的重构数据集；

将所有所述重构数据集输入预设的识别模型进行明密识别，得到对应的明密结果分布矩阵，所述识别模型根据明文样本数据和密文样本数据训练神经网络模型得到；

根据所述明密结果分布矩阵，确定包含所有所述重构数据集中每个字节的加密概率的加密概率序列；

利用所述加密概率序列和预设的第一过滤规则，确定多种加密字段分布模式；

针对每一条所述待测数据，计算所述待测数据在每一种所述加密字段分布模式下对应的统计量，并结合预设的第二过滤规则，确定符合预设匹配要求的统计量对应的所述加密字段分布模式为所述待测数据的匹配加密字段分布模式。

优选的，所述利用所述加密概率序列和预设的第一过滤规则，确定多种加密字段分布模式，包括：