[发明专利]通过主动学习方法构建互联网应用特征识别数据库的方法及系统在审

专利信息
申请号: 201510588327.X 申请日: 2015-09-16
公开(公告)号: CN105279230A 公开(公告)日: 2016-01-27
发明(设计)人: 谭彦;李元新;龙云亮;邓博存;梁志禧 申请(专利权)人: 广东顺德中山大学卡内基梅隆大学国际联合研究院;广东顺德中卡云网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 528300 广东省佛山市顺德区大良*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 通过 主动 学习方法 构建 互联网 应用 特征 识别 数据库 方法 系统
【说明书】:

技术领域

本发明涉及智能管道技术领域,尤其涉及一种通过主动学习方法构建互联网应用特征识别数据库的方法及系统。

背景技术

应用特征识别在智能管道、网络安全等领域应用很广,一般通过调用应用特征库对流经的数据流量进行识别,但由于互联网应用协议变化比较大而且有相当多的应用并不遵循RFC等标准要求,因此应用特征库如果不能快速更新就直接用于识别应用时,识别率不高。

现有技术中,应用特征库均是通过人工整理方法给出的,由于技术的差异,在使用深度包检测功能时,都存在着更新应用特征库慢、不能检测出所有的应用流量等问题。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足),首先提出一种通过主动学习方法构建互联网应用特征识别数据库的方法。该方法对互联网中应用的特征可实现动态的学习,具有操作灵活,可扩展性好,部署容易的特点,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。

本发明还提出一种通过主动学习方法构建互联网应用特征识别数据库的系统。

为了实现上述目的,本发明的技术方案如下:

一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:

1)样本获取:在互联网上部署模拟器,模拟器安装模拟访问指定的互联网应用的软件,按预先定义的软件向互联网应用发起主动访问,获取应用运行时的协议交互过程,然后通过报文的捉取模块,获取应用运行过程中协议报文固定的标志位字段,提取报文固定特征位生成对互联网应用的交互特征样本;

2)训练学习:通过机器学习方法对训练样本训练学习,得到互联网应用特征模型;

3)生成特征库:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。

本发明公开的通过主动学习方法构建应用特征识别数据库的方法,通过模拟的虚拟客户端,向真实的互联网应用发起交互访问,获取协议交互特征,再通过协议特征提取单元,将协议交互特征转化为应用特征记录,并写入应用特征识别数据库。本发明对互联网应用的特征可实现动态的学习,操作灵活,可扩展性好,部署容易,应用特征数据库中的特征数据具有实时性,实现一点构建,全网通用。

优选的,所述步骤1)中获取的应用特征包括IP地址、URL、端口和元素。

一种通过主动学习方法构建互联网应用特征识别数据库的系统,其特征在于,包括模拟器主动访问单元、样本生成单元、机器学习单元和流处理单元;

所述模拟器主动访问单元:虚拟机中集成有互联网协议访问工具,模拟用户的访问行为对互联网应用网站进行访问,并处理互联网网站返回的结果;

所述样本生成单元:用于监听虚拟机主动访问单元与互联网应用之间交互的数据报文,按照预先定义的特征数据提取规则,提取出数据报文中固定的标志位字段中的关键特征信息,生成对互联网应用的交互特征样本;

所述机器学习单元,通过机器学习方法对训练样本训练学习,得到互联网应用特征模型。

所述流处理单元:利用特征模型对模拟器采集的后续报文进行处理,将实时得到的应用特征条目写入/更新特征数据库。

与现有技术相比,本发明技术方案的有益效果是:

本发明提出的特征采集是采用部署在互联网上的的模拟器实现,与现有采集端无关,生成的特征数据库可直接替换现有特征库或者插入现有特征库供识别设备使用。本发明还可作为第三方数据库提供给运营商网内的应用识别设备使用,能够帮助运营商区分传输管道内传输的各类互联网应用分布的情况、带宽占用等情况,从而帮助运营商制定更加合理的流量套餐;可以为客户提供个性化的增值服务,帮助客户分析其购买带宽的利用情况,帮助客户减少在流量分析、网络管理及网络安全方面的投资。

附图说明

图1为采用本发明方法实现应用特征库自动构建的示意图。

图2为本发明系统的结构示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1,一种通过主动学习方法构建互联网应用特征识别数据库的方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;广东顺德中卡云网络科技有限公司,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;广东顺德中卡云网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510588327.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top