[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审

专利信息
申请号: 201910810823.3 申请日: 2019-08-29
公开(公告)号: CN110532299A 公开(公告)日: 2019-12-03
发明(设计)人: 王攀;黄琛;王梓炫;李书航 申请(专利权)人: 南京邮电大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62
代理公司: 32249 南京瑞弘专利商标事务所(普通合伙) 代理人: 彭雄<国际申请>=<国际公布>=<进入国
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动化 半监督学习 抓取 爬虫 标记数据 标签 挖掘 无监督学习 融合 大数据 浏览器 提炼 分类 监督 学习
【权利要求书】:

1.一种基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于,包括步骤:

步骤1:少量host标签自动化提取;

步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段;

步骤12)采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;

步骤13)对应用名称做提取,并作为该host的标签,构建新的host标签表;

步骤2:基于半监督分类学习的大量host标签自动化提取

步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;

步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;

步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;

步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;

步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;

步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;

步骤3:构建host标签库

最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。

2.根据权利要求1所述基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于:步骤13)使用hql清洗爬虫数据,过滤空值和异常host字段之后,对应用名称做提取。

3.一种基于半监督学习的DPI数据中host的自动化挖掘系统,其特征在于:包括少量host标签自动化提取模块、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块,其中:

少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段,采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,并作为该host的标签,构建新的host标签表;

基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;

host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910810823.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top