[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审
| 申请号: | 201910810823.3 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110532299A | 公开(公告)日: | 2019-12-03 |
| 发明(设计)人: | 王攀;黄琛;王梓炫;李书航 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62 |
| 代理公司: | 32249 南京瑞弘专利商标事务所(普通合伙) | 代理人: | 彭雄<国际申请>=<国际公布>=<进入国 |
| 地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动化 半监督学习 抓取 爬虫 标记数据 标签 挖掘 无监督学习 融合 大数据 浏览器 提炼 分类 监督 学习 | ||
1.一种基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于,包括步骤:
步骤1:少量host标签自动化提取;
步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段;
步骤12)采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;
步骤13)对应用名称做提取,并作为该host的标签,构建新的host标签表;
步骤2:基于半监督分类学习的大量host标签自动化提取
步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;
步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;
步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;
步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;
步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;
步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
步骤3:构建host标签库
最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
2.根据权利要求1所述基于半监督学习的DPI数据中host的自动化挖掘方法,其特征在于:步骤13)使用hql清洗爬虫数据,过滤空值和异常host字段之后,对应用名称做提取。
3.一种基于半监督学习的DPI数据中host的自动化挖掘系统,其特征在于:包括少量host标签自动化提取模块、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块,其中:
少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段,采用爬虫技术,与浏览器做交互,抓取每一个host字段对应的百度搜索记录第一条内容,并存入hive数据库;使用hql清洗爬虫数据,过滤空值和异常host之后,对应用名称做提取,并作为该host的标签,构建新的host标签表;
基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1;用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量;步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记;挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2;迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算,得到最终分类器SVM;用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值;
host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签,再利用标签构建一个丰富的host标签库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910810823.3/1.html,转载请声明来源钻瓜专利网。





