[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审

申请号：	201910810823.3	申请日：	2019-08-29
公开（公告）号：	CN110532299A	公开（公告）日：	2019-12-03
发明（设计）人：	王攀;黄琛;王梓炫;李书航	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62
代理公司：	32249 南京瑞弘专利商标事务所(普通合伙)	代理人：	彭雄<国际申请>=<国际公布>=<进入国
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动化半监督学习抓取爬虫标记数据标签挖掘无监督学习融合大数据浏览器提炼分类监督学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于半监督学习的DPI数据中host的自动化挖掘方法，其特征在于，包括步骤：

步骤1：少量host标签自动化提取；

步骤11)提取一小部分HDFS中存储的DPI日志数据中的host字段；

步骤12)采用爬虫技术，与浏览器做交互，抓取每一个host字段对应的百度搜索记录第一条内容，并存入hive数据库；

步骤13)对应用名称做提取，并作为该host的标签，构建新的host标签表；

步骤2：基于半监督分类学习的大量host标签自动化提取

步骤21)使用步骤1生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1；

步骤22)用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量；

步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记；

步骤24)挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2；

步骤25)迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算，得到最终分类器SVM；

步骤26)用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值；

步骤3：构建host标签库

最终分类器SVM的结果即为未标记数据集的标签，再利用标签构建一个丰富的host标签库。

2.根据权利要求1所述基于半监督学习的DPI数据中host的自动化挖掘方法，其特征在于：步骤13)使用hql清洗爬虫数据，过滤空值和异常host字段之后，对应用名称做提取。

3.一种基于半监督学习的DPI数据中host的自动化挖掘系统，其特征在于：包括少量host标签自动化提取模块、基于半监督分类学习的大量host标签自动化提取模块、host标签库构建模块，其中：

少量host标签自动化提取模块用于提取一小部分HDFS中存储的DPI日志数据中的host字段，采用爬虫技术，与浏览器做交互，抓取每一个host字段对应的百度搜索记录第一条内容，并存入hive数据库；使用hql清洗爬虫数据，过滤空值和异常host之后，对应用名称做提取，并作为该host的标签，构建新的host标签表；

基于半监督分类学习的大量host标签自动化提取模块用于使用生成的少量标记样本host标签表作为原始训练集,预训练出一个弱分类器SVM 1；用弱分类器SVM 1标记数据集中所有的未标记数据,挑选出分类边界附近的部分边界向量；步骤23)将挑选出的这些边界向量作为测试样本,利用原始训练集,再用KNN分类,获得挑选出的边界向量的新标记；挑选出的边界向量和KNN分类得出的新标记一并放入原始训练集,从而扩充了训练集的样本数目,再进行训练一个新的分类器SVM 2；迭代下去,直到训练集的样本数量是全部数据的m倍时,停止计算，得到最终分类器SVM；用训练出的最终分类器SVM预测数据集中原有的未标记样本的标记值；

host标签库构建模块用于采用最终分类器SVM的结果即为未标记数据集的标签，再利用标签构建一个丰富的host标签库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910810823.3/1.html，转载请声明来源钻瓜专利网。

上一篇：多属性铁路事故致因权重分析方法
下一篇：一种用于人工智能数据分析的大数据高保真可视化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审

专利文献下载