[发明专利]基于半监督学习的DPI数据中host的自动化挖掘方法及系统在审
申请号: | 201910810823.3 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110532299A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 王攀;黄琛;王梓炫;李书航 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/28;G06F16/17;G06F16/951;G06K9/62 |
代理公司: | 32249 南京瑞弘专利商标事务所(普通合伙) | 代理人: | 彭雄<国际申请>=<国际公布>=<进入国 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动化 半监督学习 抓取 爬虫 标记数据 标签 挖掘 无监督学习 融合 大数据 浏览器 提炼 分类 监督 学习 | ||
本发明公开了一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,采用爬虫的方法与浏览器交互,自动化抓取host对应的含义并提炼后获得标签,提出融合以上自动化标记方法与半监督学习的方法来实现自动化挖掘host标签,同时利用了标记数据和未标记数据,弥补了监督学习与无监督学习的不足,本发明提出在实现爬虫自动化抓取并标记host的方法上,基于半监督学习的SVM‑KNN分类方法,将少量有标记的host数据与大量未标记的host数据做融合训练,对未标记的host数据做分类,最终实现自动化挖掘DPI大数据的host标签。
技术领域
本发明涉及一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,属于互联网大数据挖掘的技术领域。
背景技术
现如今DPI深度报文检测技术已经发展的相当成熟,运营商通过DPI平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如终端型号、手机号码等关键字段;通过分析用户行为数据,塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。
但DPI数据中有大量数据需要人工做标记,例如挖掘网站域名的传统方法是人工手动在浏览器里搜索一条条的host数据,将结果标记为该host对应的应用域名,而这样标记大量样本既费时又耗力,付出的代价太过“昂贵”。全靠人力也仅能标记其中一小部分的数据,但若仅用一小部分标记数据同时在对含有大规模未标记样本的数据集进行分类时,鉴于标记大规模的未标记样本既费时又耗力,若只依靠少量的标记样本进行分类,预测精度又比较低。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于半监督学习的DPI数据中host的自动化挖掘方法及系统,基于运营商DPI日志数据中的host,自动化的清洗、分析、挖掘的方法,该发明主要通过提取DPI数据中的host,采用自动化爬虫技术,将其与搜索引擎做交互,提取其对应的含义。同时使用数据仓库概念,用hql对其做数据的过滤清洗,提炼出每个host对应的应用名称标签,实现对host做自动化挖掘。同时本发明针对样本集中具有较少标记样本情况下的host分类问题,提出一种结合半监督学习的dpi日志中host高精度的分类方法。采用半监督学习策略,根据训练集中已标记样本,利用SVM作为主分类器,联合KNN对含有大量未标记样本的数据集进行分类,对大量无标记数据做应用名称标签的预测,这种方法不仅解决了传统人工标记带来的困难,同时使用半监督的方式解决了大量数据标记的复杂度。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于半监督学习的DPI数据中host的自动化挖掘方法,分为两个部分:第一部分是少量host标签自动化提取模块;第二部分是基于半监督分类学习的大量host标签自动化提取模块。
第一部分是少量host标签自动化提取模块:首先根据日志数据中的host,采用爬虫技术,与浏览器做交互,模拟人的行为,将每一条host输入到百度中,获取到第一条结果记录,并构建原始数据表将结果存入hive中。使用hql对原始数据做清洗、提炼,如过滤掉类似”113.96.231.21”和空值数据,并提取其中的例如“腾讯视频”、“抖音”等应用名称。并将这些应用名称作为该host的标签。这部分数据我们对其做了标记处理。但由于日志数据量非常大,一天的日志数据种中可能会有几百万条host数据,仅用提取标记的方法也会存在漏洞,例如:由于存在手机端和电脑端host的不同,有的手机端host使用爬虫技术,在百度中并未搜索到结果,而且大量数据仅通过爬虫来构建应用名称标签也需要耗费大量时间,所以本发明第二部分采用半监督学习的方式对其作分类学习,预测应用名称标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910810823.3/2.html,转载请声明来源钻瓜专利网。