[发明专利]一种计算机应用识别方法、装置及存储介质在审
| 申请号: | 202110557255.8 | 申请日: | 2021-05-21 |
| 公开(公告)号: | CN113177206A | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 于倩;王晓蓓;姜晓刚;赵雪峰;成乐 | 申请(专利权)人: | 滨州职业学院 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/57;G06F16/2455 |
| 代理公司: | 成都中弘信知识产权代理有限公司 51309 | 代理人: | 张芳 |
| 地址: | 256603 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 计算机 应用 识别 方法 装置 存储 介质 | ||
1.一种计算机应用识别方法,其特征在于:包括以下步骤:
S1:请求信息识别:终端在进行应用下载前,向应用识别系统发送应用识别的请求,应用识别系统在接收到请求消息后,通过数据流获取终端的属性信息,以及确定出与所述应用识别的请求对应的待识别的应用的文件路径信息,根据所述文件路径信息获取相应的待识别的应用的标识信息;
S2:应用信息识别:通过多条数据流提取待识别的应用标识信息的切词特征、流表和域名表,所述流表包括多个流表项,多个所述流表中的每个流表项包括匹配字段、优先级、计数器、指令、超时时间、cookie以及流起始时间,所述域名表包括多个域名表项,多个所述域名表项中的每个域名表项包括源互联网协议IP地址、目的域名、目的IP地址和域名类型,通过对所述流表和所述域名表进行特征分析后,得到多个应用类型的标签,所述标签信息用于识别所述终端属性信息进行数据流匹配;
S3:应用特征模拟:在上述步骤S2以及获取了待识别的应用标识信息的切词特征以及与所述终端属性信息进行数据流匹配后,对所提取的切词特征进行均值编码,从而得到均值编码特征,接着将得到的均值编码特征发送至模拟学习系统中,进行模拟学习预测,在模拟学习预测完毕后,得到预测值;
S4:应用识别判断:在上述步骤S3中得到预测值的情况下,将预测值发送至智能识别系统中进行智能识别判断,若预测值大于均衡值,则判断待识别的应用存在缺陷或病毒,若预测值小于均衡值,则判断待识别的应用合格,接着将判断信息发送至终端,终端对应用进行下载。
2.根据权利要求1所述的一种计算机应用识别方法,其特征在于:所述步骤S2中,应用类型的标签的获取过程为:首先通过所述流表进行流行为特征分析,从而获得由IP地址和端口标识构成的多个服务,每个服务至少包括一个IP地址和一个端口标识,接着通过所述流表和所述域名表的特征,对所述多个服务进行聚类,得到多个应用类型,最后确定所述多个应用类型中每个应用类型对应的标签。
3.根据权利要求1所述的一种计算机应用识别方法,其特征在于:所述步骤S3中,均值编码特征的编辑基于category-encoders库、Bayesian-Target-Encoding目标编码方法、Weight-of-Evidence自变因变管理函数以及Nonlinear-PCA分类量化方法。
4.根据权利要求1所述的一种计算机应用识别方法,其特征在于:所述步骤S3中,模拟学习系统为基于逻辑回归模型的函数模拟系统,所述逻辑回归模型包括二项逻辑回归函数、多元逻辑回归函数以及随机逻辑回归函数。
5.根据权利要求1所述的一种计算机应用识别方法,其特征在于:所述步骤S4中,均衡值的获取办法为:从缺陷或病毒应用样本以及常规应用样本中的样本集中提取样本值标记和应用标识信息的样本切词特征,对所述样本切词特征进行均值编码得到均值编码特征,基于提取的样本值标记和样本均值编码特征对逻辑回归模型进行模拟训练,以得到均衡值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于滨州职业学院,未经滨州职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110557255.8/1.html,转载请声明来源钻瓜专利网。





