[发明专利]一种文件检测方法、装置、设备及存储介质在审
申请号: | 202110657079.5 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113282921A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 郭开 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 张金香 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 检测 方法 装置 设备 存储 介质 | ||
1.一种文件检测方法,其特征在于,包括:
获取待检测文件;
通过文件检测模型对所述待检测文件执行检测操作,得到文件检测结果;其中,所述文件检测模型基于恶意广告文件样本以及所述恶意广告文件样本中数字签名对应的信誉度信息训练生成,所述文件检测结果用于表征所述待检测文件是否为恶意广告文件。
2.根据权利要求1所述的文件检测方法,其特征在于,所述恶意广告文件样本的文件来源为网络来源。
3.根据权利要求1所述的文件检测方法,其特征在于,所述文件检测模型基于恶意样本集合中的所述恶意广告文件样本以及所述恶意广告文件样本中数字签名的信誉度信息训练生成;
所述恶意样本集合包括:默认恶意广告文件样本、以及未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本。
4.根据权利要求3所述的文件检测方法,其特征在于,所述相似度为所述未知类型样本与所述默认恶意广告文件样本之间的模糊哈希值的相似度。
5.根据权利要求1至4任意一项所述的文件检测方法,其特征在于,所述文件检测模型具体是基于恶意广告文件样本的样本属性标签以及所述恶意广告文件样本中所述数字签名对应的信誉度信息训练生成。
6.一种文件检测模型训练方法,其特征在于,包括:
确定恶意样本集合;
统计所述恶意样本集合中所述恶意广告文件样本中数字签名对应的信誉度信息;
基于所述恶意广告文件样本以及所述信誉度信息进行模型训练,得到所述文件检测模型。
7.根据权利要求6所述的文件检测模型训练方法,其特征在于,所述确定恶意样本集合,包括:
获取原始恶意样本集合以及未知类型样本;其中,所述原始恶意样本集合中包含有默认恶意广告文件样本;
确定所述未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本;
将所述待扩充样本增加至所述原始恶意样本集合,得到所述恶意样本集合。
8.根据权利要求7所述的文件检测模型训练方法,其特征在于,所述基于所述恶意广告文件样本以及所述信誉度信息进行模型训练,包括:
基于所述恶意广告文件样本的样本属性标签以及所述信誉度信息进行模型训练。
9.根据权利要求8所述的文件检测模型训练方法,其特征在于,在所述基于所述恶意广告文件样本的样本属性标签以及所述信誉度信息进行模型训练之前,包括:
根据预设的标签标注模型确定所述待扩充样本的预估属性标签;
判断所述待扩充样本的样本属性标签是否与所述预估属性标签一致;
若所述待扩充样本的样本属性标签与所述预估属性标签不一致,则基于所述预估属性标签修改所述样本属性标签。
10.根据权利要求7所述的文件检测模型训练方法,其特征在于,所述确定所述未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本,包括:
基于模糊哈希算法确定所述未知类型样本的第一模糊哈希值,以及所述默认恶意文件的第二模糊哈希值;
统计所述第一模糊哈希值与所述第二模糊哈希值的所述相似度;
判断所述相似度是否达到所述预设相似度标准;
若是,则将所述未知类型样本设置为所述待扩充样本。
11.根据权利要求6至10任意一项所述的文件检测模型训练方法,其特征在于,所述基于所述恶意广告文件样本以及所述信誉度信息进行模型训练,包括:
基于所述恶意广告文件样本以及所述信誉度信息对原始检测模型执行模型重训练;其中,所述原始检测模型基于所述默认恶意广告文件样本训练生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110657079.5/1.html,转载请声明来源钻瓜专利网。