[发明专利]一种基于磁盘文件片段感知的计算机取证检测方法在审
| 申请号: | 202210583541.6 | 申请日: | 2022-05-25 |
| 公开(公告)号: | CN115016731A | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 温泉;王晓菲;张茜;王亚洲;王芳鸣;曾颖明 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06 |
| 代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
| 地址: | 100854*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 磁盘 文件 片段 感知 计算机 取证 检测 方法 | ||
1.一种基于磁盘文件片段感知的计算机取证检测方法,其特征在于,包括以下步骤:
步骤1:分析磁盘文件片段信息,提取磁盘文件片段,构建数据集;
步骤2:基于步骤1,研究磁盘文件片段特征,为步骤3中的磁盘文件片段降维处理提供支撑;
步骤3:研究文件感知算法,基于步骤2进一步对待检测的文件数据进行感知;
步骤4:基于步骤3的磁盘文件感知结果,对磁盘文件片段进行合理的组合,从而还原文件原始状态。
2.如权利要求1所述的方法,其特征在于,步骤1中,构建包含多种类型文件片段的集合,既包含文件类型又包含数据类型;
对文件类型的片段,在构造时进行文件类型标记,而对于数据类型的片段,要进一步结合文件类型的格式进行标记;
从文件片段的集合中抽取已知片段类型的文件片段,构成训练集,用于训练感知分类器,从文件片段的集合中抽取待感知的未知类型磁盘文件片段则形成测试集,作为进行感知和修复的原始集合。
3.如权利要求2所述的方法,其特征在于,步骤2具体为:
步骤2.1:提出计算每种类型文件片段的香农熵并统计其熵值范围的方法;
根据香农熵原理,文件片段字节序列中的每个字符能够当成一个随机事件,则文件片段熵值特征计算公式如下式:
其中,H是文件片段信息量的度量,p(i)表示字节l在文件片段中出现的概率;
利用香农熵可以计算出目标文件类型的熵值范围,通过熵值范围可以提取相应类型的文件片段;
步骤2.2:对于步骤1提取形成的训练集,计算每种类型文件片段的字节频率特征向量,实现字节频率特征提取
字节频率分布是统计文件片段中字节值出现的次数,并将这些数据进行归一化处理,通过统计目标类型文件的字节频率分布,然后将该文件的字节频率分布转变成一个256维的向量,这个向量等价于该类型的文件片段特征;
假设F是length字节的文件片段,每个字节作为一个无符号整数,一个文件片段F的特征向量被定义为VF=P0,P1,…,Pn,其中Pi为字节值i在文件片段F中出现的概率,记为ci次,则有:
Pi=ci/length
特征向量VF即为所要提取的字节频率特征。
4.如权利要求3所述的方法,其特征在于,步骤3具体为:
步骤3.1:基于训练集构建文件片段的感知分类器;
应用支持向量机,将步骤2中提取的特征向量看做256维空间的一个点,通过支持向量机构建超平面,根据文件的不同类型把这些点放入合适的空间,采用支持向量机提取字节频率特征向量进行训练,构建针对字节频率的训练模型,从而构建文件片段的感知分类器,具备对文件片段的感知能力;
步骤3.2:对测试集中的文件片段进行感知;
将待感知的文件片段输入到步骤3.1构建的感知分类器中进行感知,得到最终文件片段感知结果。
5.如权利要求4所述的方法,其特征在于,步骤3.2具体为:首先利用步骤2.1方法对测试集中每个文件进行香农熵计算,根据熵值范围判断文件片段类型,从而去除一部分非目标类型文件片段,为后一步的感知降维,然后采用步骤2.2方法对筛选出的文件片段进行字节频率特征向量计算,采用步骤3.1构造的感知分类器,预测文件片段的类型,如果预测结果是目标类型文件,则提取,如果预测结果不是目标类型文件,则标记为噪音片段并移除,从而完成目标类型文件片段的感知。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210583541.6/1.html,转载请声明来源钻瓜专利网。





