[发明专利]一种对代码克隆进行同源检测的方法在审
| 申请号: | 202110224364.8 | 申请日: | 2021-03-01 |
| 公开(公告)号: | CN113064634A | 公开(公告)日: | 2021-07-02 |
| 发明(设计)人: | 罗峋;但吉兵;易焕腾;王琳;梁大功 | 申请(专利权)人: | 苏州棱镜七彩信息科技有限公司 |
| 主分类号: | G06F8/75 | 分类号: | G06F8/75 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 代码 克隆 进行 同源 检测 方法 | ||
1.一种对代码克隆进行同源检测的方法,其特征在于,包括:
基于预设知识库对预设代码进行代码克隆检测,得到代码克隆检测结果;
对所述代码克隆检测结果进行定性和定量分析,以确定所述预设代码所对应的源文件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:建立预设知识库的步骤;
所述建立预设知识库包括:
将收集到的源代码按照预设格式进行存储;
对所述源代码进行特征提取,得到所述预设知识库。
3.根据权利要求1所述的方法,其特征在于,所述对所述源代码进行特征提取,包括:
提取所述源代码的HASH值,并通过词法分析器对所述源代码进行预处理,得到所述源代码的结构化文本,提取所述源代码的结构化文本的HASH值,以及结构化文本的代码片段的HASH值;
对所述源代码进行特征提取之后,所述方法还包括:
保存从所述源代码提取的HASH值、所述通过词法分析器得到的HASH值、所述通过词法分析器得到的结构化文本的代码片段级别的HASH值,与所述源代码以及所述源代码的相对文件存储路径之间的映射关系。
4.根据权利要求3所述的方法,其特征在于,所述词法分析器的处理规则包括:
移除无意义的代码片段;
移除非预设语义和非预设功能的代码片段;
查找并保留具有代码语义信息的关键字、保留字、常见语法,对不具备代码结构语义的成分进行统一的字符替换。
5.根据权利要求1所述的方法,其特征在于,所述基于预设知识库对预设代码进行代码克隆检测,包括:
提取将所述预设代码的源代码对应的HASH值、通过词法分析器分析所述预设代码对应的HASH值、以及确定所述预设代码的代码片段级别HASH值集合;
将所述预设代码与所述预设知识库依次进行源代码提取的HASH值、词法分析器得到的HASH值、以及代码片段级别HASH值集合的克隆碰撞检测,如果任一次碰撞检测成功,则确定所述预设代码为代码克隆。
6.根据权利要求5所述的方法,其特征在于,将所述预设代码与所述预设知识库进行MD5信息的克隆碰撞检测,包括:
提取所述预设代码的MD5信息,将该MD5信息与所述预设知识库存储的MD5信息进行克隆碰撞检测,如果碰撞成功,则确定所述预设代码为代码克隆,且克隆度为100%。
7.根据权利要求5所述的方法,其特征在于,将所述预设代码与所述预设知识库进行HASH值的克隆碰撞检测,包括:
通过词法分析器对所述预设代码进行预处理,得到所述预设码的HASH值,将所述预设码的HASH值与所述预设知识库存储的HASH值进行克隆碰撞检测,如果碰撞成功,则确定所述预设代码为代码克隆,且克隆度为100%。
8.根据权利要求5所述的方法,其特征在于,将所述预设代码与所述预设知识库进行代码片段级别HASH值集合的克隆碰撞检测,包括:
将所述预设代码通过词法分析器处理,转换为预设字符串,将所述预设字符串按照预设字符长度进行划窗处理,依次得到多个子串集合,对所述子串集合按序依次分别生成HASH值,对生成的HASH值进行去重处理,得到所述预设代码的代码片段级特征集合;
将所述代码片段级特征集合依次与述预设知识库内的代码片段级别HASH值集合进行克隆碰撞检测,如果碰撞成功,则确定所述预设代码为代码克隆。
9.根据权利要求6所述的方法,其特征在于,将所述代码片段级特征集合依次与述预设知识库内的代码片段级别HASH值集合进行克隆碰撞检测,如果碰撞成功,则确定所述预设代码为代码克隆之后,所述方法还包括:
将碰撞成功的HASH值按照源文件来源进行分组,并统计每个分组内碰撞上的特征数量,将特征数量碰撞上最多的源文件作为所述预设代码克隆的源文件。
10.根据权利要求6所述的方法,其特征在于,将所述代码片段级特征集合依次与述预设知识库内的代码片段级别HASH值集合进行克隆碰撞检测,如果碰撞成功,则确定所述预设代码为代码克隆之后,所述方法还包括:
将所述预设代码碰撞成功的HASH值个数除以所述预设代码的代码片段级特征集合内的特征数,得到所述预设代码的克隆度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州棱镜七彩信息科技有限公司,未经苏州棱镜七彩信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110224364.8/1.html,转载请声明来源钻瓜专利网。





