[发明专利]一种对代码克隆进行同源检测的方法在审

申请号：	202110224364.8	申请日：	2021-03-01
公开（公告）号：	CN113064634A	公开（公告）日：	2021-07-02
发明（设计）人：	罗峋;但吉兵;易焕腾;王琳;梁大功	申请（专利权）人：	苏州棱镜七彩信息科技有限公司
主分类号：	G06F8/75	分类号：	G06F8/75
代理公司：	工业和信息化部电子专利中心 11010	代理人：	于金平
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种代码克隆进行同源检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种对代码克隆进行同源检测的方法，本发明是通过建立专门的源代码的特征提取后的知识库，然后基于该知识库对预设代码进行代码克隆检测，得到代码克隆检测结果，然后对代码克隆检测结果进行定性和定量分析，以确定预设代码所对应的源文件，由于本发明是根据源代码特征提取后的知识库来对预设代码进行代码克隆检测，所以本发明可以提高代码克隆的检测速度和准确率，从而有效解决了现有基于文本检测代码克隆的检测速度慢且漏报率高的问题。

技术领域

本发明涉及计算机技术领域，特别是涉及一种对代码克隆进行同源检测的方法。

背景技术

代码克隆code clone，是指存在于代码库中两个及以上相同或者相似的源代码片段。代码克隆检测技术旨在寻找检测代码克隆的自动化、高效的检测方法，从而用较低成本减少代码克隆的负面效应。代码克隆分为4种类型，即完全相同的代码(类型1)、重命名的代码(类型2)、几乎相同的代码(类型3)和语义相似的代码(类型4)，从类型1到类型4，代码克隆的相似程度逐渐降低，检测的难度也逐渐增加。研究者们在代码克隆检测方面获得了一系列的检测技术成果，根据这些技术利用源代码信息的程度不同，而目前基于文本检测的检测速度慢且漏报率高，所以如何针对文本相似的克隆取得了有效的检测结果成为现在亟待需要解决的技术问题。

发明内容

本发明提供了一种对代码克隆进行同源检测的方法，以解决现有技术中基于文本检测代码克隆的检测速度慢且漏报率高的问题。

本发明提供了一种对代码克隆进行同源检测的方法，该方法包括：基于预设知识库对预设代码进行代码克隆检测，得到代码克隆检测结果；对所述代码克隆检测结果进行定性和定量分析，以确定所述预设代码所对应的源文件。

可选地，所述方法还包括：建立预设知识库的步骤；

所述建立预设知识库包括：

将收集到的源代码按照预设格式进行存储；

对所述源代码进行特征提取，得到所述预设知识库。

可选地，所述对所述源代码进行特征提取，包括：

提取所述源代码的HASH值，并通过词法分析器对所述源代码进行预处理，得到所述源代码的结构化文本，提取所述源代码的结构化文本的HASH值，以及结构化文本的代码片段的HASH值；

对所述源代码进行特征提取之后，所述方法还包括：

保存从所述源代码提取的HASH值、所述通过词法分析器得到的HASH值、所述通过词法分析器得到的结构化文本的代码片段级别的HASH值、所述源代码以及所述源代码的相对文件存储路径之间的映射关系。

可选地，所述词法分析器的处理规则包括：

移除无意义的代码片段；

移除非预设语义和非预设功能的代码片段；

查找并保留具有代码语义信息的关键字、保留字、常见语法，对不具备代码结构语义的成分进行统一的字符替换。

可选地，所述基于预设知识库对预设代码进行代码克隆检测，包括：

提取将所述预设代码的源代码对应的HASH值、通过词法分析器分析所述预设代码对应的HASH值、以及确定所述预设代码的代码片段级别HASH值集合；将所述预设代码与所述预设知识库依次进行源代码提取的HASH值、词法分析器得到的HASH值、以及代码片段级别HASH值集合的克隆碰撞检测，如果任一次碰撞检测成功，则确定所述预设代码为代码克隆。

可选地，将所述预设代码与所述预设知识库进行MD5信息的克隆碰撞检测，包括：提取所述预设代码的MD5信息，将该MD5信息与所述预设知识库存储的MD5信息进行克隆碰撞检测，如果碰撞成功，则确定所述预设代码为代码克隆，且克隆度为100％。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州棱镜七彩信息科技有限公司，未经苏州棱镜七彩信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110224364.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于ZigBee技术的RTLS实时定位系统
下一篇：可测量微波的里德堡原子相位噪声光谱产生装置和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对代码克隆进行同源检测的方法在审

专利文献下载