[发明专利]一种基于编码序列表示的源代码片段成对比较方法有效
申请号: | 202011324413.7 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112416431B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 黄志球;喻垚慎;李伟湋;沈国华;邵宜超 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F8/75 | 分类号: | G06F8/75 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 姜晓钰 |
地址: | 211106 江苏省南京市江宁区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码 序列 表示 源代码 片段 成对 比较 方法 | ||
1.一种基于编码序列表示的源代码片段成对比较方法,其特征在于:包括如下步骤:
步骤1:建立源代码数据库,用于存储源代码文本;
建立代码转换模块,在代码转换模块中使用基于静态程序分析的编码序列源代码表示方法,将源代码文本的源代码片段转换为编码序列;
步骤2:在代码转换模块中,使用Burrows-Wheeler块排序压缩算法对编码序列进行数据处理,得到编码序列的索引;
步骤3:建立序列对齐模块,在序列对齐模块中通过种子筛选,从编码序列的索引中找出具有高相似度的子序列比对种子;
在执行步骤3时,具体包括如下步骤:
步骤A1:根据两段待比较源代码片段的编码序列的节点的索引,挑选出结构编码不大于0,且具有相同类型编码的种子位置对;
步骤A2:对于任意一个种子位置对,若后续K个节点中对应位置的相同节点个数不小于K×r,其中r为相似度阈值,则将该种子位置对记为具有高相似度的子序列候选种子对;
首先根据编码序列特性选出候选种子对,每一个编码序列的节点Ni都由结构编码SCi和类型编码TCi组成,若对比的两段编码序列A和B中存在一对节点满足两者结构编码不大于0并且类型编码相同,即则节点可称为候选种子对;
然后,对比以候选种子对为起始位置的K项短序列,分别记为和和在对应位置的相同节点个数为t,若满足其中r1为人为设定的相似度阈值,则两段种子对可记为
步骤4:在序列对齐模块中,采用史密斯-沃特曼算法将高相似度种子作为子序列比对的起始位置,扩展后续序列中保持一定相似度阈值的子序列;
步骤5:根据编码序列对应的源代码片段的行号信息,定位源代码片段之间的高相似度部分。
2.如权利要求1所述的一种基于编码序列表示的源代码片段成对比较方法,其特征在于:在执行步骤1时,在代码转换模块中使用基于静态程序分析的编码序列源代码表示方法具体包括:以代码片段为单位,对代码段进行处理,将源代码文本转换为编码序列。
3.如权利要求1所述的一种基于编码序列表示的源代码片段成对比较方法,其特征在于:在执行步骤2时,具体包括使用Burrows-Wheeler块排序压缩算法,对编码序列的所有节点进行索引,得到编码序列中所有节点的索引顺序。
4.如权利要求3所述的一种基于编码序列表示的源代码片段成对比较方法,其特征在于:在执行步骤4时,具体包括对每一个子序列候选种子对使用史密斯-沃特曼算法扩展后续序列,每次取后续K个节点作为扩展,扩展的子序列长度为nK,若扩展子序列的相似度小于r,r为相似度阈值,则扩展过程停止;反之,则继续扩展,直至扩展到下一个种子对起始位置则停止。
5.如权利要求4所述的一种基于编码序列表示的源代码片段成对比较方法,其特征在于:在执行步骤5时,具体包括根据编码序列对应的源代码片段的行号信息,得到高相似度子序列对应的源代码片段的位置范围,从而定位两段源代码片段中高相似度部分的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011324413.7/1.html,转载请声明来源钻瓜专利网。