[发明专利]一种启发式自引入技术债务数据标注及训练方法和系统在审
申请号: | 202111654306.5 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114612211A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 曲豫宾;李芳 | 申请(专利权)人: | 江苏派陶网络科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06F16/953;G06F16/906;G06N20/00 |
代理公司: | 南通国鑫智汇知识产权代理事务所(普通合伙) 32606 | 代理人: | 顾新民 |
地址: | 226000 江苏省南通市崇川*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 启发式 引入 技术 债务 数据 标注 训练 方法 系统 | ||
1.一种启发式自引入技术债务数据标注及训练方法,其特征在于,所述方法应用于区块链软件系统中,所述方法包括:
从开源代码仓库GitHub爬取基于区块链的软件系统源代码,所述软件系统源代码为标注star满足预设要求的系统源代码;
通过语法分析器从所述软件系统源代码中提取注释,获得注释信息;
基于所述注释信息,选择一个开源软件项目的注释信息进行标注,基于标注为有引入技术债务的注释信息得到代码注释关键词;
根据标注信息构建训练数据集,并通过所述训练数据集对预训练模型进行训练及微调,获得分类模型;
获得待标注软件项目,利用所述分类模型对所述待标注软件项目的代码注释进行分类预测,得到预测分类结果;
当所述预测分类结果为有引入技术债务时,获得模糊分类结果,并判断所述模糊分类结果与所述预测分类结果是否匹配;
当匹配成功时,将所述待标注软件项目的代码注释标注为有引入技术债务存入所述训练数据集进行更新,利用更新的所述训练数据集进行分类模型的训练,持续迭代,完成所有待标注数据集的标注。
2.如权利要求1所述的方法,其特征在于,所述获得模糊分类结果,并判断所述模糊分类结果与所述预测分类结果是否匹配,包括:
将所述待标注软件项目的代码注释与所述代码注释关键词进行启发式模糊匹配分类,获得模糊分类结果;
将所述预测分类结果与所述模糊分类结果进行比较,当两个分类结果一致时,则匹配成功。
3.如权利要求1所述的方法,其特征在于,当所述预测分类结果为无技术债务时,所述方法包括:
将所述待标注软件项目的代码注释与所述代码注释关键词进行启发式模糊匹配分类,获得模糊匹配结果;
当所述模糊匹配结果为无匹配关键词时,将所述待标注软件项目的代码注释标注为无技术债务存入所述训练数据集中。
4.如权利要求2或3所述的方法,其特征在于,所述将所述待标注软件项目的代码注释与所述代码注释关键词进行启发式模糊匹配分类,包括:
加载所述代码注释关键词的关键词列表;
对所述关键词列表进行数据预处理,获取关键词词根;
从所述关键词词根中选择词根,并判断选择词根是否存在于所述待标注软件项目的代码注释中;
当所述选择词根在所述待标注软件项目的代码注释中,则模糊分类结果为自引入技术债务。
5.如权利要求4所述的方法,其特征在于,所述判断选择词根是否存在于所述待标注软件项目的代码注释中之后,所述方法还包括:
当所述选择词根不在所述待标注软件项目的代码注释中,重新选择词根迭代进行判断,直到完成所有词根的比较匹配;
当所有词根都不在所述待标注软件项目的代码注释中时,所述模糊分类结果为非自引入技术债务。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
获得所有标注信息;
将所有标注信息存入所述训练数据集中;
利用更新后的所述训练数据集对所述分类模型进行训练,获得更新分类模型;
基于所述更新分类模型获得软件代码,确定测试信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏派陶网络科技有限公司,未经江苏派陶网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111654306.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制备纳米微孔绝热板的硅灰分选方法及装置
- 下一篇:多音源的噪声处理方法