[发明专利]一种基于迁移学习和特征提取的Bug报告严重程度识别方法有效
申请号: | 201811528863.0 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109614489B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 郭世凯;陈荣;魏苗苗;李博;唐文君;李辉 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/284 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 特征 提取 bug 报告 严重 程度 识别 方法 | ||
1.一种基于迁移学习和特征提取的Bug报告严重程度识别方法,其特征在于:包括以下步骤:
S1:采集Bugzilla存储库中的Bug报告,将向量化表示的Bug报告信息作为迁移学习的知识库,对Bug报告信息进行分词、去停用词、词干化处理生成文本矩阵,采用TF*IDF对文本矩阵进行加权处理,将文本矩阵向量化表示;
S2:将向量化表示的Bugzilla Bug报告信息作为识别Android Bug报告的严重程度的知识库;
S3:使用粗糙集特征提取方法对文本矩阵进行特征提取,将提取的特征作为迁移学习的知识库,用于识别Android Bug报告的严重程度;
S4:建立分类器并对该分类器进行训练:分别用朴素贝叶斯NB、随机树RT、决策树J48、支持向量机SVM、K近邻KNN五种分类算法对训练集进行建模,选取实验效果正确率Accuracy最高的分类算法对训练集进行建模输出;
S5:将Android Bug报告输入至分类器进行严重程度的预测。
2.根据权利要求1所述的一种基于迁移学习和特征提取的Bug报告严重程度识别方法,其特征还在于:S1中具体采用如下方式:
S11:将Bug报告的文本描述信息处理成单个的词;
S12:将文本信息经过分词处理后会得到单个的词集合,通过去停用词将对Bug报告严重程度没有帮助的单个词移除;
S13:将词集合单个词的复数、动词时态去掉,只保留词根;
S14:将词集合生成文本矩阵:其中词集合中词的个数为所有Bug报告中不同单词的个数,即文本矩阵的列数;训练集中含有的Bug报告数目即文本矩阵的行数,矩阵中行列的交汇处即矩阵该行Bug报告含有该列对应单词的词频;
S15:对文本矩阵用TF*IDF进行加权处理获得稀疏矩阵;
S16:采用粗糙集约减方法对稀疏矩阵进行约简去噪处理得到小规模高质量的训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811528863.0/1.html,转载请声明来源钻瓜专利网。