[发明专利]一种基于双通道卷积神经网络的重复缺陷报告检测方法有效
申请号: | 201910474540.6 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110188047B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 徐玲;何健军;帅鉴航;杨梦宁;张小洪;洪明坚;葛永新;杨丹;王洪星;黄晟;陈飞宇 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06N3/0464 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于双通道卷积神经网络的重复缺陷报告检测方法,包括三个步骤,数据准备、建立CNN模型和待预测缺陷报告预测;在数据准备,对重复报告有用的字段,从缺陷报告中提取出来,对每一个报告,结构化信息和非结构化信息一起放入一个文本发明档中,经过预处理,每个由文本表示的报告被转化成一个单通道矩阵,把单通道矩阵组合成双通道矩阵,然后把一部分作为训练集,剩下的部分作为验证集。在CNN模型建立,以训练集为输入训练模型。在待预测缺陷报告预测阶段,训练好的模型加载预测一个未知缺陷报告与已知缺陷报告组成的缺陷报告对的相似度,这个相似度是一个表示缺陷报告对重复可能性的概率。本发明方法具有较高的预测准确性。 | ||
搜索关键词: | 一种 基于 双通道 卷积 神经网络 重复 缺陷 报告 检测 方法 | ||
【主权项】:
1.一种基于双通道卷积神经网络的重复缺陷报告检测方法,其特征在于:包括如下步骤:S100:数据准备S101:提取软件的缺陷报告,所有缺陷报告均由结构化信息和非结构化信息组成,对于每一个缺陷报告,将所有结构化信息和非结构化信息放入一个单独的文本发明档中;S102:对于每一个缺陷报告,进行预处理步骤,包括分词、提取词干、去除停用词和大小写转化;S103:预处理后,所有缺陷报告中的词被组合成一个语料库,在语料库上使用现有的Word2vec并选择CBOW模型,获得每一个词的向量表示,即得到每个缺陷报告的二维矩阵表示,称为缺陷报告的二维单通道矩阵;根据提取软件的缺陷报告时,该软件缺陷跟踪系统给出的已知信息(这个配对的信息是数据集中的,是由创建数据集的人处理得到的),将两个缺陷报告组成的缺陷报告对通过二维双通道矩阵表示,所述二维双通道矩阵由所述两个缺陷报告对应的二维单通道矩阵组合而成,然后给该双通道矩阵它打上重复或者不重复的标签;将所有打上标签的双通道矩阵,分为训练集和验证集;S200:建立CNN模型S201:将训练集和验证集中的所有双通道矩阵一起输入CNN模型;S202:在第一个卷积层中,设置
个卷积核
其中d是卷积核的长度,kw是卷积核的宽度;在第一次卷积后,双通道矩阵的两个通道就合并成一个了,第一层卷积公式为:
其中C1表示第一个卷积层的输出,i表示第一个卷积层输入I1的第i个通道,j1表示输入的第j1行,b1表示偏移量,f1表示非线性的激活函数,给定输入的长度l(l=nw),填充值P=0和步长S=1,输出的长度O1可以被计算为:
第一个卷积层的输出形状为
将第一个卷积层的输出形状重塑成![]()
然后再卷积,在第二个卷积层,又设置了三种大小的卷积核
每种卷积核
个,第二层卷积的公式为:
其中C2表示第二个卷积层的输出,j2表示第二个卷积层输入I2的第j2行,b2表示偏移量,f2表示非线性的激活函数,在这次卷积之后,会得到三种形状为
的特征图,其中O2可以根据l(l=O1)和不同的卷积核长度d,按照公式(2)计算;S203:对所有的特征图进行最大池化;S204:重塑并拼接所有的特征图以得到一个
维的向量,它将被作为全连接层的输入;两个全连接层之后,得到一个独立的概率simpredict,它代表了两个报告被预测的相似度;在最后一层,使用sigmoid作为激活函数得到simpredict;给定第一个全连接层的输出T={x1,x2,...,x300}和权重向量W={w1,w2,...,w300},simpredict可以被计算为:
其中i表示T的第i个元素,b表示偏移量;S205:遍历训练集中的所有缺陷报告对,重复S202‑S204;S206:根据损失函数进行反向传播以更新模型的隐藏参数,损失函数如公式(5):
其中labelreal表示预设的缺陷报告对的标签,i表示第i个缺陷报告对,n表示缺陷报告对的总数;S207:每个epoch训练结束后,使用验证集对模型进行验证;当验证集的损失在5个epoch内都不再降低时,停止更新模型参数;否则返回S201,继续训练CNN模型;S300:待预测缺陷报告预测首先采用S102中的方法对待预测缺陷报告进行预处理,然后采用S103中的方法将该待预测缺陷报告转化为预测缺陷报告的二维单通道矩阵;将预测缺陷报告的二维单通道矩阵与该软件已有的N个缺陷报告的二维单通道矩阵两两组合得到N个待预测双通道矩阵,将N对待预测双通道矩阵构成预测集,将预测集中的每个待预测双通道矩阵作为输入,输入到所述CNN模型中,得到一个概率;当N个概率中,概率大于阈值的则认为该概率所对应的缺陷报告和预测缺陷报告为重复。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910474540.6/,转载请声明来源钻瓜专利网。
- 上一篇:研发质量的测评方法及装置
- 下一篇:一种实现精准监控代码覆盖率的方法