[发明专利]基于自我修正式标签生成网络的胸片多标签分类方法有效
| 申请号: | 202010072862.0 | 申请日: | 2020-01-22 |
| 公开(公告)号: | CN111275118B | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 张玥杰;胡玥琳 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自我 修正 标签 生成 网络 胸片 分类 方法 | ||
1.一种基于自我修正式标签生成网络的胸片多标签分类方法,其特征在于,构建一个自我修正式标签生成网络模型,用于胸片的多标签分类;
构建的自我修正式标签生成网络SLGN,包括三个组成部分:ResNet图像编码器、自我修正式注意力机制模块以及作为解码器的门控循环单元GRU;其中:
所述ResNet图像编码器用于获取输入图像即胸片图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;
所述自我修正式注意力机制模块,包括:在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向GRU解码器输出上下文特征向量;
所述GRU解码器,根据所述上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。
2.根据权利要求1所述的胸片多标签分类方法,其特征在于,所述ResNet图像编码器采用101层ResNet;所述ResNet从图像中提取得一个2,048维的图像特征表示,计算公式为:
其中θcnn是ResNet中包含的所有参数,I为所述图像,为得到的图像特征表示,其中H、W和D分别表示图像的高度、宽度和通道数量;
所述自我修正式注意力机制模块中,当前输入包括:图像特征表示和之前时刻所输出的状态信息ht-1;并通过多层感知器的方式计算每个区域的注意力得分,计算公式为:
其中,θMLP是多层感知器中包含的所有参数,X为图像特征表示,为得到的当前时刻注意力图谱;
接着,该注意力图谱被输入至一个GRU修正器中,该GRU修正器根据当前时刻的注意力图谱αt生成修正系数ηt,用于修正当前时刻注意力图谱中的错误和偏差,最终输出上下文特征向量其计算公式为:
ηt=GRU(αt) (3)
其中,α′t为当前时刻修正后的注意力图谱;代表逐元素相加;fz代表上下文特征向量的计算函数;
所述GRU解码器的当前输入包括:上下文特征向量和之前时刻所生成的标签词所对应的词向量;其中表示词嵌入矩阵,xt-1是之前时刻生成标签的one-hot表示,ht对应的是t时刻GRU的状态信息;接着,GRU解码器向全连接层输出当前时刻状态信息,全连接层计算当前时刻标签词的概率分布。
3.根据权利要求2所述的胸片多标签分类方法,其特征在于,所述GRU解码器向全连接层输出当前时刻状态信息,全连接层计算当前时刻标签词的概率分布,具体流程为:
在每个时刻t,GRU解码器基于上下文特征向量之前时刻生成的标签词xt-1和之前时刻的隐藏层状态ht-1生成当前时刻的标签:
其中,ut、rt、和ht分别代表GRU的更新门、复位门、候选隐藏层状态和隐藏层状态;是嵌入矩阵,m代表词向量的维度;和σ分别表示逐元素相乘和sigmoid激活函数;其中,在初始时间步输入一个虚拟标签,它是一个可学习的向量;最后,使用全连接层去计算每个候选标签的概率,如下所示:
其中,Wph是全连接层的参数;是当前时间步所有候选标签词的预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010072862.0/1.html,转载请声明来源钻瓜专利网。





