[发明专利]基于双门控递归单元解码的喉镜图像识别方法有效

申请号：	202010882806.3	申请日：	2020-08-28
公开（公告）号：	CN112052889B	公开（公告）日：	2023-05-05
发明（设计）人：	缑水平;刘宁涛;马兰;李国栋;毛莎莎;童诺;姚瑶;李阳阳	申请（专利权）人：	西安电子科技大学
主分类号：	G06V20/50	分类号：	G06V20/50;G06V10/82;G06V10/774;G06V10/80;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/084
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;黎汉华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于门控递归单元解码喉镜图像识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于双门控递归单元解码的喉镜图像识别方法，主要解决现有方法无法用于光学喉镜图像，及生成的医学文本报告准确性差和可读性不足的问题。其实现方案为：获取光学喉镜图像数据集以及相应的医学文本报告，并对医学文本报告进行分词和编码操作得到标签数据集；对图像数据集进行缩放和中心化处理，并与标签数据集一同记为训练数据集；构造一个包含13个卷积层、4个池化层和2个门控递归单元的综合网络，并使用训练数据集，利用自适应学习率优化算法对其训练；将一张无标签的光学喉镜图像作为测试数据输入到训练好的综合网络，得到测试图像识别后对应的医学报告。本发明提高了生成文本的准确性和可读性，可用于对喉镜图像的识别。

技术领域

本发明属于图像处理领域，特别涉及一种光学喉镜图像的识别方法，可用于为生成光学喉镜图像报告提供依据，提高医生对光学喉镜图像的诊断效率及诊断准确性。

背景技术

喉镜图像对于鼻腔以及咽喉部位疾病的诊断以及治疗有着重要的作用，现有对喉镜图像的诊断一般都需要专业的医生在原始图像中对各个区域进行仔细地检查，这对于医生来说是一个具有挑战性的任务，因为所有病变只能依靠医生肉眼观察，长时间的观察会引起医生注意力下降以及精神疲劳，从而导致医生在检查时产生漏判和误判以及诊断效率的降低。所以，急需一种有效的方法对喉镜图像进行理解，并依据是理解结果自动生成医学报告，从而提升喉镜图像的诊断效率以及诊断精度。

近年来，深度学习在图像处理和分析领域掀起了一阵热潮，在低层次的图像去噪、超分辨任务到高层次的图像检测与图像理解等任务中均有涉及。这种信息处理机制模仿了人类视觉神经系统，对图像处理和分析十分有效，已经有一些研究工作将深度学习应用到了医学图像理解方面，并且取得了不错的结果。

在医学图像理解的应用中，Eric P.Xing等人首先利用卷积神经网络CNN提取胸透图像特征，并用全连接层特征对图像做多标签分类，得到图像的高维特征，从而完成对图像的理解和特征表示，然后将特征以及多分类标签嵌入向量进行联合加权得到图像的联合特征，并使用双层长短期记忆网络LSTM对联合特征解码生成胸透图像的报告。Christy Y.Li等人也是利用CNN提取胸透图像特征完成对图像的理解，然后对图像理解过程得到的特征进行编码得到图像内容向量，之后使用循环神经网络RNN从内容向量循环得到话题向量，然后使用模板句生成图像报告或者使用堆叠RNN解码话题向量生成图像报告，最后通过报告的CIDEr分数作为奖励使用强化学习来实现网络的优化。

Yuan Xue等人使用多个角度的胸透图像得到识别特征向量，并据此并生成图像报告，即首先利用CNN对多个图像提取全连接特征与卷积层特征作为报告生成的特征向量，然后将多个图像的特征堆叠在一起输入到LSTM生成一句总体的描述，接下来利用双向LSTM将上一句描述编码为语义特征，与经过加权的图像特征一起输入到另一个LSTM循环得到整个图像报告。

上述这些算法都是针对X光图像的理解任务，目前仍没有针对光学图像理解和医学报告生成的方法；另一方面，这些算法普遍使用单个LSTM对注意力机制与图文融合建模，具有局限性，即使用单个LSTM模块同时完成注意力向量的获取和从图像特征映射到文本的任务，故无法有效地获取准确的注意力权重，限制了图像理解生成文本的准确性和可读性。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于双门控递归单元解码的喉镜图像识别方法，以准确有效地获取由光学喉镜图像特征生成的注意力权重，进而提高医学文本报告的准确性和可读性。

本发明的技术思路是：利用卷积神经网络CNN提取喉镜图像特征，通过使用第一门控递归单元得到注意力权重，通过使用第二门控递归单元解码加权过的图像特征得到图像报告，其实现步骤包括如下：

(1)获取患者的喉镜图像，记为喉镜数据集P，并取得对应喉镜图像的医学文本报告集合，记为Q；

(2)由医学文本报告集合Q获取标签数据集R：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010882806.3/2.html，转载请声明来源钻瓜专利网。