[发明专利]基于视频理解的手术器械、操作和组织智能识别方法在审
申请号: | 202310502012.3 | 申请日: | 2023-05-05 |
公开(公告)号: | CN116563759A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨宇轩;王浩;丁帅;苏伊阳;李诗惠 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/77;G06V10/80;G06V10/82 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 郭子辰 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 理解 手术器械 操作 组织 智能 识别 方法 | ||
本发明提供了一种基于视频理解的手术器械、操作和组织智能识别方法,涉及微创手术行为识别技术领域。本发明基于多任务学习,能够同时识别器械、操作和组织。利用了器械特征图引导操作与组织特征图的提取,基于器械识别准确度高、稳定性强的特点,提高了识别的稳定性。同时充分利用手术先验知识,通过图卷积网络在语义层面上显式建模了器械、操作、组织的关联关系,这种关联关系通过空间语义注意力对齐模块进一步嵌入到图像特征提取网络和语义特征提取网络中,最终融合了视觉识别结果与关联识别结果,提升了识别的准确性。最后采用度量学习对三元组特征进行区分,并优化识别结果,显著降低了手术内镜视频中同时出现多个三元组时的误识别概率。
技术领域
本发明涉及微创手术行为识别技术领域,具体涉及一种基于视频理解的手术器械、操作和组织智能识别方法。
背景技术
微创手术通常在患者体表切开较小的创口,并基于内窥镜等成像设备的引导,完成手术操作。目前微创手术主要采用内镜,将内镜视频呈现在显示器上供医生观察。而微创手术行为识别是指在内镜视频中识别出何种器械正在对何种组织实施何种操作,进而识别手术中的细粒度行为。
现有的手术行为识别方法通常是对器械、操作、目标进行独立识别,随后再将识别结果融合得到行为识别结果。
但现有技术未能考虑器械、操作、目标之间的关联关系,识别性能存在缺陷。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于视频理解的手术器械、操作和组织智能识别方法,解决了现有技术识别性能低的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于视频理解的手术器械、操作和组织智能识别方法,该方法包括:
获取内镜视频的视频帧特征图和对应的语义特征;
基于视频帧特征图获取对应的器械视觉识别概率、操作视觉识别概率和组织视觉识别概率;并基于语义特征获取器械关联识别概率、操作关联识别概率和组织关联识别概率;
融合各视觉识别概率和对应的关联识别概率获取器械识别概率、操作识别概率和组织识别概率;并基于器械识别概率、操作识别概率和组织识别概率获取三元组标签分类概率。
进一步的,所述获取内镜视频的视频帧特征图和对应的语义特征,包括:
对内镜视频进行预处理,得到符合预设分辨率的视频帧;
将视频帧作为特征提取网络的输入,得到视频帧特征图和对应的语义特征,
其中,所述视频帧特征图通过卷积网络进行提取;
所述语义特征通过图卷积网络进行提取。
进一步的,所述卷积网络和图卷积网络均包含若干个子网络;
且卷积网络的每层子网络输出的特征图和图卷积网络的每层子网络输出的语义特征输入空间语义注意力对齐模块,并将空间语义注意力对齐模块输出的特征图和对应的语义特征作为下一层子网络的输入。
进一步的,空间语义注意力对齐模块输出特征图和对应的语义特征,包括:
通过卷积层和全连接层获取隶属度矩阵,再令隶属度矩阵分别经过SOFTMAX操作和二维平均池化AVGPOOL操作获取空间注意力和通道注意力;最后通过残差连接将空间注意力融合进特征图,并将通道注意力融合进语义特征。
进一步的,所述基于视频帧特征图获取对应的器械视觉识别概率、操作视觉识别概率和组织视觉识别概率,包括:
从视频帧特征图中提取器械特征图,并从中提取器械分类特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310502012.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用微波加热预处理的胶合板制备方法
- 下一篇:便于对接的接地线夹操作杆