[发明专利]一种面向深度学习模型训练和学习的影像图像数据扩充方法在审
申请号: | 201910028616.2 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109767440A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 徐军;谢嘉伟;蔡程飞 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06K9/32;G06K9/62 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据扩充 影像数据 训练数据集 学习 模型训练 影像图像 计算机辅助诊断 计算技术领域 医学图像处理 医学图像数据 人工智能 概率预测 判断数据 深度模型 图像变换 网络模型 医学图像 异常数据 肿瘤区域 异质性 准确率 构建 鉴别 诊断 计算机 | ||
本发明涉及一种面向深度学习模型训练和学习的影像图像数据扩充方法,属于计算机医学图像计算技术领域。本发明首先判断数据类型,鉴别CT或MRI图像数据;然后对于影像数据,判断是否有划定ROI,并结合肿瘤区域大小,选用相应的方法完成影像数据集的构建;再采用基本的图像变换法对影像数据集进行训练,获得初步训练数据集;最后对初步训练数据集进行数据扩充,再采用网络模型进行深度训练,最后进行概率预测。本发明基于人工智能的深度学习,将一系列数据扩充的方法应用在医学图像处理领域的深度模型训练的学习上,解决由医学图像数据异质性而导致的异常数据的影响,有助于计算机辅助诊断,提高诊断效率和准确率。
技术领域
本发明涉及一种面向深度学习模型训练和学习的影像图像数据扩充方法,属于计算机医学图像计算技术领域。
背景技术
在大数据时代一个高性能的深度模型往往需要大量的高质量数据,但高质量数据的获取并不容易,因此这也意味着一个健壮(Robust)的模型并不容易获得。其次,与自然图像相比,医学图像数据的获取往往更为困难,其根源来自病例数据获取不易,同时数据的使用也存在一定的伦理和隐私限制,很难从实际角度上解决。例如,美国国立卫生研究院(NIH)在17年9月公布了胸部影像(CT)图像数据集中共包含11万张图像数据,在去敏感信息的问题上,NIH团队使用人机配合的模式一共筛查了七遍,其中包括最后纯人工筛查的两遍,临时雇佣了14位医学博士耗费数月时间,工作量非常大。在一定角度上,该情况加重了大数据模式在医学诊断领域发展的困境。
由于影响数据量不足,影像图像数据还常常具有很强的异质性(Heterogeneity)。由于数据集获取困难,在图像样本数据不足的情况下,对于某种稀有病例往往只有极少量样本可供予模型进行训练、学习与测试,往往造成这种具有独特影像特性的样本数据在大量其他正、负样本的“冲击”下被当做异常数据。针对某些发病率较低且恶性程度通常较高的肿瘤的研究往往需要大批量的数据研究,样本数量不足也会造成数据类别的不均衡,从而导致过拟合(Overfitting)。
此外,在许多情况下,计算机影像图像处理模型从分子亚型的分类到各类诊断评级系统的搭建,在获得出色的性能的同时都对高质量数据量有极高的要求。对于影像数据而言,例如影像科医生往往会根据自身习惯对核磁共振机器的一部分参数进行调节以突出特定的组织,这就造成了同一台机器不同时期的扫描结果也会有较大的差异。因此,通过数据扩充来实现影像图像的主动领域适应是提高模型精度和性能的关键。由于影像图像数据的特征信息往往更丰富也更隐秘,很多有价值的信息均属于“亚视觉”特征,对于大量的如反色、超像素等方法,往往在医学图像领域的应用很局限,也需要在预测端进行数据扩充,以应对在模型应用时出现的一些非正常案例。
针对上述问题,目前有一些解决方法。如在网络中加入类别正则化项,平衡过大或者过小的权重值来减少数据自身的不平衡性;也可在网络搭建时采用弃权(Dropout)技巧,动态调整网络基础架构来避免过拟合现象。不过,现有方法在解决影像数据的异质性方面明显不足,无法从根本上解决数据量不足的问题,不利于一些稀有病例的影像分析。本发明介绍的数据扩充是一种行之有效的策略,尤其适合于影像图像数据的扩充。
发明内容
本发明要解决的技术问题是针对现有技术在解决影像数据异质性和分析稀有病例影像方面的不足,提出一种面向深度学习模型训练和学习的影像图像数据扩充方法,将系列数据扩充的方法应用于医学图像处理的深度模型训练学习,有效地平衡地扩充数据集,通过数据迭代扩充,帮助医生提高工作效率和疾病诊断的精准率,实现医工结合的高效医疗和精准医疗。
为解决上述技术问题,本发明提供一种面向深度学习模型训练和学习的影像图像数据扩充方法,包括以下步骤:
(1)判断数据类型,鉴别CT或MRI图像数据;
(2)对于影像数据,判断是否有划定ROI,并结合肿瘤区域大小,选用相应的方法完成影像数据集的构建;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910028616.2/2.html,转载请声明来源钻瓜专利网。