[发明专利]一种针对组织病理学图像的哈希样本平衡癌症标注方法在审

专利信息
申请号: 202110228166.9 申请日: 2021-03-02
公开(公告)号: CN112906804A 公开(公告)日: 2021-06-04
发明(设计)人: 吴永贤;丘林;田星;张建军;王婷;余洪华 申请(专利权)人: 华南理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08;G06T7/00
代理公司: 广州名扬高玥专利代理事务所(普通合伙) 44738 代理人: 郭琳
地址: 510641 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 组织 病理学 图像 样本 平衡 癌症 标注 方法
【说明书】:

发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法,利用卷积自编码器提取多类图像的特征,采用无监督的卷积自编码器CAE来提取图像块特征,采用有监督卷积神经网络(CNN)用于最终的分类任务;利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码,每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶;计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本。针对大规模病理组织学图像分类任务中的类不平衡问题,提出了一种高效的重采样方法HBU。不需要计算样本之间的成对距离,具有高效性和高可拓展性。

技术领域

本发明涉及图像分析技术领域,尤其涉及一种针对组织病理学图像的哈希样本平衡癌症标注方法。

背景技术

基于患者的超高分辨率病理图像的癌症早期诊断在医学中其中重要的作用。现有方法主要是通过把原始的组织病理学图像划分为大量的图像块,然后判断图像块是否为癌症组织图像,以此实现对癌症病灶的精确判断和定位。然而,现实中的正常组织图像块数量往往远超过癌症组织块图像,造成数据集的不平衡问题,使得难以有效地训练癌症组织图像分类器。因此,本文提出一种针对组织病理学图像的哈希样本平衡癌症标注方法,基于哈希方法提取平衡的训练集以训练分类器,实现较好的癌症组织识别效果,对癌症区域实现准确的定位标注。

目前,解决类不平衡问题的方法主要有:数据级方法、算法级方法和集成分类器方法。数据级方法通过对输入的训练数据进行预处理来降低不平衡率。数据级方法主要包括欠采样和过采样两类。欠采样方法从多类中选择具有代表性的样本,以达到预定的训练集平衡比率。Kubat等人提出了一种利用1-NN分类器和Tomek-links技术消除冗余和噪声样本的单侧选择算法(OSS)。Rezk等人运用形式化概念分析理论从数据中选取部分样本进行乳腺癌组织病理学图像分类。此外,Lin等人还采用了K-means技术获取数据的分布情况,选取有代表性的样本。与欠采样方法不同,过采样增加了少数类样本的数量。ROS随机复制少数类样本以增加该类样本数量,但这可能会导致过度拟合问题。为了减少过拟合的可能性,SMOTE算法通过在少数类的两样本之间插值以生成人工样本。CURE-SMOTE将聚类技术与SMOTE算法相结合,以提高随机森林的性能。WK-SMOTE算法通过在SVM的核空间过采样来解决核空间的非线性过采样问题。随着数据规模的不断增加,欠采样由于其较低的复杂度开销被认为是比过采样更好的方法。然而,现有的采样方法一般是利用基于距离的邻域关系来提取数据分布信息。对于数据量非常大的情况,如医学检查中分析的超高分辨率组织病理学图像,现有的采样方法不仅计算效率低,而且易受噪声干扰。

算法级方法根据具体任务不同设计特定的算法来解决类不平衡问题。单类学习方法只从一类实例中学习。阈值方法在训练阶段为每个类别设置不同的阈值。对于传统的分类算法,不同类别的样本对应相同的分类代价。而代价敏感的分类方法则为少数类分配了比多数类更高的分类损失。Khan等人结合代价敏感网络和神经网络来获得不平衡数据中不同类别的决策边界。Li等人提出了一种代价敏感的方法来平衡乳腺癌检测任务中的误诊率和漏诊率。然而,对于代价敏感的方法,由于缺乏领域专业知识,准确的误分类代价很难确定。在处理类的不平衡问题时,分类器的集成学习也被广泛采用。Bagging和boosting是两种主要的分类器集成方法。Bagging使用多个基分类器,这些分类器在不同的数据子集上进行训练。Boosting对基分类器进行迭代训练,对前一次迭代中错误分类的样本赋予更高的权重。EasyEnsemble在bagging和随机欠采样的基础上学习不平衡数据集,而BalanceCascade则是同时执行随机欠采样和数据增强。SMOTEBoost结合SMOTE和boosting过程来提高分类器在不平衡数据集上的性能。Krawczyk等人结合boosting方案和进化欠采样,为乳腺癌的不平衡分类生成平衡训练集。刘等提出了一种特征选择和集成的混合方法,解决了癌症微阵列数据中存在的多类不平衡问题。然而,当不平衡率较高时,集成方法需要训练足够多的基分类器才能达到较好的效果,同时多个模型在部署的时候也带来了更大的时间开销和机器成本。集成方法运行缓慢的另一个原因是在每次迭代中都使用基于距离的重采样方法来获得平衡的数据。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110228166.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top