[发明专利]一种基于稀有类挖掘的罕见疾病图片搜寻方法有效
| 申请号: | 202010185084.6 | 申请日: | 2020-03-17 |
| 公开(公告)号: | CN111403027B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 刘振广;杨家旭;钱鹏;杨文武;纪首领 | 申请(专利权)人: | 浙江工商大学 |
| 主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06F16/583 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
| 地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 稀有 挖掘 罕见 疾病 图片 搜寻 方法 | ||
1.一种基于稀有类挖掘的罕见疾病图片搜寻方法,包括稀有类检测和稀有类开发两部分;其特征在于,所述稀有类检测的过程如下:
A1.获取用户输入的搜寻特征参数,所述搜寻特征参数为三元组k,sup,slow,其中sup和slow分别为用户设置的罕见疾病图片稀有类指数上下限值,k为给定的自然数用于表征图片的邻近样本集合规模且k∈[kmin,kmax],kmin和kmax分别为给定的区间上下限值;
A2.通过以下公式计算图片库中每一张图片的稀有类指数;
其中:为图片库中第i张图片的稀有类指数,i为大于0的自然数,第i张图片的邻近样本集合通过KNN算法确定且该集合中的图片数量为k,d1~dk对应为集合中的k张图片与图片库中第i张图片的欧氏距离且为从小到大顺序,avg{}为求平均值函数;
A3.搜寻稀有类指数在上下限区间[slow,sup]内的图片并反馈给用户,若反馈结果中存在有至少一张用户感兴趣的罕见疾病图片,则停止检测,否则由用户对搜寻特征参数进行微调后返回执行步骤A1;
所述稀有类开发的过程如下:
B1.从上述稀有类检测反馈给用户的图片中将用户感兴趣的罕见疾病图片组成正样本集合,其余图片组成负样本集合;
B2.确定正样本集合中每一张图片的邻近样本集合并取这些邻近样本集合的并集为Φ;
B3.对于集合Φ中不属于正负样本的任一图片,计算其与正样本集合的正样本距离r+以及其与负样本集合的负样本距离r-;
B4.从集合Φ中提取r值最大的图片提供给用户且r=r--r+,若用户感兴趣则将该图片加入正样本集合,若用户不感兴趣则将该图片加入负样本集合;
B5.循环执行步骤B2~B4,直至Φ-∩+-∩-为空时终止,将此时的正样本集合作为最终的输出结果,其中∩+为正样本集合与集合Φ的交集,∩-为负样本集合与集合Φ的交集。
2.根据权利要求1所述的罕见疾病图片搜寻方法,其特征在于:所述步骤A2中对区间[kmin,kmax]进行离散化,计算遍历区间内每一个k值下图片库中所有图片的稀有类指数并保存,使得后续调整搜寻特征参数时无需计算直接对图片稀有类指数进行调取即可。
3.根据权利要求2所述的罕见疾病图片搜寻方法,其特征在于:对于不同k值下的图片稀有类指数采用分级统计方法,通过统计处理按稀有类指数的大小进行区间划分,使用户的单次在线稀有类检测过程得以更快完成。
4.根据权利要求1所述的罕见疾病图片搜寻方法,其特征在于:所述步骤B3中通过以下公式计算正样本距离r+;
其中:x为集合Φ中任一图片的特征向量,P为由正样本集合中所有图片特征向量组成的特征矩阵,所述特征向量由图片所有像素值组成,ω1为由n个权重值所组成的权重向量且这n个权重值累加等于1,n为正样本集合中图片数量,为权重系数,ω1和通过对正样本距离r+最小化确定,‖‖2为二范数。
5.根据权利要求1所述的罕见疾病图片搜寻方法,其特征在于:所述步骤B3中通过以下公式计算负样本距离r-;
其中:x为集合Φ中任一图片的特征向量,G为由负样本集合中所有图片特征向量组成的特征矩阵,所述特征向量由图片所有像素值组成,ω2为由m个权重值所组成的权重向量且这m个权重值累加等于1,m为负样本集合中图片数量,为权重系数,ω2和通过对负样本距离r-最小化确定,‖‖2为二范数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185084.6/1.html,转载请声明来源钻瓜专利网。





