[发明专利]基于密度-距离中心算法的流式细胞粒子分类计数方法有效
| 申请号: | 201710641341.0 | 申请日: | 2017-07-31 |
| 公开(公告)号: | CN107389536B | 公开(公告)日: | 2020-03-31 |
| 发明(设计)人: | 陶靖 | 申请(专利权)人: | 上海纳衍生物科技有限公司 |
| 主分类号: | G01N15/14 | 分类号: | G01N15/14 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
| 地址: | 201108 上海市闵*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 密度 距离 中心 算法 细胞 粒子 分类 计数 方法 | ||
本发明涉及一种基于密度‑距离中心算法的流式细胞粒子分类计数方法,包括以下步骤:1)采用流式细胞分析仪获取待分类计数的细胞粒子的流式数据集,所述的流式数据集包含粒子的多维数据;2)根据密度‑距离中心算法获取流式数据集中每个粒子的局部密度和距离参数,进行筛选和排序,获取待聚类的初始类群中心;3)将初始类群中心作为混合模型算法的初始值,根据混合模型对粒子群进行聚类,得到分类后的多个粒子类群,进行计数统计。与现有技术相比,本发明具有准确性高,稳定性好、适应流式数据的分布、适应小样本粒子群的分类、计算速度快等优点。
技术领域
本发明涉及细胞粒子分类测量领域,尤其是涉及一种基于密度-距离中心算法的流式细胞粒子分类计数方法。
背景技术
流式细胞分析术(flow cytometry,FCM)是采用流式细胞仪进行定量分析的技术,其利用流体动力学聚焦原理,将被分析的细胞或微粒排成一列,逐个快速地流过检测光束,通过高精密的光学系统、电子学信号处理和计算机数据分析,测定细胞或微粒引发的多角度散射光和多色荧光,可以在短时间内获得上万个细胞或微粒的大小、内部结构、核酸、蛋白质等物理及化学特征。流式细胞术以其快速、准确、大批量、多参数分析等优点,是生物医疗领域中进行前沿科学研究的重要的基础性科研仪器;同时,也是重要的临床检验设备。
每个细胞或微粒引发的多角度散射光和多色荧光,通过光学系统收集和光电传感器转化为电信号,经过电子学信号处理和采样成为数字信号,由计算机存储和进行数据分析;流式细胞仪获取的所有细胞或微粒的特征数据称为流式数据。
传统上,流式数据的分析依靠有经验的人员将数据投影至二维散点图中,然后采用区域设门的方式对感兴趣的类群进行分析,如分类和计数,被称为人工设门法。随着流式细胞术的不断发展,流式数据量成倍增加,数据的自动分析已经成为流式细胞技术未来发展的主要方向。针对流式数据的聚类分析,一些自动分析方法先后被提出,主要可分为基于概率分布的聚类方法以及基于空间信息的聚类方法。
基于概率分布的聚类方法主要是有限混合模型聚类算法,如基于贝叶斯信息准则的高斯混合模型算法,该算法对由正态或者近正态分布的数据集组成的细胞类群有较好的处理能力;t-分布混合模型算法将非正态分布的数据转换为近正态分布,代替高斯混合模型对流式数据进行聚类分析;还有偏斜t-分布混合模型算法,能较好地处理非对称分布的数据。这些混合模型聚类算法不断发展,提高了模型对不同数据分布的适应能力。但是,高斯分布、t-分布和偏t-分布等混合模型本身求出的解是局部最优的,因此基于有限混合模型的聚类算法依赖于初始点(也就是类群中心)的位置。由于实际数据往往比较复杂,如噪音点多的情况,混合模型聚类算法会有误分,所以算法的稳定性不高。
基于空间信息的聚类方法是流式数据分析的另一类主要方法,如K-means算法和DBSCAN算法,对流式数据的聚类能力有限。基于有限混合模型的聚类算法对于流式数据的分析更适合,应用得相对较多。由于基于有限混合模型的聚类算法依赖于初始点(也就是类群中心)的位置,其对模型的初值很敏感。基于K-means以及混合模型的聚类算法对于初始类群中心点的选取往往是随机的,人们习惯于使初始聚类中心的相互距离尽可能地远,但是K-means算法本身求得的是局部最优解,因此对于随机的初值依然有可能陷入局部最优,很难稳定地选取模型的初值,不能保证结果的准确性和稳定性。
在实际情况中,流式数据往往比较复杂,各种恶劣情况对流式数据的聚类分析挑战很大,如噪音点多的情况,前人方法有时会把噪音点误分为一个单独的类群。另外,样本量小且分布稀疏的类群并没有很好的解决办法。例如,人外周血的白细胞分类分析中,通常单核细胞占白细胞总量的2%~10%,嗜酸性粒细胞占白细胞总量的1%~6%,而淋巴细胞约占40%,粒细胞约占50%,是占绝大多数的类群。在这样的多类群聚类分析中,大样本类群与小样本类群的数量相差悬殊且相互靠近,难点是小样本类群的定位和区分。小样本类群由于样本量少,且分布稀疏,很容易受相邻的优势类群的干扰,而被误分为其他类群的一部分,因此小样本类群对算法的鉴别力和稳定性的要求很高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海纳衍生物科技有限公司,未经上海纳衍生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710641341.0/2.html,转载请声明来源钻瓜专利网。





