[发明专利]一种多组学数据聚类方法及装置有效
| 申请号: | 202010019135.8 | 申请日: | 2020-01-08 |
| 公开(公告)号: | CN111223528B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 蔡宏民;容文滔 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G16B40/30 | 分类号: | G16B40/30 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
| 地址: | 510000*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多组学 数据 方法 装置 | ||
本发明公开了一种多组学数据聚类方法,包括:获取待测样本的多个原始组学数据,并对所述原始组学数据进行标准化,得到组学数据;构建每个所述组学数据的局部相似矩阵;将所述局部相似矩阵输入到预设的谱聚类模型,得到每个所述组学数据的聚类结果,并基于所述聚类结果更新所述局部相似矩阵;根据更新后的局部相似矩阵建立优化模型,并通过求解所述优化模型,得到全局相似度矩阵;将所述全局相似度矩阵输入到所述谱聚类模型,得到所述待测样本的亚型识别结果。本发明还公开了一种多组学数据聚类装置,能有效解决现有技术没有考虑不同组学的权重,及基于谱聚类的算法没有利用到由谱聚类得到的多个子图的节点路径信息导致影响分型准确性的问题。
技术领域
本发明涉及多组学整合技术领域,尤其涉及一种多组学数据聚类方法及装置。
背景技术
高通量测序的发展加速了来自多个来源的组学数据在同一肿瘤组织上的积累。癌症亚型鉴定已成为多组学研究的主要临床应用。它可以提供对疾病发病机理的更深入了解以及针对性疗法的设计,多组学整合聚类是从多组学数据中识别癌症亚型的主要工具。多组学整合存在以下挑战:1、高维度小样本;2、如何恰当整合不同组学的信息;3、每个组学数据在规模,维度和质量上的异质性。整合多组学的方法可以大致分为三类:1、基于相似度的方法;2、基于降维的方法;3、统计方法。基于相似性的方法是使用样本之间的相似度来聚类数据,由于在当前的多组学数据中,样本数量远远小于特征数量,基于相似性的方法是通常比考虑特征的方法要快。例如相似度网络融合(SNF)根据消息传递融合从他们的每种数据类型获得的患者相似性网络。Grassmanncluster在格拉斯曼流形上合并每种组学数据的子空间表示(由谱聚类得到),来获得一个综合的子空间表示,在该子空间中实现对癌症患者分型。
但现有技术没有考虑不同组学的权重,基于谱聚类的算法没有利用到由谱聚类得到的多个子图的节点路径信息,因此影响了癌症分型的准确性,而且学习的相似度矩阵不具备好的解释性以及与尺度无关的特性。
发明内容
本发明实施例提供一种多组学数据聚类方法及装置,能有效解决现有技术没有考虑不同组学的权重,及基于谱聚类的算法没有利用到由谱聚类得到的多个子图的节点路径信息导致影响分型准确性的问题,能有效提高分型的准确性。
本发明一实施例提供一种多组学数据聚类方法,其特征在于,包括:
获取待测样本的多个原始组学数据,并对所述原始组学数据进行标准化,得到组学数据;
构建每个所述组学数据的局部相似矩阵;
将所述局部相似矩阵输入到预设的谱聚类模型,得到每个所述组学数据的聚类结果,并基于所述聚类结果更新所述局部相似矩阵;
根据更新后的局部相似矩阵建立优化模型,并通过求解所述优化模型,得到全局相似度矩阵;
将所述全局相似度矩阵输入到所述谱聚类模型,得到所述待测样本的亚型识别结果。
作为上述方案的改进,所述构建每个所述组学数据的局部相似矩阵,具体包括:
所述局部相似矩阵由以下公式确定,具体公式如下:
Z(i,j)=(Z(i,j)+Z(j,i))/2
其中,
Z为所述局部相似矩阵,W(i,j)为待测样本i与待测样本j的高斯核相似度,W(i,k)为待测样本i与待测样本k的高斯核相似度,d(xi,xj)为待测样本i与待测样本j之间的欧式距离,μ为用于控制指数衰减速度的比例常数,∈i,j矫正度量误差参数,Ni为待测样本K的最近邻集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010019135.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





