[发明专利]一种基于相似度融合的多组学癌症数据整合分析方法有效

专利信息
申请号: 201910174117.4 申请日: 2019-03-08
公开(公告)号: CN109994200B 公开(公告)日: 2021-01-19
发明(设计)人: 蔡宏民;徐傲丹 申请(专利权)人: 华南理工大学
主分类号: G16H50/20 分类号: G16H50/20;G16B20/00
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相似 融合 多组学 癌症 数据 整合 分析 方法
【权利要求书】:

1.一种基于相似度融合的多组学癌症数据整合分析方法,其特征在于:该方法通过对给定的癌症多组学数据进行预处理,构建每个数据源的局部相似度网络;进而将多个局部相似度网络的融合问题定义为不同路径度量下多个相似度网络的一致性约束问题,并且建模为一个优化问题,使用一致性交替乘子法将优化目标分解成一系列子问题进行求解;融合后的全局相似度网络结合基于谱聚类的一致性聚类方法,实现对患者的分型;最后使用多集群特征选择方法从患者分型回溯原始的数据源中的特征;其具体包括以下步骤:

1)对于数据进行预处理,构建每个数据源对应的局部相似度网络;

要保证数据分析的质量,首先需要对于数据集进行数据清洗、数据标准化和特征选择,其次需要进行相似度的计算和表示,具体如下:

数据清洗:对于数据中的空值进行处理,缺失超过20%以上的样本或特征直接删除,低于20%的采用K最近邻插补方法补全;

数据标准化:对于数据采用Z-score规范化,取消由量纲不同引起的误差,加速后续优化流程;

特征选择:对于维度超过十万的数据集进行方差特征筛选,选择方差大于预设阈值的特征,去除冗余数据,加速计算;

相似度度量以及局部相似度矩阵的构建:首先,采用指数高斯核定义不同数据源中样本的相似度矩阵,公式如下:

其中,W为所求的相似度矩阵,W(i,j)代表矩阵W第i行第j列的元素,xi与xj分别表示样本i与样本j的特征向量,d(xi,xj)代表样本i与样本j之间的欧式距离,参数ρ是比例常数用以控制指数衰减速度,ξi,j用来矫正度量误差:

其中,Ni与Nj分别是样本i与样本j的邻居节点的集合,μ(d(xi,Ni))表示样本i与其邻居之间距离的均值,μ(d(xj,Nj))表示样本i与其邻居之间距离的均值;

对于上述的相似度矩阵只保留每个样本与其最近邻的信息形成每个数据源的局部相似度矩阵:

其中,S为所求的局部相似度矩阵,S(i,j)代表矩阵S第i行第j列的元素,Ni是样本i的邻居节点的集合,变量k用来遍历样本i的邻居节点集合,W(i,k)表示W矩阵第i行第k列的元素;

2)通过优化模型进行相似度网络的融合,得到一个全局的相似度网络;进行不同源数据的相似度网络的融合,包括以下步骤:

2.1)建立优化模型

假设有C个不同组学的数据源,根据步骤1)生成了对应的局部相似度矩阵Si(i∈1,...,C),希望计算得到全局的相似度矩阵W,为此基于不同路径度量下的各个数据源的一致性约束设计了如下的优化目标函数:

其中,C为数据源的数量,W为全局的相似度矩阵,Ωi为一个和W同纬度的矩阵,Ωi中对应Si中不为0的位置的值为1其他位置为0,Si代表i个来源的局部相似度矩阵,Sj代表j个来源的局部相似度,|| ||F代表矩阵的Frobenius范数,*为矩阵Hadamard积即矩阵元素对应相乘,α和β是衡量不同路径下的约束的权重的参数,由人工设定;

2.2)模型求解

使用一致性交替乘子法ADMM对于上述优化目标进行求解,通过引入变量W1,...,WC,将优化目标改写成:

subject to

Wi=W,i=1,...,C

其中,Wi为引用的中间变量,通过改写,能够使用ADMM的可分特性将问题改为处理C个子问题,进行迭代求解每一次迭代过程中的目标变为:

其中,t为迭代次数,λ为拉格朗日系数,Wi(t)表示第t次迭代中变量Wi的值,Wi(t-1)表示第t-1次迭代中变量Wi的值,为t次迭代过程中的对偶变量,为t-1次迭代过程中的对偶变量,W(t-1)为t-1次迭代过程后求出的全局相似度矩阵W的值,在每一次迭代后计算出Wi(t-1),i=1,2,...C然后令

W(t)即为t次迭代所求得的全局相似度矩阵W,每个子问题都是可导的凸函数所以计算Wi(t)按照如下公式:

其中,I是一个n×n全一矩阵,n为样本数量;重复上述迭代过程直至收敛即得到了步骤2.1)优化过程的解,收敛条件为两次迭代优化目标的差异小于10-6

3)基于全局相似度网络进行样本的分型;

使用传统的谱聚类算法结合一致性聚类对步骤2)求出的全局相似度矩阵进行聚类,以得到稳定的样本分型,其包括以下步骤:

3.1)谱聚类:通过输入的全局相似度矩阵W计算其拉普拉斯矩阵L,L=D-W,其中D为对角矩阵,对角线上的元素W矩阵中对应行或列的和,对于L做归一化计算其前K个最小特征对应的特征向量形成特征矩阵,对于特征矩阵做kmeans聚类得到聚类结果;

3.2)聚类数目选择:通过聚类结果的轮廓系数进行衡量,对于每一个样本i,其轮廓系数S(i)计算公式如下:

其中,a(i)为样本i到同簇其他样本的平均距离,b(i)为到其他簇所有样本的平均距离,最终选择所有样本的轮廓系数均值最接近1的聚类数量;

3.3)一致性聚类:使用步骤3.1)的谱聚类算法进行50次聚类得到50次的划分形成划分矩阵后,运用谱聚类得到最终的聚类结果;

4)根据分型结果回溯原始数据中的特征;

使用多集群特征选择方法MCFS通过全局相似度矩阵W按照上述谱聚类的做法得到特征向量矩阵后,特征向量反馈到原始数据的问题能够转换为一个一范数正则项的回归问题,根据回归得到的系数向量计算该特征的权重最终实现特征选择,回归模型如下:

其中,yk为第k个特征向量,X代表源数据矩阵,XT代表X的转置,αk是长度等于源数据矩阵特征的向量,即第k个特征向量对应的回归系数,|| ||代表向量的二范数即各个元素平方之和再开根号,| |代表向量的一范数即各个元素绝对值之和,随后计算特征的MCFS分数αk,j即为αk的第j个元素;将所有特征的MCFS分数降序排列根据设定的阈值进行特征选择。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910174117.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top