[发明专利]基于超图表征与狄利克雷分布的多组学关联表型预测方法在审

专利信息
申请号: 202210544114.7 申请日: 2022-05-19
公开(公告)号: CN114927162A 公开(公告)日: 2022-08-19
发明(设计)人: 王浩华;高建;林恺;张强;何昆仑;石金龙 申请(专利权)人: 大连理工大学
主分类号: G16B20/00 分类号: G16B20/00;G16H50/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 辽宁鸿文知识产权代理有限公司 21102 代理人: 许明章;王海波
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 超图 表征 狄利克雷 分布 多组学 关联 表型 预测 方法
【权利要求书】:

1.一种基于超图表征与狄利克雷分布的多组学关联表型预测方法,其特征在于,步骤如下:

步骤(1)组学数据清洗与预处理

各组学数据需要剔除原始数据中的冗余噪声,然后进行特征的预选择,预选择方法如下:

首先,过滤掉数据集中方差小于阙值α的特征;

其次,针对每种表型标签依次执行公式(1)的t假设检验同类标签的各样本组学数据间是否存在显着差异,t值大于阙值γ的样本做删除处理,其中为样本均值,μ代表样本期望,σ(x)表示样本的标准差,n表示样本数;

最后,因为不同的组学数据类型具有不同的表达范围,通过线性变换将表达值进行缩放至[0,1],输出为预处理的特征矩阵X;

步骤(2)构建组学数据的超图结构

(2.1)一个超图定义为G=(V,E,W),由顶点集V={v1,v2,…,vm}和超边集E={e1,e2,…,el}组成,W是超边的权矩阵,代表每条超边的重要程度;在超图中,每个顶点对应于一个样本,每个超边包含了V的任意子集;通过对步骤(1)输出的特征矩阵X进行余弦相似度运算来衡量组学内特征间关系;

将不同样本视为不同向量,并使用公式(3)获得余弦相似度度量矩阵以向量间角度差异衡量其近似程度;

其中,xi代表特征矩阵X中第i例样本的具体特征向量;

(2.2)根据得到的余弦相似度度量矩阵对样本进行KNN聚类;由于向量间的余弦值随着角度增大而减小,KNN聚类过程会返回相似度矩阵中每行最大的k个值的索引,这些索引构成该超图顶点的超边集合e,并将这k个索引在矩阵中置为1,其余索引则置为0;以此构造出矩阵H可以表示为超图G的关联矩阵,定义为:

以此延伸,顶点的度Dv定义为:

其中w(e)为该超边在权矩阵中所占权重,超边的度De定义为:

步骤(3)搭建超图卷积神经网络进行单组学的特征提取:

(3.1)首先根据拉普拉斯标准化公式构建超图关联矩阵的拉普拉斯矩阵,将超图内的抽象节点关系转化为能够作为神经网络输入的矩阵类型;

步骤(2)所构成的超图结构的拉普拉斯矩阵定义为:

其中Dv为公式(5)得到的超图的顶点度矩阵,De为公式(6)得到的超边度矩阵,H为公式(4)得到的关联矩阵,对于没有给出特定权值矩阵W的数据集默认将其定义为单位阵I,即所有超边的权值相等;

(3.2)将单种组学数据的超图拉普拉斯矩阵与预处理过的特征数据作为输入到超图卷积神经网络以执行初始预测任务;每个超图卷积神经网络的训练目标是学习输入数据与对应标签的关联关系,具体来说,模型需要以下两个输入:其中一个输入是步骤(1)的结果即预处理的特征矩阵,X∈n×d,其中n是样本数量,d是组学特征的数量;另一个输入是超图结构的描述,即公式(8)得到的超图拉普拉斯矩阵Lh∈n×n;

超图卷积神经网络HGCN模型结构通过堆叠3个卷积层与1个全连接层来构建,卷积层的维数根据特征矩阵X的维数设立,全连接层的输出维度为标签类别数;卷积层的具体定义为:

HGConv(l+1)=f(HGConv(l),Lh)

=σ(Lh(HGConv(l))Z(l)) (9)

式中HGCconv(l)为第l层的输出,Z(l)为第l层的权矩阵,当l=0时,HGConv(l)=X;σ(·)为该隐藏层的激活函数,设置为LeakyReLU函数,其中k为该激活函数的负斜率参数:

前两层卷积层后添加dropout机制,以降低模型过拟合的可能性;第三个卷积层后连接的全连接层实现特征整合;模型的输出Fo作为特征提取结果,Fo∈n×b,其中n是样本数,b为标签种类数量;

同时,支持通过HGCN对单组学数据进行对应表型的预测,即通过单个HGCN的反向传播过程,利用交叉熵损失函数训练该网络:

其中LossCE(·)表示交叉熵损失函数,y为样本标签;根据损失值LossHGCN计算梯度,并更新网络权重Z完成反向传播过程,经过数次迭代训练过程后保存的模型可实现对单组学数据与表型的关联预测;

步骤(4)基于狄利克雷分布的多组学集成算法:

对每种组学数据分别使用步骤(3)构造对应的HGCN,针对每个神经网络输出的特征结果矩阵Fo∈n×b,结合公式(12)首先构造Fo的狄利克雷分布参数矩阵αo,αijo代表αo的每个元素;据此参数计算Fo中每个元素fijo的可信度pijo组成矩阵Po,以及该组学下预测结果的不确定性参数uio组成向量Uo

αo=Fo+1 (12)

得到的单组学预测结果的可信分布矩阵Po与不确定性向量Uo进行多组学的融合预测;该过程采用经典D-S证据理论,即公式(13)的方式,实现组学间的两两信息融合:

式中,pi代表矩阵P的第i行;m设置为不小于0的值;具体来说,当m=0时,公式实现的是第一种组学预测结果P0、U0与第二种组学预测结果P1、U1的融合,得到P2、U2作为两种组学的融合结果;当m=1时,公式实现的是前两种组学融合结果P2、U2与第三种组学预测结果P3、U3的融合,得到P4、U4作为三种组学的融合结果;多组学融合方式以此类推,直到完成所有组学的融合得到P2m+2、U2m+2

待所有种类组学融合完成后,根据公式(12)反向推导出多组学融合条件下的狄利克雷分布参数α及融合预测结果F;

最后进行多组学融合预测的训练学习,采用公式(14)计算融合损失:

LossMOIA=LossrightepochLosswrong

其中,Lossright为正确标签损失函数,Losswrong为错误标签损失函数,LossMOIA为总损失函数;λepoch为根据当前已训练次数动态变化的损失权重,取值在(0,1)之间;k代表标签的某一具体种类的编号;yi代表样本标签的one hot编码中第i例样本的标签集合,yij代表onehot编码中第i例样本的第j种标签代表的元素;αi为第i个样本的狄利克雷分布参数集合,αij代表第i个样本的第j种分类结果的狄利克雷分布参数估计值;Γ(·)为伽马函数,式中t为定积分参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210544114.7/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top