[发明专利]一种基于变分贝叶斯的基因调控网络结构辨识方法在审
申请号: | 202210035654.2 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114360641A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 刘切;王浩;李俊豪;柴毅 | 申请(专利权)人: | 重庆大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06N7/00;G06K9/62 |
代理公司: | 重庆市嘉允启行专利代理事务所(普通合伙) 50243 | 代理人: | 胡柯 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分贝 基因 调控 网络 结构 辨识 方法 | ||
本发明提供一种基于变分贝叶斯的基因调控网络结构辨识方法,根据不完整和有噪声的基因表达时间序列数据中考虑基因调控网络GRN的结构推断,用含有未知噪声信息的随机非线性状态空间模型,描述了基因表达数据中的动态行为,采用变分贝叶斯VB框架来同时估计参数和基因表达水平,通过生成预测值,可以很容易地处理缺失的观测值;考虑到GRN的稀疏性,利用极端梯度增强树对平滑后的基因数据进行建模,并通过树模型中的重要性得分来识别基因间的调控相互作用。该方法能在观测值缺失的情况下,有效地恢复GRN的调控相互作用,并优于现有的GRN识别方法。
技术领域
本发明涉及基因调控网络识别领域,特别是一种基于变分贝叶斯的基因调控网络结构辨识方法。
背景技术
活细胞中基因调控网络GRN的鉴定是了解基因相互作用进行生物学研究的重要问题,是病变基因鉴定、药物开发、代谢调控等的基础。在过去的几十年里,高通量基因表达测量技术的产生提供了大量的生物数据,并使从基因表达数据中推断GRN成为可能。对于GRN的推理方法有很多,这些方法可以松散地分为两种类型。第一种类型是利用静态表达式数据构建模型,并利用聚类、互信息和相关分析进行GRN推理。一般来说,静态基因表达数据是稳态下的基因表达水平。研究基因调控相互作用的一种更精确的方法是引入一些环境扰动,并测量基因表达时间序列数据。在这种情况下,GRN是由动态数据建立起来的。与基于静态数据的GRN相比,基于动态数据的模型更加精确,这一问题受到了越来越多的关注。
注基于状态空间模型的基因调控网络GRN,其可以明确地描述基因的表达过程。由于基因表达过程是一个高度非线性的过程,当用线性模型来描述GRN时,存在一定的局限性。因此,在最近的研究中,非线性模型一直是主要使用的模型。除了非线性特征外,随机行为是GRN的另一个固有特性。在状态空间模型中,随机行为可以很容易地描述为噪声。此外,数据不完整是几乎所有基于数据的建模问题所遇到的常见现象。由于GRN推理的观测值数相对较少,因此在数据缺失时,推理精度将显著降低。
发明内容
本发明的目的就是提供一种基于变分贝叶斯的基因调控网络结构辨识方法,本发明通过对输入数据的处理,识别并预测基因表达水平。
本发明的目的是通过这样的技术方案实现的,它包括有以下步骤:
1)数据采集:从DREAM4平台的数据库中采集典型基因调控网络GRN的基因表达数据,获得采集数据;
2)构建模型:采用含有未知噪声的随机非线性状态空间模型来描述步骤1)中的采集数据中基因序列的表达过程;
3)模型参数估计:采用变分贝叶斯的方法对状态空间模型中的参数进行估计,并输出基因序列表达数据;
4)得到GRN结构:利用极端梯度提升XGBoost方法建立基因调控网络GRN的决策树模型,辨别基因间的相互作用关系,得到最终的基因调控网络GRN结构。
进一步,步骤2)中构建的随机非线性状态空间模型方法如下:
式(1)中,xt,i为第i基因在t时刻真实的基因表达值,yt,i为第i基因在t时刻的测量表达值,其中i∈[1,n],n为基因的个数,Ci为第i个基因的衰减率,Gij为第j个基因对第i个基因的调控作用,其中j∈[1,n],则Gij表示为gi=[gi1,gi2,...,gi(i-1),0,gi+1,...,gin],即第i个基因受到除自身外的其他所有基因的调控,vi为过程噪声,wi为测量噪声,f(x(t))是系统模型中的非线性方程,表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210035654.2/2.html,转载请声明来源钻瓜专利网。