[发明专利]一种构建基因调控网络的方法在审
申请号: | 201811104840.7 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109215735A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 唐东明 | 申请(专利权)人: | 西南民族大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B25/00;G16B40/00;G16B5/00 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 刘凯 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 基因表达数据 基因调控网络 最大信息 非线性关系 边缘数据 聚类信息 条件计算 先验知识 信息损失 复杂度 精细化 保留 度量 聚类 修剪 网络 调控 | ||
1.一种构建基因调控网络的方法,其特征在于,包括以下步骤:
步骤1:对原始的基因表达数据进行预处理,然后采用最大信息系数计算两个观测序列之间的距离;
步骤2:根据获得的两个观测序列之间的距离信息采用密度峰值聚类分析算法进行聚类分析;
步骤3:根据聚类结果分析局部结构与条件通路,然后进行调控网络的构建并进行相应的修剪;
步骤4:结果展示。
2.根据权利要求1所述的构建基因调控网络的方法,其特征在于,所述采用最大信息系数计算两个观测序列之间的距离的方法包括:
针对X,Y为两个观测序列,将成对的观测序列值组成一个有限集合D,将X观测序列的数据投影到横轴,Y观测序列的数据投影到纵轴;横轴被划分成x列,纵轴被划分y列,则二维空间即被划分成x×y的网格,对x列y行划分的不同网格G所能获得的最大互信息表示为:
I*(D,x,y)=maxI(D|G);
两个观测序列的最大信息系数,即在各种不同划分格数下所能获得最大的值表示为:
其中,B(n)为最大划分格数;
将获得的两个序列的MIC值取负值即为两个序列之间的距离。
3.根据权利要求1所述的构建基因调控网络的方法,其特征在于,所述步骤2具体包括:
在确定基因数据类别归属时,对同时拥有较大δ值和较小ρ值的基因直接抛弃;
在采用层次子树的方式逐层递推的过程中采用树形数据结构记录下递推关系;
将聚类结果中的halo数据抛弃掉,以减小数据的规模;
剩余的基因则为core基因。
4.根据权利要求1所述的一种构建基因调控网络的方法,其特征在于,所述进行调控网络的构建并进行相应的修剪具体包括:
步骤a:输入前一步基因聚类结果;
步骤b:对core基因构建完全图;
步骤c:对最大信息系数较低的边进行删除;
步骤d:根据层次递推关系,分别以条件路径中的基因作为条件计算条件最大信息系数,计算出的值较低则进行删除路径操作;
步骤e:按照条件层级依次增加条件,计算条件最大信息系数,值较低则进行删除路径操作;
步骤f:提取类间core基因最相似的基因,以此为条件基因分析构建类间调节通路,按照条件层级依次增加条件,计算条件最大信息系数,值较低则进行删除路径操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南民族大学,未经西南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811104840.7/1.html,转载请声明来源钻瓜专利网。