[发明专利]对重构基因组尺度代谢网络进行模块划分的方法有效
申请号: | 201410692571.6 | 申请日: | 2014-11-27 |
公开(公告)号: | CN104376233B | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 郝彤;于爱玲;孙金生 | 申请(专利权)人: | 天津师范大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 天津市杰盈专利代理有限公司12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 尺度 代谢 网络 进行 模块 划分 方法 | ||
本发明由国家自然科学基金(NO.21106095)、天津师范大学引进人才基金,及天津市“三年时间引进千名以上高层次人才”项目资助。
技术领域
本发明属于网络模块划分的生物信息学技术领域,涉及对重构基因组尺度代谢网络进行模块划分的方法。
背景技术
网络模块划分,即网络解耦,是指将一个复杂网络分解为结构和功能独立的子集(称为模块)的过程。随着基因组测序等的高通量技术的快速发展,海量的生物学数据产生并积累起来,这使得构建大规模生物网络并将之表示成复杂结构的生物系统成为可能。这些生物网络通常具有很大的规模(可能包含上千个节点)并且由于生物功能的复杂性,网络内部往往高度互联。通过直观的简单分析或统计分析很难利用这些复杂网络得到有用的信息。因此,为了深入地对网络进行功能分析,需要一种方法来分解大规模网络并确定其功能模块。由于生物网络结构是功能的反应,而且已经从拓扑结构上证实许多网络是按照子模块层次化的方式组织起来的。因而更多的算法倾向于完全从网络拓扑结构出发将网络分解成子模块,使各个模块具有一定的结构独立性。网络中的模块是指在网络中内部连接紧密但是外部连接稀疏的节点集。现在有不同的从拓扑结构出发的网络解耦方法被开发出来用于确定复杂网络中的模块。这些解耦方法能够划分为两组[1]:一组是层次式聚类方法,另一组是非层次式聚类方法。
层次式聚类方法:
层次式的聚类方法分为两组:一组是凝聚的方法,该方法通过相似性计算找到网络中密切相关的节点,再一步步将节点合并起来直至所有节点形成一个大模块。这种合并过程经常表示为聚类树,功能模块可以通过在某个水平上切割聚类树来得到[2];另一组方法称为分裂的方法,这种方法建立在如何有效地分解网络(网络鲁棒性分析)的基础上,通过找到位于模块之间的节点或边,通过移除这些节点或边将网络分解为独立的模块[3]。
在这两种方法中,模块化指标都发挥了重要的作用。模块化指标主要用于描述网络分解为结构和功能独立模块的程度。对于复杂网络,Newman和Girvan将模块化指标定义为[4]:
其中eii表示模块i中边所占的分数,计算为模块中的边数(li) 除以网络中的总边数(L),ai是表示模块内连结性的参数,计算为模块内节点的度之和(dj)除以整个网络的度之和(等于变数的两倍)。不同的网络分解结果具有不同的模块化指标值,因而模块化指标可以作为确定使模块化指标最大化的最佳分解的一个准则。
凝聚的网络分解方法(自上而下的生物网络解耦)首先生成具有层级结构的聚类树,然后通过在特定水平上对树进行水平切割得到网络模块。在不同水平上的切割会产生具有不同模块化指标的划分结果。最好的结果应当是产生最高模块化指标的切割方法。然而,网络的潜在解耦结果是受树的结构限制的,当切割线移动到聚类树较高的水平上时只有相邻的分支能够合并。因而,通过对聚类树的切割得到的具有最大模块化指标的最优解实际上是基于非常有限的解空间得到的,这个最优解可能离全局最优解相去甚远。
相似地,模块化指标也可以用于确定在分裂的网络解耦方法(自下而上的生物网络解耦)中,为了得到最优解需要移除多少边和节点。之前的研究表明介数中心性(betweeness centrality)是确定节点或边致死性的有效方法,因此,通过移除哪些高介数中心性的节点或边,能够有效地将网络分解为独立的模块。当网络中的移除的边达到一定数量时模块化指标会达到最大值,当超过这个数量时,由于网络被分解为许多小模块,模块化指标会降低。因此,基于模块化指标我们能够确定网络的最优解耦方案。然而,该方法与凝聚的网络解耦方法具有相同的问题,具有“最大”模块化指标的最优解实际上是从移除不同数量的点或边得到的有限的解空间中确定的,很有可能这样的“最优”解并不是全局最优解耦方案。
非层次式聚类方法:
非层次式聚类方法主要包括通过最大化模块化指标进行网络解耦的Newman算法[5]和通过直接最大化模块化指标进行网络解耦的模拟退火算法[6]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410692571.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动清洁LED路灯
- 下一篇:一种LED模组
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用