[发明专利]基于回溯法和动态规划法的生物网络模体识别方法有效
| 申请号: | 201510149851.7 | 申请日: | 2015-03-31 |
| 公开(公告)号: | CN104715167B | 公开(公告)日: | 2017-07-11 |
| 发明(设计)人: | 张强;宋晓利;周昌军;王宾 | 申请(专利权)人: | 大连大学 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18 |
| 代理公司: | 大连创达专利代理事务所(普通合伙)21237 | 代理人: | 温宏梅 |
| 地址: | 116622 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 回溯 动态 规划 生物 网络 识别 方法 | ||
技术领域
本发明涉及基于回溯法和动态规划法的生物网络模体识别方法,具体讲的是通过动态规划法调用已搜索到的子图来搜索其他节点的子图,并在搜索子图过程中使用回溯法的生物网络模体识别方法,其属于生物网络模体识别领域。
背景技术
随着人类基因组计划的完成,我们进入了后基因组时代。在后基因组时代生物信息学的主要任务是探索一个活细胞内所有粒子以及这些粒子之间的关系,这些粒子之间的关系组成了复杂的生物网络。近些年来,研究者们一直专注于研究这些复杂的生物网络。网络模体已经被证实为在这些生物网络中具有基本功能的单位。学习网络模体是功能基因组学的一个热点,也是生物信息学研究的的一个热点。模体识别的意义在于运用各种数学模型和人工智能技术来分析生物数据,发现未知的生物学定律,理解生命的本质。
模体是Milo等人在2002年第一次提出的,它表示一个网络中最小的单元。后来,越来越多的模体识别方法被提出来。在2003年,日本的研究者们提出了著名的KEGG数据库,这些学者主要通过系统生物学的方法研究新陈代谢网络。在2004年,Kashtan等人提出了ESA方法,ESA是Milo提出方法的改进方法,主要改进的地方在子图搜索部分。首先从给定的图中选择随机选择一条边作为基本边,然后选择其他边扩展子图直到达到相应大小。然而随着图节点的增多,ESA的性能将急剧下降。在2006年,Wernicke提出了一个新的模体识别方法-ESU,这是一个高效的搜索方法。不久以后,他又提出了另一个方法RAND-ESU,这个方法的效率也相当高,并且它有一个界面良好的软件平台可供研究使用。在2011年,HU提出了一个基于特征选择的方法,该方法能够通过子图同构准确的将子图分类,还可以给出每个子图独一无二的编码并且不同构的子图不会拥有相同的编码。然而,随着子图越来越大和密集,搜索节点的位移空间将快速膨胀。在2014年,Zhang提出基于空间压缩的模体识别方法,他们根据同位点的特点压缩了真实图和随机图的搜索空间和存储空间。通过这种方式,他们的方法可以以很快的速度识别模体并且方法的稳定性要高于其他方法。
本文提出将动态规划思想用于模体识别并对搜索子图过程中使用的回溯法进行了一定的改进。首先,我们通过逐渐增加节点和边的方式搜索出所有的3节点子图以及他们的相关点和相关边并将他们作为中间变量保存,然后基于动态规划思想,在搜索n+1节点子图时调用n节点子图以及相应的相关点和相关边。通过这样的方式我们能以高效率和高准确性搜索出所有的子图。最后我们使用生物网络和非生物网络来验证我们的方法,生物网络包括Sea Urchin,protein2,protein,非生物网络包括S838,S420和S208。
发明内容
本发明的目的在于提出一种基于回溯法和动态规划的生物网络模体识别方法,将回溯法和动态规划法用于生物网络模体识别,搜索出更多数目的有效子图,并有效提高了子图搜索的效率,从而能更加准确的识别出模体。
本发明的技术方案为:首先通过逐步增加节点和边的方式搜索出最小规模的子图,然后利用动态规划思想调用已搜索到的子图及其相关点相关边来搜索其他节点的子图,这样就可以搜索出所有相应节点的子图;其具体步骤如下:
1)读入输入图,将输入图信息转化为计算机语言识别的格式,获取其关联矩阵和信息矩阵等信息;
2)选择编号为1的顶点作为起始点,然后通过逐渐增加节点和边的方式获得输入图的所有3节点子图,同时将每个3节点子图的相关点和相关边作为中间变量保存起来,以备调用。
3)通过动态规划法调用已搜索到的n节点子图及其相关点相关边来搜索n+1(n>=3)节点子图,直到n节点子图全部调用完,存储搜索到的n+1节点子图,同时将n+1节点子图以及他们的相关点相关边作为中间变量保存起来,以备调用。重复步骤3,获得所有想要搜索的子图。其详细步骤如下(1)-(8):
(1)首先调一个n节点子图,判断n节点子图是否全部调用完;如果没有调用完,转到(2);如果调用完,则完成n+1节点子图的搜索,进入下一个节点子图搜索,结束;
(2)判断是否所有的相关点都进行了判断;如果所有的相关点都判断结束,则调入下一个n节点子图及其相关点和相关边,转到(1);如果没有结束,转到(3);
(3)判断当前子图节点数有没有达到n+1个,如果达到,则说明完成一个子图的搜索,子图数目加1,转到(4);没有达到,转到(5);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510149851.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种计算机系统的安全防护方法及装置
- 下一篇:一种建筑节能潜力动态评估方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





