[发明专利]一种基于树搜索和片段组装的蛋白质结构预测方法有效
申请号: | 201410138175.9 | 申请日: | 2014-04-08 |
公开(公告)号: | CN103984878B | 公开(公告)日: | 2017-01-18 |
发明(设计)人: | 张贵军;陈铭;秦传庆;郝小虎;周晓根;梅珊;李章维 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于树搜索和片段组装的蛋白质结构预测方法,包括以下步骤A1、获取蛋白质的pdb格式的文件并清洗出所需数据;A2、生成片段库;A3、选取力场模型;A4、采用Rosetta的score3能量函数;A5、将整个能量图景离散化,并将每层进一步离散化,分成单独的分块区,每次搜索根据能量的权重随机选取一个能量层,并在该能量层依概率选取一个分块区,如果分块区中包含有构象,采用片段组装方法,随机选取序列上的一个片段,然后在片段库中随机选取一个片段,替换序列上的目标片段,用蒙特卡洛准则来判断是否接受这个构象,如果接受则将它放入一个集合当中。本发明可以大大减少计算量和计算时间,保证搜索到能量较低的构象。 | ||
搜索关键词: | 一种 基于 搜索 片段 组装 蛋白质 结构 预测 方法 | ||
【主权项】:
一种基于树搜索和片段组装的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:A1、获取蛋白质的pdb格式的文件并清洗出所需数据;A2、生成片段库;A3、选取力场模型,力场模型表示形式如下:Eprotein=Winter repEinter rep+Winter atrEinter atr+WsolvationEsolvation+Wbb/sc hbEbb/sc hb+Wbb/bb hbEbb/bb hb+Wsc/sc hbEsc/sc hb+WpairEpair+WdunbrackEdunbrack+WramaErama+WreferenceEreference (1)式中,Eprotein表示蛋白质的总能量,Einter rep表示范德华排斥力作用,Winter rep为Einter rep在整体的权重,Einter atr表示范德华吸引力作用,Winter atr为Einter atr在整体的权重,Esolvation为Lazarids和Karplus描述的隐含的溶解作用,Wsolvation为Esolvation在整体的权重,Ebb/sc hb、Ebb/bb hb、Esc/sc hb为依赖方向的氢键能量,Wbb/sc hb、Wbb/bb hb、Wsc/sc hb分别为其能量在整体的权重,Epair为残基对静电作用,Wpair为Epair在整体的权重,Edunbrack为氨基酸基于旋转异构体库的内部的能量,Wdunbrack为Edunbrack在整体的权重,Erama为参考特定位置的Ramachandrin骨链扭力,Wrama为Erama在整体的权重,Ereference为未折叠态的蛋白质的参考能量,Wreference为Ereference在整体的权重,Rosetta的能量函数就是将所有的能量项通过各自的权重线性相加;用于计算能量层的权重W(l)的公式:W(l)=Eprotein2+1.0222---(2)]]>W(l)为第L层的权重值,Eprotein是蛋白质构象的能量值,该能量层被选中的概率P(l)为:P(l)=W(l)Σl=1100W(l)---(3)]]>某一个分块区被选中的的概率P(cell)为:P(cell)=1.0[(1.0+nsel)*nconfs]---(4)]]>其中nsel记录的是该分块区被选中的次数,nconfs记录的是绑定到该分块区上的构象的数目;A4、选取能量函数,采用Rosetta的score3能量函数;A5、蛋白质结构预测过程如下:Step1:初始化工作,导入各种程序运行所需的包和模块,氨基酸序列的初始化,创建相应的文件夹存放低能量的构象和相关数据和图表,创建MC对象和Mover对象;Step2:进入迭代循环,给定迭代次数,由迭代次数控制循环次数;Step3:根据权重函数选择相应的能量层,权重函数列表由公式(2)动态生成并扩展,Eprotein由score3函数计算得出并放入一个能量列表中;Step4:依概率随机选中特定的分块区,概率由公式(4)计算得出;Step5:首先判断该分块区中是否存在构象,如果存在则取出该构象;Step6:对取出的蛋白质构象进行扰动,也就是片段组装,随机选取该构象中的一段长度为3的片段,然后随机选取片段库中与其序列相同的片段,其本质就是替换该片段的3个二面角的值;Step7:用蒙特卡洛评判标准判断构象是否接受;如果接受则放入集合,不接受则跳转到Step2,进入下一次迭代,直到循环次数达到设定的循环值则停止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410138175.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种电气产品全自动智能识别分拣系统
- 下一篇:一种大电流检测电路以及电源电路
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用