[发明专利]一种基于谱知识从局部到全局的蛋白质结构预测方法在审
申请号: | 201610139514.4 | 申请日: | 2016-03-11 |
公开(公告)号: | CN105808972A | 公开(公告)日: | 2016-07-27 |
发明(设计)人: | 张贵军;俞旭锋;周晓根;郝小虎;王柳静;李章维 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于谱知识从局部到全局的蛋白质结构预测方法,包括以下步骤:首先,对于查询序列通过多特征无缝穿线法获取高质量片段库,基于片段库通过统计一致性分析获取残基‑残基间的距离谱知识;然后,将查询序列分为根据距离谱中记录的残基信息分为几段结构;之后,针对每一段结构通过片段组装得到能量较低且残基‑残基间的空间距离逼近距离谱中预测距离;最后,对于未分段结构进行片段组装,计算全局能量,得到能量低且结构更为合理的亚稳态构象。本发明构象空间采样能力较好、预测精度高。 | ||
搜索关键词: | 一种 基于 知识 局部 全局 蛋白质 结构 预测 方法 | ||
【主权项】:
一种基于谱知识从局部到全局的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)给定查询序列信息;2)从蛋白质数据库网站上下载分辨率小于
的高精度蛋白质,其中
为距离单位,
根据序列比对算法NW‑Align去除序列相似度大于30%的氨基酸链,得到非冗余蛋白质模板库;3)根据多特征相似度函数:
通过无缝穿线法比对非冗余模板库中的蛋白质链相对于查询序列每个残基位置上的得分f(i,j),其中i为查询序列残基位置,j为片段结构;在f(i,j)中,下标q表示查询序列特征得分项,下标t表示模板蛋白质特征得分项,Pq(i,k)为查询序列通过PSI‑BLAST得到的序列频率谱,其中k为预设数量氨基酸类型;Lq(i,k)和Lt(j,k)是通过PSI‑BLAST得到的查询序列和模板序列对数谱;sst(j)为模板蛋白质二级结构分类,由DSSP计算得到;ssq(i)为查询序列二级结构分类,由二层神经网络训练可得;sat(j)和saq(i)为模板结构和查询序列的溶剂可及性指标,由EDTSurf和神经网络程序训练得到;
ψq(j)为查询序列二面角对可以通过二层神经网络训练得到;
ψt(j)通过查询蛋白质字典得到;SPt(j,k)为模板蛋白质的结构谱;w1、w2、w3、w4和w5为权重值;4)根据相似度得分f(i,j)选取查询序列每个位置上得分最高的M个片段得到片段库文件;5)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于
的残基对之间距离,画出直方图得到距离谱,直方图横坐标的距离间隔为
当模板中残基对之间的距离在某个区间内,则该区间总数就加1,若折线图在
内的某个距离区间出现峰值,则该峰值对应的距离区间即为目标序列中残基i到残基j的预测距离,记录下该分布即为两残基间的距离谱(profile);6)根据所得距离谱中残基的位置,将查询序列分为n段;7)令l=1,l∈{1,2,3,…,n},对分段结构执行以下操作:7.1)对第l段片段结构进行片段组装;7.2)计算其中含有距离谱信息的残基位置间的距离,并与预测距离求偏差,累加偏差值并取平均记为ΔD;7.3)若ΔD<R,则将该构象存储记为cell,其中R为结构精确度约束条件;7.4)重复7.1)到7.3)直至存储cell个数达到x个cell,基于Rosetta Score 3比对cell中分段结构的能量,选取能量最低的结构即为该分段的预测结构;7.5)l=l+1,判断l是否大于等于n,是则进入8),否则返回到7.1);8)设置迭代次数为G,令s=1,执行以下操作:8.1)计算目标诱导构象能量E(Ptarget);8.2)对未分段结构进行片段组装,计算能量值E(Ptrail);8.3)若E(Ptarget)>E(Ptrail)则用Ptrail替换Ptarget;8.4)s=s+1;判断s是否大于等于G,是则进入9),否则返回到8.1);9)输出诱导构象,得到查询序列近天然态结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610139514.4/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用