[发明专利]一种基于有偏采样的蛋白质结构预测方法有效
| 申请号: | 201810993749.9 | 申请日: | 2018-08-29 | 
| 公开(公告)号: | CN109300505B | 公开(公告)日: | 2021-05-18 | 
| 发明(设计)人: | 张贵军;王小奇;郝小虎;周晓根;马来发;胡俊 | 申请(专利权)人: | 浙江工业大学 | 
| 主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B40/00 | 
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 | 
| 地址: | 310014 浙江省*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 采样 蛋白质 结构 预测 方法 | ||
一种基于有偏采样的蛋白质结构预测方法,在遗传算法的基本框架下,对每个目标个体进行基于二级结构的有偏交叉策略;然后,随机选择一个变异窗口,以每个片段的二级结构得分为适应值,利用轮盘赌的方式选择一个适应值较高的片段来替换构象中的片段信息;最后,以构象的结构属性为主,能量属性为辅共同来指导种群的更新,进而选出潜在的构象进入下一代种群。本发明提出一种预测精度高、计算代价低的基于有偏采样的蛋白质结构预测方法。
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于有偏采样的蛋白质结构预测方法。
背景技术
生物领域高通量的基因数据以及蛋白质测序技术的飞速发展,使蛋白质结构测定技术面临前所未有的挑战。利用计算机的强大处理能力解决蛋白质结构预测问题是一项紧迫而现实的解决方案。而从头预测方法从氨基酸序列准确的预测蛋白质的三维结构是该领域中难度最高、意义最大、影响深远的问题之一。
在生物信息学中,蛋白质结构预测是一个组合优化问题。而由于能量函数的不准确性,导致优化目标难以准确量化,增加了该问题的求解复杂性。同时,蛋白质结构预测中解的构成不完整,解的长度不唯一,更加增大了求解的难度。目前常见的预测方法往往侧重能量函数的作用,而弱化搜索策略研究。而从头预测蛋白质结构最主要的问题就在于采样:天然结构和非天然结构相比具有最低自由能,但是我们却很难在巨大的构象空间中确定天然结构这一唯一的构象。
由于采样算法在从头预测中的重要性,所以许多研究者针对这一问题开发了多种针对蛋白质三维结构的采样算法,比如遗传算法、结构空间模拟退火、和分子动力学模拟采样。近几年的CASP比赛结果表明,Rosetta可以说是目前蛋白质结构从头预测领域最成功的方法,其核心的算法在于使用已知结构的蛋白质片段,通过蒙特卡罗的方法进行组装,产生接近天然结构的蛋白质构象。对于序列长度较短的,Rosetta已经能够很好的采样出非常接近天然结构的构象。但是对于更长的序列,更复杂的结构,却预测精度不高。
因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法中采样效率低、预测精度较低的不足,本发明提出一种采样效率较高、预测精度高的基于有偏采样的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于有偏采样的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息,利用ROSETTA平台构建9片段的片段库;
3)选取Rosetta score3能量函数E(x);
4)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,交叉片段长度c;
5)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Ps}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
6.1.1)产生一个随机整数r∈[1,l-c],确定出交叉区域[r,c+r],其中l为序列长度;
6.1.2)根据预测的二级结构知识,确定出目标蛋白在区域[r,c+r]中对应的二级结构Src={qk|r≤k≤r+c},其中,qk∈{H,E,L}是在目标蛋白中预测的第k氨基酸对应的二级结构类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810993749.9/2.html,转载请声明来源钻瓜专利网。





