[发明专利]高热稳定性酶的蛋白序列生成方法、装置、介质和设备在审
申请号: | 202110726343.6 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113539374A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 罗小舟;余函 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B25/00;G16B30/00 |
代理公司: | 深圳市铭粤知识产权代理有限公司 44304 | 代理人: | 孙伟峰;刘燚圣 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高热 稳定性 蛋白 序列 生成 方法 装置 介质 设备 | ||
本发明公开了一种高热稳定性酶的蛋白序列生成方法、装置、介质和设备。所述蛋白序列生成方法包括:获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;利用所述蛋白序列生成模型生成批量蛋白序列数据。本方法利用现有的耐受温度大于预定值的特定类酶的蛋白序列数据训练生成式对方模型,得到蛋白序列生成模型,可以批量生成高热稳定的特定类酶的序列,生成方法简单,仅从蛋白序列出发且在计算机上完成设计,并可进一步按相似性分布进行实验验证,结果可靠性更强且容易分析。
技术领域
本发明属于生物医药技术领域,具体地讲,涉及一种高热稳定性酶的蛋白序列生成方法、蛋白序列生成装置、计算机可读存储介质、计算机设备。
背景技术
高热稳定性的酶在生物燃料、生物化工等领域有着极其重要的作用。传统的获取方法主要是通过从嗜热菌中进行分离,并通过实验验证、改进和优化后投入工业使用。但是传统的分离方法分离得到的酶数量有限,无法满足工业上特定场景上越来越丰富的需求,从头设计一些全新的高热稳定性的酶就变得尤为重要。目前的两类主流方法,一类是基于理性设计的方法,主要是通过结构化修饰进行改造,另一类则是基于定向进化的方法,但是这些改造的能力具有一定的局限性,获得的高热稳定性的酶数量有限。其中,基于理性设计的方法需要对酶结构等信息较为详细的了解,对已有的改造方法非常熟悉,改造过程较为复杂,同时很难批量生成;基于定向进化的方法通过建立随机突变库从中筛选对应的酶,但该方法成功率较低,且工作量巨大,很难批量进行生成。同时,两类方法都没有从理论的角度对序列进行系统性的比较分析。
因此,亟待开发一套能批量设计全新的高热稳定性的酶的方法。
发明内容
(一)本发明所要解决的技术问题
本发明解决的技术问题是:如何快速批量化地生成高热稳定性酶的蛋白序列。
(二)本发明所采用的技术方案
一种高热稳定性酶的蛋白序列生成方法,其特征在于,所述蛋白序列生成方法包括:
获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;
利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;
利用所述蛋白序列生成模型生成批量蛋白序列数据。
所述生成式对抗网络模型包括生成器和判别器,所述利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型的具体方法包括:
将随机噪声输入到生成器,生成器输出生成数据,从所述训练样本中选取部分数据作为真实数据;
将所述生成数据和所述真实数据共同输入至所述判别器中,判别器输出判别结果;
根据判别结果调整所述生成器和所述判别器的网络参数,以完成一轮训练;
重复上述训练步骤直至满足预定训练条件,以获得所述蛋白序列生成模型。
优选地,获取训练样本的方法包括:
获取耐受温度大于预定值的各种微生物的蛋白组序列;
从所述蛋白组序列中确定与所述特定类酶处于同一类别下的目标酶,并提取出所述目标酶的目标蛋白序列;
利用序列聚类算法对所述目标蛋白序列进行聚类处理得到多个类簇的蛋白序列,选择类簇大于阈值的蛋白序列作为训练样本。
优选地,所述训练样本还包括与所述特定类酶处于同一类别下的初始样本酶的蛋白序列数据,在利用所述利用训练样本对预先构建好的生成式对抗网络模型进行训练之前,所述蛋白序列生成方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726343.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可分配风量的集成灶及其控制方法
- 下一篇:半导体器件及其形成方法