[发明专利]一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置在审
申请号: | 202011498422.8 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112614538A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘向荣;张悦;曾湘祥;林剑远;赵连敏 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B30/10;G16B35/00;G16B40/00;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蛋白质 训练 表征 学习 抗菌 预测 方法 装置 | ||
本发明公开了一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置,所述方法包括以下步骤:步骤S1:采用预训练策略,对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理,进行掩盖语言模型和句子连续性预测两个任务的预训练,捕捉词语级别和句子级别的表示,帮助模型学习蛋白质序列通用的结构化特征;步骤S2:针对抗菌肽预识别和预测任务,更改预训练模型的输出层,使用带标签的抗菌肽数据集对模型进行微调,生成抗菌肽预测模型;步骤S3:根据抗菌肽预识别和预测任务,采用抗菌肽预测模型进行识别,输出预测结果。本发明将预训练应用到抗菌肽识别和预测领域,基于已知的数据量小、分布不均衡的抗菌肽序列,建立高效的抗菌肽预测模型。
技术领域
本发明涉及抗菌肽组分的计算机识别技术领域,尤其涉及一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置。
背景技术
由于抗生素的滥用,致病菌抗药性问题日趋严重,已经成为影响人类健康的巨大威胁。寻找抗生素的新原料是保护人类健康的有效途径。作为生物机体天然免疫系统的重要组成部分,抗菌肽(AMP)是一类在自然界生物中广泛存在的小分子多肽,通过破坏细胞膜、干扰DNA的复制和转录过程等方式杀灭靶菌,对细菌、病毒、真菌、寄生虫、肿瘤细胞具有一定的抑杀作用。由于具有抗菌活性高,作用效果稳定,靶菌株不易产生抗药性,无药物残留等许多优点,抗菌肽被视为抗生素的最佳替代品。
由于识别抗菌肽的实验方法成本高、难度大,因此越来越多的研究集中在用计算方法解决这个问题。
科研工作者陆续建立了多个抗菌肽数据库,收录了各种来源各种类型的抗菌肽数据,如APD、CAMP、AVPdb等,极大地方便了抗菌肽的研究。使用者可以通过查询,从数据库中获得抗菌肽的氨基酸序列、理化性质、功能注释等信息,还可以使用其提供的检索、序列比对、预测分析等工具对数据进行处理。
目前,抗菌肽的计算机辅助识别方法可分为基于经验分析的方法和基于机器学习的方法。
基于经验分析的方法以确定类型的抗菌肽为模板,利用已知的经验规则对肽链特征与抗菌活性间之间的关系进行统计分析,建立模型,本质上是识别待测序列是否具有训练集的某些特定特征。该方法在预测抗菌肽序列上十分有效,缺点是比较依赖训练集现有的语义模式,难以迁移到其他类别的抗菌肽上。
研究人员已经提出了许多基于机器学习来鉴定和预测抗菌肽的方法。例如,FjellC D等人构建了一个用于AMP聚类和分析的隐马尔可夫模型(HMM);Lata S等人使用支持向量机(SVM)来预测和分类AMP;Xiao X等人开发了基于模糊K最近邻(FKNN)的AMP分类器;Chang K Y等人首次将随机森林应用到抗病毒肽(AVPs)的预测中。这些研究表明,氨基酸序列本身包含了其是否具有抗菌活性的关键信息。
大多数现有的计算方法可以通过序列本身识别抗菌肽,但由于已知的抗菌肽的数据量比较少,识别准确率仍有提高空间,且存在构建的模型不能在各数据集中通用的问题。因此,如何提高识别和预测精度,如何构建在不同数据集上可快速迁移的通用模型是需要探索的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011498422.8/2.html,转载请声明来源钻瓜专利网。