[发明专利]基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法在审
申请号: | 201911365158.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111081311A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 于彬;崔晓文;王明辉;王磊 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B20/00 |
代理公司: | 昆明普发诺拉知识产权代理事务所(特殊普通合伙) 53209 | 代理人: | 葛玉军 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 蛋白质 赖氨酸 丙二酰化位点 预测 方法 | ||
本发明公开了一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,涉及生物信息技术领域。采用增强氨基酸组成、分组增强氨基酸组成、二肽偏离预期平均值、K近邻得分和BLOSUM62矩阵特征提取算法,把蛋白质序列的字符信息转化成数值向量并融合,得到特征空间,充分考虑到各潜在特征对于预测结果的影响。使用线性卷积神经网络计算得到丙二酰化位点特异性特征,通过最大池化层来选择相关特征并且降低特征维数,结合多层深度神经网络对丙二酰化位点和非丙二酰化位点进行分类,构建蛋白质丙二酰化位点预测模型DeepMal,使用10折交叉验证和独立测试数据集评估预测性能。模型DeepMal在评价指标上都取得显著的提高,有助于进一步促进深度学习在蛋白质功能预测中的应用。
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法。
背景技术
丙二酰化作为一种重要的蛋白质翻译后修饰位点,于2011年被首次发现发生在赖氨酸上的一种进化保守的蛋白质翻译后修饰类型,它的发生依赖于丙二酰辅酶A将丙二酰基团添加到赖氨酸并将其电荷从+1更改为-1。这一变化有可能破坏赖氨酸与其他氨基酸的静电相互作用并改变蛋白质结构,甚至可能影响其与靶蛋白的结合,已经被证实存在于多种代谢途径中,比如葡糖糖和脂肪酸代谢、脂肪酸合成和氧化、线粒体功能受损,还与肌肉收缩、心肌缺血和下丘脑对食欲的调控、糖尿病、癌症有关。鉴于丙二酰化的重要性,准确识别蛋白质中的丙二酰化位点是非常重要的,其可以为生物医学研究提供有用的信息,从而更好地了解分子功能。目前,实验方法存在时间和仪器上的成本限制,并且实验的难度比较大。因此,开发一种能够准确的鉴定出丙二酰化位点的计算方法是有必要的。
近来,已经有一些发表的论文通过使用机器学习方法来预测蛋白质丙二酰化位点。Xu等人提出蛋白质丙二酰化位点预测器Mal-Lys,基于序列信息k-grams,position-specific amino acidpropensity和物理化学信息AAIndex特征提取方法把蛋白质字符信息转化成数值向量,采用最大相关最小冗余选择最优特征子集,支持向量机作为分类器,通过留一法,6-,8-和10-fold cross-validations进行验证。Wang等人开发物种特异性丙二酰化位点分类器MaloPred,采用氨基酸组成,二元编码,分组重量编码,Knearestneighbors和位置特异性得分矩阵把字符信息转换为数值向量,信息增益选取最优特征子集,然后输入到支持向量机进行分类,通过独立测试验证在E.coli,M.musculus和H.sapiens上AUC值分别0.755,0.827和0.871。Zhang等人开发蛋白质丙二酰化位点预测器kmal-sp,采用11种特征提取方法提取蛋白质序列信息,物理化学性质和进化信息,用GainRatio选取最优特征子集,集成随机森林,支持向量机,K-nearest neighbor,逻辑回归和Light Gradient Boosting Machine机器学习方法进行分类。Du等人基于序列特征和功能注释特征把蛋白质字符信息转化成数值特征向量,选取径向基为核函数的SVM来构建蛋白质丙二酰化预测模型。Xiang等人采用伪氨基酸组成提取蛋白质特征,选取径向基为核函数的nu-SVM为分类器来构建预测模型,通过留一法测试,训练数据集的的准确率为0.7733,独立测试数据集的的准确率为0.8889。Taherzadeh等人构建蛋白质丙二酰化预测器SPRINT-Ma,采用二元编码,位置特异性得分矩阵,AAindex,可及表面积,二级结构,Half-sphere exposure和Intrinsically disordered region提取蛋白质特征,径向基核函数的SVM进行分类,通过10-fold cross validation和独立测试验证,在M.musculus和H.sapiens数据集上AUC values分别为0.74和0.76,MCC值分别为0.213和0.20。Chen等人使用EAAC,AAindex和one-hot编码方法,整合深度学习long short-term memory with wordembedding(LSTMwe)和随机森林构建丙二酰化位点分类器LEMP。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911365158.8/2.html,转载请声明来源钻瓜专利网。