[发明专利]肽段可检测性预测方法及系统有效
| 申请号: | 202111402298.5 | 申请日: | 2021-11-19 |
| 公开(公告)号: | CN114093415B | 公开(公告)日: | 2022-06-03 |
| 发明(设计)人: | 付岩;杨婧涵 | 申请(专利权)人: | 中国科学院数学与系统科学研究院 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00 |
| 代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 赵景平 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 肽段可 检测 预测 方法 系统 | ||
本发明公开了一种肽段可检测性预测方法及系统,该方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。利用本发明方案,可以提高肽段可检测性预测的准确性。
技术领域
本发明涉及蛋白质组学领域,具体涉及一种肽段可检测性预测方法及系统。
背景技术
目前,基于高通量生物质谱技术的蛋白质组学已经成为生物学、医学领域研究的一种前沿方法。在主流的鸟枪法蛋白质组学分析流程中,蛋白质水解产生的肽段将经由质谱仪进行检测,再通过其质谱数据完成对蛋白质的定性和定量分析。然而,由于种种原因,如普遍存在的漏切现象、肽序列本身的理化性质等,导致在常规的蛋白质组学实验中,往往只有很少一部分肽段能被检测到,从而极大地阻碍了人们对质谱数据进行高精度、大规模地解析。因此,若能准确预测各肽段的可检测性,将有助于改善蛋白质组学的实验设计和数据分析。
实际上,肽段能否被检测到并不是一个绝对的问题,而是一个概率问题。目前业界虽然已经提出了一些肽段可检测性预测的方法,但是准确率仍有待提高。
发明内容
本发明提供一种肽段可检测性预测方法及系统,可以方便、有效地实现肽段可检测性的预测。
为此,本发明提供如下技术方案:
一种肽段可检测性预测方法,所述方法包括:
对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
可选地,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:
从已鉴定蛋白序列中筛选出高可信蛋白序列;对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
利用所述第一训练数据集训练肽段可检测性预测模型。
可选地,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:
根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。
可选地,所述对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段包括:
对所述高可信蛋白进行理论酶切,且保证所有理论酶切肽段同时满足设定条件,得到各理论酶切肽段。
可选地,所述设定条件包括:
最大漏切位点数符合鉴定参数设置;
理论酶切肽段长度在鉴定参数设置范围内;
若在位点C端发生酶切,则需去除所有蛋白N端肽;若在位点N端发生酶切,需保留所有蛋白N端肽,并将蛋白N端的氨基酸M作为一个特殊位点,同时考虑切和不切两种情况。
可选地,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。
可选地,所述方法还包括:
确定各理论酶切肽段的酶切概率;
利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
可选地,所述确定各理论酶切肽段的酶切概率包括:
利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院,未经中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111402298.5/2.html,转载请声明来源钻瓜专利网。





