[发明专利]基于泊松分布模型的蛋白质二级质谱鉴定方法有效

专利信息
申请号: 201510799996.1 申请日: 2015-11-19
公开(公告)号: CN105823883B 公开(公告)日: 2017-07-18
发明(设计)人: 陈晓舟;肖传乐;朱思敏;陈君华 申请(专利权)人: 云南民族大学
主分类号: G01N33/68 分类号: G01N33/68
代理公司: 广州天河恒华智信专利代理事务所(普通合伙)44299 代理人: 张培祥
地址: 650504 云南*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 分布 模型 蛋白质 二级 鉴定 方法
【说明书】:

技术领域

发明涉及蛋白质二级质谱鉴定领域,特别是涉及一种基于泊松分布模型的蛋白质二级质谱鉴定方法。

背景技术

生物质谱技术目前已经成为蛋白质组研究的支撑技术之一,质谱技术的开发可追溯到20世纪初期,由J.J.Thomson创制的抛物线质谱装置。之后,在1919年Aston制成的速度聚焦型质谱仪又为质谱的发展创造奇迹。接着80年代末期,基质辅助激光解吸(matrix-assisted laser desorption ionization,MALDI)和电喷雾(Electrospray Ionization,ESI)两种软电离技术的出现,使生物质谱引入较少的杂质同时保持肽段分子的完整性,这些改变使得生物质谱技术可以大规模的应用于蛋白质分析中。主要是利用串联质谱或者二级质谱(LC-MS/MS)从带有复杂噪声或者部分信息缺失的数据中推断样品的蛋白质组成。在这些质谱数据的处理中我们主要应用数据库搜索,其基本过程如图1所示,即将实验图谱和数据库中产生的理论图谱进行比对、打分,选择分值最高的匹配作为搜索结果的候选肽段。

我们知道一次蛋白质组实验可产生许多的LC-MS/MS图谱,这些图谱具有如下特点:实验图谱碎片峰离子复杂且丰富,同位素峰存在,生物质谱仪器本身的误差。如何快速的提取对我们有用的信息成为生物学研究的新课题,蛋白质二级质谱鉴定算法的不断创新为研究核苷酸序列提供了新的方法。

蛋白质二级质谱鉴定主要包括:母离子价态的确定、有效质谱峰的选取、匹配打分模型构建以及整体鉴定结果的假阳性率控制。随机数据库方法是目前针对整体鉴定结果假阳性率控制的主要方法。其基本思想是:先给定的蛋白质数据库和实验数据集构建一个随机数据库,然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库,进而通过随机数据库肽段匹配来模拟正常数据库中的随机匹配,最终估计正常数据库中随机匹配的特征分布,确定不同过滤标准。目前求取整体数据集假阳性率(False Positive Rate,FPR)的方法多样。其中Kall’s在Proteome上公开的计算假阳性率的方法被广泛采用,计算公式如下:

打分模型是蛋白质二级质谱鉴定算法的核心问题,目前的许多算法并不能提高蛋白质有效质谱数量和蛋白质肽段数。

发明内容

基于此,有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肽段数量的基于泊松分布模型的蛋白质二级质谱鉴定方法。

一种基于泊松分布模型的蛋白质二级质谱鉴定方法,包括如下步骤:

(1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;

(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段,将选出符合要求的候选肽段作为理论图谱;

(3)对待分析实验图谱进行去同位素峰和去噪处理;

(4)将步骤(3)中的待分析实验图谱和步骤(2)中每张候选肽段的理论图谱进行匹配打分,选择得分最高的候选肽段作为本次实验图谱的鉴定结果;

(5)针对所有实验的鉴定结果进行整体的假阳性控制。

在其中一个实施例中,步骤(1)具体包括如下步骤:

(1.1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列;

(1.2)根据提前设定的蛋白酶确定蛋白质序列的酶切位点,在该酶切位点进行断裂,区别出无漏切位点的肽段和存在漏切位点的断裂肽段;

(1.3)由每个氨基酸的分子量计算步骤(1.2)中其所对应的酶切后的肽段的质量数;

(1.4)将经过步骤(1.3)处理过的肽段存入肽段数据库,同时以该肽段取整后质量数命名该数据库中的文件,并将该条肽段的信息存入该文件;

(1.5)重复步骤(1.2)-(1.4),对每一条蛋白质进行相同的处理,直到所有的蛋白序列被酶解且被存入已建立的所述肽段数据库;

(1.6)依据所述肽段数据库中的文件名数字从小到大读出文件中的肽段信息,每读一个文件,按照文件中所存肽段的质量数从小到大进行排序,并将其存入到database.ind文件中;并以1da为单位对所有肽段建立查找索引database.index,该查找索引具体包括:肽段质量数、肽段在database.ind文件中的开始位置以及某区间内的肽段的个数。

在其中一个实施例中,步骤(2)在肽段数据库中找出符合要求的候选肽段并以此建立理论图谱的具体步骤是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南民族大学,未经云南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510799996.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top