[发明专利]结合二级质谱和机器学习算法的蛋白质组无标记定量方法有效
申请号: | 201210563271.9 | 申请日: | 2012-12-21 |
公开(公告)号: | CN103884806A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 张丽华;吴琪;梁振;曲焱焱;蒋好;张玉奎 | 申请(专利权)人: | 中国科学院大连化学物理研究所 |
主分类号: | G01N30/86 | 分类号: | G01N30/86 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 马驰 |
地址: | 116023 *** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 二级 机器 学习 算法 蛋白质 标记 定量 方法 | ||
1.结合二级质谱和机器学习算法的蛋白质组无标记定量方法,其特征在于,包括以下步骤:
(1)将用于构建训练数据集的已知蛋白质实际样品的酶解肽段混合物在液相色谱-串级质谱系统上运行获得原始质谱数据文件,原始数据文件经过Mascot数据库搜索后获得样品中的蛋白列表,以及归属于每个蛋白的肽段列表和归属于每个肽段的二级质谱图列表,再经过Trans Proteomic Pipeline(TPP)处理得到存储鉴定列表和蛋白鉴定概率的XML文件,将它们导入SINQ软件中用于计算肽段与谱图匹配(PSM)q值的Perl源代码计算每个PSM的q值将假阳性率控制到合理范围内(q值即是假阳性率)即获得筛选后的蛋白列表及其鉴定概率,同时也包含筛选后的归属于每个蛋白的肽段列表和筛选后的归属于每个肽段的二级质谱图列表;以筛选后的所有肽段的序列为起点,采用APEX Quantitative Proteomics Tool中用于构建训练数据集的Java代码计算每条肽段的1-35个物理化学性质并以数字表示,然后在理化性质的后面附上肽段在质谱上是否被检测到(检测到为Obs,未检测到为Not),这样一个包含肽段序列、理化性质以及在质谱上检测到与否的列表即是训练数据集(arff文件);
在同一个液相色谱-串级质谱系统上运行待分析样品的酶解肽段混合物,所采用的酶和构建训练数据集时使用的酶一致;原始数据文件同样经过上述的Mascot数据库搜索、TPP处理和假阳性率控制后获得筛选后的蛋白质鉴定列表,同样也包括筛选后的归属于每个蛋白的肽段序列列表和筛选后的归属于每个肽段的二级质谱图列表;
(2)将步骤(1)中获得的训练数据集arff文件导入机器学习算法Weka软件中进行预测并生成数学预测模型(model文件);
(3)采用APEX Quantitative Proteomics Tool中用于计算蛋白校正因子的Java代码对待分析样品的蛋白质序列数据库fasta文件按照步骤(1)中所采用酶的特异性进行理论酶切获得理论肽段列表并计算它们的1-35个物理化学性质,性质的种类和构建训练数据集时相同;将肽段及它们的物理化学性质导入步骤(2)中生成的数学预测模型(model文件)即可输出每条理论肽段在该液相色谱-串级质谱系统上的响应概率(为一个0到1之间的数),将归属于每个蛋白的所有理论肽段在此液相色谱-串级质谱系统上的响应概率累加作为该蛋白的校正因子;
(4)采用Xcalibur软件将归属于待分析样品中鉴定到的每个蛋白所有二级质谱图中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的蛋白校正因子再乘以TPP给出的蛋白鉴定概率得到对该蛋白含量的表征值;对所有蛋白均计算该表征值,每个蛋白的表征值除以所有蛋白表征值的总和即是该蛋白相对于样品中所有蛋白含量的百分比,乘以样品中的蛋白总量即可以算得每个蛋白的绝对量。
2.根据权利要求1所述的方法,其特征在于:
(5)对于两个及以上样品做蛋白含量的差异分析时,首先需要将每个样品均进行两次及以上平行的液相色谱-串级质谱分析,采用步骤(1)-(4)描述的方法计算每次平行分析中每个样品中所有蛋白的绝对量;
然后采用统计学方法判断在两份或多份样品中哪些蛋白存在显著性差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大连化学物理研究所,未经中国科学院大连化学物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210563271.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种齐考诺肽及其杂质的检测方法
- 下一篇:后顶管法简易退水口阀门