[发明专利]一种从头测序方法有效
| 申请号: | 201710913734.2 | 申请日: | 2017-09-30 |
| 公开(公告)号: | CN107729719B | 公开(公告)日: | 2020-05-26 |
| 发明(设计)人: | 杨皓;迟浩;曾文锋;周文婧;刘超;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B45/00;G16B50/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;李科 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 从头 方法 | ||
本发明提一种从头测序方法,该方法包括:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;从所述镜像谱图中检测高可信谱峰和普通谱峰;根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;基于所构建的有向无环图生成候选肽段。本发明的方法利用镜像谱图相互佐证,能够提高肽段从头测序的准确率。
技术领域
本发明涉及生物信息技术领域,尤其涉及一种从头测序方法。
背景技术
目前,基于质谱数据的蛋白质鉴定方法分为两类:数据库搜索和肽段从头测序。由于蛋白质数据库的不断发展和完善,数据库搜索是鉴定蛋白质的主要方法。然而,由于从头测序方法不依赖于现有的数据库,其根据肽段有规律碎裂的特点,直接从谱图中推导出肽段序列,对于鉴定未知蛋白质、翻译后修饰以及氨基酸突变等具有数据库搜索方法不可替代的优势。
现有的从头测序方法主要分为三类:化学标记技术、质谱技术和基于算法的测序。基于化学标记技术的方法,可以将肽段的N端、C端、或者两者同时进行标记,使得信号离子拥有质量差信息,通过质量差信息来有效区分信号峰以及噪音峰,例如,使用18O的H2O进行标记,使得所有y离子均有2Da(Dalton)的质量偏差,从而有效的区分b离子和噪声峰;基于质谱技术的方法,采用三级谱碎裂技术,在常规的二级谱基础上,选择高峰再次进行碎裂,使得谱图的信噪比更高、数据质量更好,此外,基于质谱技术的方法还可利用不同碎裂方式的结合,例如CID+ETD、HCD+ETD、CID+HCD+ETD,或者利用最近出现的激光的UVPD(351nmultraviolet photodissociation)碎裂方式,该种方式会产生明显多的y离子系列,几乎很少的b离子,这样不用去识别每根峰的离子类型(b还是y);基于算法的测序方法包括:Open-pNovo、Novor、Uvnovo和DeepNovo等,其中Open-pNovo使用RankBoost排序方法对结果进行重排序,Novor使用决策树为氨基酸以及肽段进行打分,Uvnovo使用随机森林为每条肽段进行打分,DeepNovo使用深度学习来推断下一个氨基酸类型。
然而,现有的从头测序方法存在两个问题:1)离子碎裂不全,从而无法区分AB和BA两种情况,导致相当多的谱图无法使用从头测序方法获取完整肽段;2)谱峰的离子类型未知,一般认为一根峰只能匹配一种类型的离子,因此,在谱峰的离子类型未知的情况下,需要枚举每根峰的离子类型,在计算候选肽段时需要考虑反对称约束进行求解,而这是个NP难(NP-hard)问题。
因此,需要对现有技术进行改进,以克服从头测序方法存在的缺陷。
发明内容
本发明的目的在于提供一种改进的肽段从头测序方法,其利用镜像谱图互相佐证来提高肽段鉴定的准确度。
根据本发明的第一方面,提供了一种从头测序方法。该方法包括以下步骤:
步骤1:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;
步骤2:从所述镜像谱图中检测高可信谱峰和普通谱峰;
步骤3:根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;
步骤4:基于所构建的有向无环图生成候选肽段。
在本发明的从头测序方法中,所述两个数据集是使用胰蛋白酶在氨基酸K、R的C端酶切产生的数据集以及使用镜像胰蛋白酶在氨基酸的K、R的N端酶切产生的数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710913734.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务管理系统
- 下一篇:停车场管理方法及装置





