[发明专利]一种蛋白质谱图数据库快速增量构建方法有效
申请号: | 202011416996.6 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112489730B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 白明泽;张保国;舒坤贤 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 数据库 快速 增量 构建 方法 | ||
本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。
技术领域
本发明涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法。
背景技术
蛋白质是人类生命的物质基础,是组成人体一切细胞、组织的重要成分,是生命活动的主要承担者。蛋白质组学是一门大规模、高通量、系统化的研究某一类型细胞、组织或体液中的所有蛋白质组成及其功能的新兴学科,1994年由Marc Wikins提出。蛋白质组学以蛋白质组为研究对象,旨在大规模水平上研究蛋白质的特征,包括蛋白质种类、表达水平、翻译修饰、相互作用等,由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的整体而全面的认识。蛋白质组是蛋白质和基因组两词的组合,代表着“一种基因组所表达的全部蛋白质”。通过对蛋白质组的研究,不仅能为生命活动规律提供物质基础,也为众多疾病机理的阐明及攻克提供了理论依据和解决途径。
随着人类基因组计划的完成,蛋白质组学的重要性也在不断地提高。目前,以鸟枪法蛋白质组学为核心的自下而上的策略被广泛的使用。随着技术的进步,液相色谱-串联质谱(LC-MS/MS)在蛋白质组学中也有了长足的发展。在鸟枪蛋白组学实验中,通过酶切及LC来分离蛋白混合物,之后使用MS/MS处理生成相应的谱图数据,通过谱图搜库的方法完成肽和蛋白质的定性分析,最后,通过生物信息学分析,得出对生物学有价值的结论或信息。
蛋白质谱图数据库是专门用来存储蛋白质实验数据的谱图库,便于研究者使用,同时在鸟枪法蛋白组学实验中,通常使用搜库方法完成蛋白质的定性操作。但鸟枪法实验通常会产生大量包含相同肽段的高度冗余谱图数据,在搜库时会重复比对,浪费了大量的搜库时间且占用了较多的存储空间,影响肽鉴定的效率。
目前,已出现多种蛋白质谱图聚类工具或方法,如Pep-Miner、MS-Cluster、PRIDE-Cluster、MaRaCluster、msCRUSH、GLEAMS等,通过对同一肽段产生的谱图进行聚类,从聚类簇中选取一致性谱图取代聚类簇,完成谱图的搜库鉴定。算法在一定程度上减少了谱图数据的冗余,提高了肽鉴定的效率。
随着蛋白质组学实验数据的增加,现有的聚类算法弊端也逐渐显露了出来,现有的聚类算法大多采用静态聚类方法进行设计,当新的一批数据需要聚类时,不能利用现有数据库的聚类结果进行聚类,使算法的时效性受到限制;随着新增数据的逐渐增多,算法每次聚类所需开销也在递进增长,增加了数据库存储聚类的成本。
发明内容
为了解决上述问题,本发明提供一种蛋白质谱图数据库快速增量构建方法。
一种蛋白质谱图数据库快速增量构建方法,包括以下步骤:
S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;
S3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;
S4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011416996.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电焊机地线连接装置
- 下一篇:附着式自升降高空滑模操作平台及方法