[发明专利]一种蛋白质谱图数据库快速增量构建方法有效
申请号: | 202011416996.6 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112489730B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 白明泽;张保国;舒坤贤 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 数据库 快速 增量 构建 方法 | ||
1.一种蛋白质谱图数据库快速增量构建方法,其特征在于,包括以下步骤:
S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;
S3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;
S4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;
S5、存储谱图库的索引,为下次新数据添加时合并使用。
2.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,gleams深度嵌入模型包括:Embedder嵌入器、索引模块、增量聚类模块;所述Embedder嵌入器用于降维;所述索引模块用于索引合并,所述索引模块选取IndexIVFFLat作为gleams深度嵌入模型索引,实现了索引合并和便利了索引的自定义;所述增量聚类模块用于聚类。
3.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,Embedder嵌入器中包括共享权重的两个相同的基于深度学习的谱图嵌入模型,两个谱图嵌入模型使用孪生神经网络连接。
4.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,所述索引模块选用IndexIVFFLat索引。
5.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,步骤S1具体包括:
S11、获取高质量的实验谱图数据作为增量数据,将增量数据输入gleams深度嵌入模型,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据;
S12、通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
索引创建完成的基础上进行数据搜索,通过KNN算法对每条索引搜索 其最近的1000个邻居,得到KNN搜索的索引结果;
S13、对KNN搜索的索引结果进行筛选:根据KNN搜索的每条索引的value值,对索引key进行降序排列,根据筛选条件对降序排列的索引进行筛选,进而实现对增量谱图的过滤,从增量数据中自动选取簇心进行聚类;
S14、计算邻居索引与簇心索引的距离,合并簇心距离在阈值范围内的簇集合,输出聚类结果,完成增量数据的聚类。
6.根据权利要求5所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据,具体包括:
S01、将谱图数据中的前体特征、特征强度和参考光谱分别输入两个嵌入模型,在嵌入模型中进行一系列卷积、池化操作,将谱图数据嵌入到新的n维空间中,得到两个嵌入模型分别嵌入到n维空间中的嵌入谱图对;
S02、计算嵌入谱图对之间的欧式距离,根据欧氏距离及label值计算损失函数;
S03、根据损失函数,对谱图对进行惩罚,更新Embedder嵌入器的权值,具体操作是:将输入的由相同肽段产生的相似谱图对拉到一起,将由不同肽段产生的负谱图对推开,最终将谱图对映射到新的低维空间中,形成降维后的增量数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011416996.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电焊机地线连接装置
- 下一篇:附着式自升降高空滑模操作平台及方法