[发明专利]微生物群落物种多样性数据的存储检索方法有效
申请号: | 202010043999.3 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111243679B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 白明泽;黄家顺;覃春园;邓川 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微生物 群落 物种 多样性 数据 存储 检索 方法 | ||
本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法,包括:确定需要存储到ElasticSearch中的数据;根据ElasticSearch的要求建立存储数据的index;收集并存储数据到ElasticSearch中;构建检索功能获取分类单元的谱系信息;根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。本发明在ElasticSearch中配置满足相应水解酶水解规则的分词器,不需要编写处理酶切和漏切代码;若蛋白质序列库更新不需要重新计算最小公共祖先进行存储。
技术领域
本发明涉及生物信息学领域,具体涉及一种微生物群落物种多样性数据的存储检索方法。
背景技术
ElasticSearch是一个开源的、基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎。在大数据行业里,ElasticSearch的分布式检索功能便于数据多维度呈现、分析、预测,有利于发挥数据的价值。
在宏蛋白质组学中,以肽段为中心分析微生物群落物种多样性的方法主要是将肽段映射到一个指定的蛋白质序列库,然后计算某一肽段映射到的蛋白质的物种的最小公共祖先。通常,首先需要对蛋白质序列库进行理论酶切,获得肽段,并计算肽段在这个蛋白质序列库中的最小公共祖先,然后将这一信息存储到数据库中,检索时根据输入的肽段获得对应的最小公共祖先。但是上述流程通常会存在以下问题:①需要手动编写处理理论酶切和漏切的代码;②如果新增蛋白质序列到蛋白质序列库中,则需要重新计算最小公共祖先并存储。
发明内容
为了解决上述问题,本发明提供一种微生物群落物种多样性数据的存储检索方法。
一种微生物群落物种多样性数据的存储检索方法,包括以下步骤:
S1、确定需要存储到ElasticSearch中的数据,本发明必须要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息,其他信息根据需要存储;所述分类单元的谱系信息是指某一分类单元在界门纲目科属种各个层级的分类单元信息,存在某些分类单元在部分层级没有分类信息的情况。
S2、根据ElasticSearch的要求构建存储数据的index,ElasticSearch中的index就像关系数据库中的“数据库”,在index中的mapping确定index中存储的数据及其类型;所述存储数据的index包括两个index,分别为:①蛋白质序列index:用于存储蛋白质序列和序列对应的分类单元信息;②分类单元谱系index:用于存储分类单元的谱系信息。
S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息,并存储数据到ElasticSearch中。
S4、构建检索功能获取分类单元的谱系信息:
S41、输入肽段列表并对输入的肽段列表进行预处理,所述预处理包括:去除重复肽段、去除长度小于5或长度大于70的肽段;
S42、使用ElasticSearch检索预处理后的肽段,得到肽段对应的蛋白质信息、分类单元信息;
S43、得到肽段对应的蛋白质及其分类单元信息后,通过分类单元信息查询分类单元谱系index,得到分类单元的谱系信息。
S5、计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043999.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动物皮肤病防治药物及其制备方法
- 下一篇:一种人参花发酵饮品的制备方法