[发明专利]微生物群落物种多样性数据的存储检索方法有效
申请号: | 202010043999.3 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111243679B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 白明泽;黄家顺;覃春园;邓川 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微生物 群落 物种 多样性 数据 存储 检索 方法 | ||
1.一种微生物群落物种多样性数据的存储检索方法,其特征在于,包括以下步骤:
S1、确定需要存储到ElasticSearch中的数据,需要存储的数据包含蛋白质序列、蛋白质序列对应的分类单元信息以及分类单元的谱系信息,其他信息根据需要存储;
S2、根据ElasticSearch的要求建立存储数据的index,在index中的mapping确定index中存储的数据及其类型;所述存储数据的index包括两个index,分别为:①蛋白质序列index:用于存储蛋白质序列和蛋白质序列对应的分类单元信息;②分类单元谱系index:用于存储分类单元的谱系信息;
步骤S2中根据ElasticSearch的要求构建存储数据的index具体包括以下步骤:
S21、建立蛋白质序列index;
S211、设置蛋白质序列index的主分片数;
S212、设置蛋白质序列index的mapping,蛋白质序列index的mapping中的字段包含:蛋白质序列和蛋白质序列对应的分类单元;
S213、在蛋白质序列字段配置分词器;
S22、建立分类单元谱系index;
S221、设置分类单元谱系index的主分片数;
S222、设置分类单元谱系index的mapping,分类单元谱系index的mapping中的字段包含分类单元id、分类单元名和分类单元谱系;
所述分词器包含三个部分:①character filter:用于将蛋白质序列中的异亮氨酸I转换成亮氨酸L;②tokenizer:用于将蛋白质序列切割成肽段,由于不同的水解酶切割位点不同,需要根据选择的水解酶类型配置相应的规则;③token filter:用于去除过长和/或过短的肽段;
S3、收集蛋白质序列、蛋白质序列对应的分类单元信息、分类单元的谱系信息,并存储数据到ElasticSearch中;
S4、构建检索功能获取分类单元的谱系信息;
S41、输入肽段列表并对输入的肽段列表进行预处理,所述预处理包括:去除重复肽段、去除长度小于5或长度大于70的肽段;
S42、使用ElasticSearch检索预处理后的肽段,得到肽段对应的蛋白质及其分类单元信息;
S43、得到肽段对应的蛋白质及其分类单元信息后,通过分类单元信息查询分类单元谱系index,得到分类单元的谱系信息;
S5、根据分类单元的谱系信息计算肽段对应的分类单元的最小公共祖先,用所有肽段对应的最小公共祖先表示整个微生物群落的物种多样性分布。
2.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,步骤S3具体包括以下步骤:
S31、从公共数据库下载蛋白质序列和蛋白质序列对应的分类单元信息并存储到蛋白质序列index中;
S32、从公共数据库中的taxonomy数据库中下载分类单元的谱系信息,提取分类单元id、分类单元名称和分类单元谱系并存储到分类单元谱系index中。
3.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,步骤S42包括:
S421、确定每条肽段的检索方式,遍历预处理后的肽段列表,依据有无漏切进行分类,针对没有漏切的肽段使用ElasticSearch中的term检索方式,针对存在漏切的肽段使用ElasticSearch中的match_phrase检索方式;
S422、在确定检索方式后,根据用户的设置判断是否需要等同异亮氨酸I和亮氨酸L,若等同异亮氨酸I和亮氨酸L,则针对蛋白质序列index的seq.eqILSeq字段搜索,若区分异亮氨酸I和亮氨酸L,则针对蛋白质序列index的seq字段搜索,最终,通过检索能够得到肽段对应的蛋白质及其分类单元信息。
4.根据权利要求1所述的一种微生物群落物种多样性数据的存储检索方法,其特征在于,计算肽段对应的分类单元的最小公共祖先的流程为:从层次“界”到“种”依次扫描每个分类单元的谱系信息,找到最低层次中包含相同分类单元的节点,这个节点对应的分类单元即为最小公共祖先,重复此步骤,直至计算出所有肽段所对应的最小公共祖先。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043999.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动物皮肤病防治药物及其制备方法
- 下一篇:一种人参花发酵饮品的制备方法