[发明专利]对核酸序列进行聚类的方法、设备及存储介质有效
| 申请号: | 201810011494.1 | 申请日: | 2018-01-05 |
| 公开(公告)号: | CN110111843B | 公开(公告)日: | 2021-07-06 |
| 发明(设计)人: | 徐煜;朱钶锐 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
| 地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 核酸 序列 进行 方法 设备 存储 介质 | ||
1.一种用于对多个核酸序列进行聚类的方法,其特征在于,包括以下步骤:
(1)基于所述多个核酸序列之间的距离,对所述多个核酸序列进行分类,以便获得初始簇集合,所述初始簇集合由多个簇构成;
(2)基于所述初始簇集合中所述簇所包含核酸序列的数目,确定优化起始簇;
(3)基于所述核酸序列的测序质量以及所述优化起始簇所包含所述核酸序列的数目,确定所述优化起始簇的归属序列数目;
(4)针对所述初始簇集合中剩余簇的至少一部分,基于所述测序质量,所述剩余簇的至少一部分的每一个所包含核酸序列的数目,以及所述剩余簇的每一个与所述优化起始簇之间的距离,确定所述剩余簇的至少一部分的每一个的归属概率;
(5)基于所述归属概率以及所述剩余簇的至少一部分的每一个所包含核酸序列的数目,在所述初始簇集合中确定错误簇,并将所述错误簇从所述初始簇集合中排除,以便获得经过优化的所述初始簇集合;
其中,所述归属序列数目是基于公式:
N(1-p)/p确定的,
p是基于公式确定的,其中
其中,N表示所述优化起始簇所包含所述核酸序列的数目,
l表示所述优化起始簇的聚类起始中心序列的长度,
r0表示预先确定的可以容忍的差异碱基数目的最大值,
表示从l个位置中不重复抽k个位置得到的所有组合的个数,
e表示测序错误率,利用公式求值后,并求算术平均值作为e值,
其中Q为测序质量值;
所述归属概率是基于公式
确定的,其中d表示第三预定距离。
2.根据权利要求1所述的方法,其特征在于,重复进行步骤(2)~(5)至少一个循环。
3.根据权利要求2所述的方法,其特征在于,重复进行步骤(2)~(5),直到所述错误簇的数目为零。
4.根据权利要求2所述的方法,其特征在于,所述多个核酸序列为编码16S核酸、18S核酸、ITS或者功能区域的基因。
5.根据权利要求2所述的方法,其特征在于,所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的至少一部分可变区。
6.根据权利要求2所述的方法,其特征在于,所述至少一部分可变区为选自v3、v4和v6可变区域的至少一部分。
7.根据权利要求2所述的方法,其特征在于,所述多个核酸序列分别包括编码16S核酸或者18S核酸的基因的全长序列。
8.根据权利要求2所述的方法,其特征在于,所述距离是基于所述多个核酸序列之间的相似性确定的。
9.根据权利要求1所述的方法,其特征在于,步骤(1)进一步包括:
(1-a)针对所述多个核酸序列,分别确定至少一部分的两两之间的距离;
(1-b)基于所述两两之间的距离,从所述多个核酸序列中选择聚类起始中心序列,其中,所述聚类起始中心序列的近距离序列数目不小于其他所述核酸序列的所述近距离序列数目,所述近距离序列数目是指与预定核酸序列之间的距离小于第一预定距离的核酸序列的总数;
(1-c)将于所述聚类起始中心序列的距离不超过第二预定距离的核酸序列进行比对,并基于所述比对结果对所述聚类起始中心序列进行优化,以便获得经过优化的聚类起始中心序列;
(1-d)选择与所述经过优化的聚类起始中心序列之间所述距离不超过第三预定距离的所述核酸序列,构成起始簇;
(1-e)从所述多个核酸序列中排除所述起始簇的成员后,重复步骤(1-a)~(1-d),直到所有的所述核酸序列均被归类至一个簇中,以便获得所述初始簇集合。
10.根据权利要求9所述的方法,其特征在于,所述第二预定距离与所述第三预定距离的比值不小于所述第一预定距离与所述第三预定距离的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810011494.1/1.html,转载请声明来源钻瓜专利网。





