[发明专利]基于高通量测序的病原体分析方法、装置和计算机设备有效
| 申请号: | 202011137959.1 | 申请日: | 2020-10-22 |
| 公开(公告)号: | CN112259167B | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 于闯;张优劲;贺增泉;王今安;晋向前 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
| 主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B50/00 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 苏云辉 |
| 地址: | 518000 广东省深圳市盐田区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 通量 病原体 分析 方法 装置 计算机 设备 | ||
1.一种基于高通量测序的病原体分析方法,其特征在于,包括以下步骤:
获取待分析样本的测序数据,将所述测序数据的每一条序列按照K-mer进行切分,得到多个K-mer;
对多个所述K-mer进行哈希计算,并根据哈希计算后的K-mer在预先建立的基因组哈希表进行查找,得到每一条序列的所有K-mer所对应的基因组位置和权重;其中,预先建立的基因组哈希表是通过对已知的人类基因组的序列和病原体基因组的序列进行K-mer切分,对K-mer分配权重,并将分配权重后的K-mer使用散列函数映射到哈希表而得到的;其中,所述K-mer的长度为正整数;
根据每一条序列的所有K-mer所对应的权重计算出每一条序列的总权重;
根据每一条序列的所有K-mer所对应的基因组位置和每一条序列的总权重进行分类分析,确定病原体的物种属性。
2.根据权利要求1所述的基于高通量测序的病原体分析方法,其特征在于,所述基因组哈希表的建立步骤,包括:
获取已知的人类基因组的序列和病原体基因组的序列;
选取K-mer,按照所述K-mer对所述人类基因组的序列和所述病原体的序列进行切分,得到多个K-mer;
对多个所述K-mer进行统计分析,并对每一个K-mer分配权重;
对分配权重后的每一个K-mer使用散列函数映射到哈希表,得到所述基因组哈希表,其中所述基因组哈希表的key值为K-mer序列,所述基因组哈希表的value值为K-mer对应的基因组位置、物种属性以及权重。
3.根据权利要求2所述的基于高通量测序的病原体分析方法,其特征在于,对多个所述K-mer进行统计分析,并对每一个K-mer分配权重的步骤中,包括:
当一个K-mer在所有的K-mer中无重复时,为无重复的所述K-mer分配权重wi;
当一个K-mer在所有的K-mer中重复多次,且重复多次的K-mer同属于一个物种属性时,为重复多次且同物种的所述K-mer分配权重wi=wi-n,其中n为重复次数;
当一个K-mer在所有的K-mer中重复多次,且重复多次的K-mer属于不同物种属性时,为重复多次且不同物种的所述K-mer分配权重wi=(wi-ni)/k,其中k表示k个物种属性,n为重复次数,ni表示在第i物种属性中重复次数,i=1,2,……k,wi表示第i个K-mer的权重。
4.根据权利要求1-3任一项所述的基于高通量测序的病原体分析方法,其特征在于,在得到每一条序列的所有K-mer所对应的基因组位置和权重的步骤中,包括:
对每一条序列的K-mer进行统计,如果任一条序列中有两个K-mer所对应的基因组位置不相同,且两个所述K-mer具有线性关系,则两个所述K-mer的权重为wi=wi+wi/2。
5.根据权利要求4所述的基于高通量测序的病原体分析方法,其特征在于,得到每一条序列的所有K-mer所对应的基因组位置和权重的步骤中,还包括:
如果任一条序列中有多个K-mer对应的基因组位置不相同,且多个所述K-mer具有线性关系,则多个所述K-mer的权重为wi=wi+wi/2*m,其中m表示具有线性关系的K-mer的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011137959.1/1.html,转载请声明来源钻瓜专利网。





