[发明专利]一种快速检测HGT的方法在审
申请号: | 202211652294.7 | 申请日: | 2022-12-21 |
公开(公告)号: | CN116312768A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 赵梓丞;李梦瑶;高鹏;贺小兰 | 申请(专利权)人: | 深圳百人科技有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B30/10;G16B50/00;G06F18/2321 |
代理公司: | 合肥钩知专利代理事务所(特殊普通合伙) 34305 | 代理人: | 孙秀丽 |
地址: | 518118 广东省深圳市坪山区坑梓街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 检测 hgt 方法 | ||
1.一种快速检测HGT的方法,其特征在于,包括以下步骤:
S1:允许近似匹配的k-mer编码算法:
(1)用n个散列函数对k-mer进行编码,DNA序列的四种碱基有12种类型的替换错配,每个映射中,每两个碱基映射到相同的值,因此每个映射容许4种类型的替换;
(2)在散列函数中用随机映射将每个k-mer转换成一个二进制数字,再将二进制数转换为十进制数;
(3)通过在不同的哈希函数中为每个碱基分配不同的映射来容忍更多的替换;
S2:基于上述k-mer编码算法估计基因组深度和跨物种reads比对,而从参考数据库中提取HGT相关片段的程:
(1)在所有reads中,枚举所有k-mers,并记录出现次数,最多随机选择M个碱基对的读数,采用滑动窗口法丢弃样本中不存在的参考片段;
(2)k-mer排列中,结构变化断点附近的深度为零,因此沿着基因组深度急剧变化的区域可能包含HGT断点,收集这些选定区域周围的k-mers作为标记;
(3)我们比较每个位置左段和右段的平均深度,一旦深度差超过截止阈值,该位置将被选择为候选断点,并记录其对应的物种和断点位置;
(4)枚举每一个read,并检查其是否包含k-mer标记,来自不同物种但位于相同read的标记代表可能的HGT信号,对应的位置被赋值为HGT候选断点,通过从参考数据库中收集HGT候选断点前后各500bp来提取HGT相关参考片段;
S3:从不一致的read比对中再次推断精确HGT断点位置:
(1)使用BWA将测序reads比对到HGT相关的参考片段,其中每一个不一致的read都意味着一对断点,两个物种的断点位置构成一个二维向量;
(2)以两个物种的基因组为坐标,基于欧式距离使用DBSCAN算法对断点进行聚类,在每个聚类中得到断点对的大致位置,随后采用split-read确定断点的确切位置;
(3)将split-read的soft-clipping部分从下限到上限利用Smith-Waterman算法比对到参考序列上,一直比对到相似度高于截止阈值,其停止位置即为精确的HGT断点。
2.根据权利要求1所述的一种快速检测HGT的方法,其特征在于,所述S1的(1)中n值为3。
3.根据权利要求1所述的一种快速检测HGT的方法,其特征在于,所述S2的(1)中M值默认为2000000000,且丢弃样本中不存在的参考片段时,若窗口中的k-mer匹配率大于截止值,则将参考片段保留在窗口中,否则则丢弃该片段。
4.根据权利要求1所述的一种快速检测HGT的方法,其特征在于,所述S2的(3)中左段和右段的比较默认长度为5,所述S2的(3)中深度差超过值默认为截止阀值的3倍。
5.根据权利要求1所述的一种快速检测HGT的方法,其特征在于,所述S3的(3)中相似度高于截止阈值的值为0.8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳百人科技有限公司,未经深圳百人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211652294.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效精馏塔
- 下一篇:一种反光效果实现方法、装置、计算机设备和存储介质