[发明专利]一种以断点为中心的染色体结构变异鉴定方法有效
申请号: | 202110268544.6 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112687341B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 韩志军;王杰;张倩倩;梁雷;谢正华 | 申请(专利权)人: | 上海思路迪医学检验所有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 彭昶;李志强 |
地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 断点 中心 染色体 结构 变异 鉴定 方法 | ||
1.一种可由计算机实施的以断点为中心的鉴定染色体结构变异的方法,所述方法按顺序包括以下步骤:
(1) 将样本DNA文库经双端测序后所产生的成对读段比对到参考基因组上,获得读段比对结果;
(2) 提取读段比对结果中的比对位置在目标区域内且支持结构变异的所有成对读段,其中提取的成对读段依据其包含的两个读段比对位置是否跨越断点来划分读段类型,其包括跨越断点的读段以及未跨越断点的读段,并分别依据读段是否包含软剪切序列提取可能的断点精确位置;其中对于跨越断点的读段,要求两个成对读段或/和其二级比对结果比对在不同染色体上或者比对在相同染色体上且二者之间的距离大于一定阈值;其中对于非跨越断点的读段,要求两个成对读段比对在相同染色体上且二者之间的距离小于一定阈值且包含软剪切序列;
(3) 将跨越断点的读段利用成对读段的比对位置进行聚类,聚类时要求成对读段与其它成对读段对应的比对位置均在一定距离范围内,聚类后将所有跨越断点的读段分配到不同的子类中,每一个子类包含了所有支持基因组上对应两个区域间结构变异的所有跨越断点的读段;
(4) 以从步骤(3)中产生的每一个读段子类为单位鉴定其中可能的结构变异断点位置,鉴定结构变异断点位置的规则为:
I) 在子类中存在具有二级比对结果的读段的情况下,则该读段直接提供了一种可能的结构变异位置,即第I)类断点;
II) 在子类中不存在第I)类断点但存在两个读段比对位置都跨越断点的成对读段,且两个读段都不存在二级比对结果,则可通过验证两个读段末端是否存在重叠区域判断该断点的可靠性,以及软剪切序列是否存在于另一个读段的末端中从而判断断点间是否存在其它插入片段,即第II)类断点;
III) 在子类中不存在第I)和II)类断点但在断点两边同时存在不同成对读段的单个读段包含软剪切序列,则可将来自不同成对读段的包含软剪切序列的单个读段视为来源于同一成对读段,按上述第II)类断点处理方式鉴定断点,即第III)类断点;
IV) 在子类中不存在第I)至III)类断点但在断点单边存在单个读段包含软剪切序列,则此时将鉴定结构变异单端断点,并认为另一端断点具体位置不可知,即第IV)类断点;
V) 在子类中不存在第I)至IV)类断点但存在成对读段比对位置跨越断点,则此时认为结构变异两端断点具体位置均不可知,即第V)类断点;
(5) 获得结构变异断点位置后,以断点为中心统计支持该结构变异的读段数目以及类型,
其中在断点两端都存在精确的断点位置的情况下,用该断点过滤子类中所有成对读段,并根据读段类型统计支持该结构变异的读段数目以及类型,
其中在仅有单端断点位置确定的情况下,仅对断点已知的一端根据成对读段类型过滤子类中读段,断点未知的一端仅对正负链的信息过滤,和
其中在断点两端位置都未知的情况下,读段两端均只对正负链信息过滤;和
(6) 对子类中每个可能的结构变异断点进行读段数目过滤,并将满足过滤条件的结构变异断点比对到基因上,并推断结构变异产生的结果。
2.如权利要求1所述的方法,其中在步骤(1)中将样本DNA文库经二代测序后所产生的读段比对到人类参考基因组上,获得包含读段比对结果的BAM文件,其中一种可用的比对软件为BWA,和一种可用的人类参考基因组版本为hg19;和在步骤(2)中提取BAM文件中的比对位置在目标区域内且支持结构变异的所有读段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海思路迪医学检验所有限公司,未经上海思路迪医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110268544.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石膏基泡沫混凝土及其制备方法
- 下一篇:一种家畜养殖粪污脱水分离设备