[发明专利]一种检测短串联重复序列扩张的方法有效
申请号: | 201810499329.5 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108660200B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 杨旗;唐北沙;梁帆;江泓;杨帆;沈璐;汪德鹏 | 申请(专利权)人: | 北京希望组生物科技有限公司;中南大学湘雅医院 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 陆惠中;王永伟 |
地址: | 102206 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 串联 重复 序列 扩张 方法 | ||
1.一种检测短串联重复序列扩张的方法,其包括如下步骤:
1)获得三代测序数据;
2)序列比对
使用序列比对软件将所述三代测序数据比对到参考基因组;
3)RepeatHMM检测所述三代测序数据短串联重复
使用RepeatHMM检测短串联重复单元数目,判断短串联重复区域是否存在重复单元扩张;
在步骤3)中,当测序深度小于100X时,判断短串联重复区域是否存在重复单元扩张的方法为:
比较短串联重复区域的每一条reads上的重复单元数目ri与所述参考基因组上重复单元数目R,如果它们之间的碱基数目差di大于或等于阈值α,那么记为存在重复单元扩张的reads;如果重复单元扩张的reads的数目N与短串联重复区域平均深度的比值大于阈值β,则认为所述短串联重复区域存在重复单元扩张;
4)inScan检测短串联重复区域的序列插入
对三代测序数据比对结果,提取目标区域内的reads;
计算reads片段内的插入序列si的参考基因组位置和长度,如果si的长度大于或等于阈值γ,那么记录si;
检测reads片段间插入序列,设一条reads在比对时切分为n条片段Fr1至Frn,所述片段按照其在reads上的开始位置read_start,从小到大进行排序得到片段组成的数组Fr,数组的长度为n,组合其中两个reads片段,计算所述两个reads片段的相对位置,判断所述两个reads片段之间是否存在插入序列,计算插入序列在参考基因组上的位置和插入序列的长度;
所述步骤4)中判断片段之间是否存在插入序列的具体方法为:
对于片段Fr[i]与Fr[j],其中i=1且i=n-1,ji且j=n,如果Fr[i]与Fr[j]比对到同一条染色体、比对方向相同且它们在reads上的距离drij大于它们在参考基因组上的距离dfij,那么Fr[i]与Fr[j]之间存在序列插入;如果Fr[i]与Fr[j]之间存在序列插入,那么i=i+1;如果Fr[i]与Fr[j]之间不存在序列插入且Fr[i]与Fr[j]在同一条染色体上,那么i=i+1;
计算插入序列在参考基因组上的位置和插入序列的长度的具体方法为:
如果Fr[i]与Fr[j]之间存在插入序列,那么分3种情况计算插入序列在参考基因组上的位置和插入序列的长度:
a.INS/INDEL类型的序列插入,如果Fr[j].ref_start=Fr[i].ref_start,则插入序列的长度insert_lenght=Fr[j].read_start–Fr[i].read_end,插入序列在参考基因组染色体上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在参考基因组染色体上的终止位置insert_ref_end=Fr[j].ref_start;
b.TANDEM_DUP类型的序列插入,如果Fr[j].ref_startFr[i].ref_start且Fr[j].ref_end=Fr[i].ref_end,则插入序列的长度insert_lenght=(Fr[j].read_start–Fr[i].read_end)–(Fr[j].ref_start–Fr[i].ref_end),插入序列在参考基因组染色体上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在参考基因组染色体上的终止位置insert_ref_end=Fr[i].ref_end;
c.DUP类型的序列插入,如果Fr[j].ref_startFr[i].ref_start且Fr[j].ref_endFr[i].ref_end,则插入序列的长度insert_lenght=Fr[j].read_end–Fr[i].read_end,插入序列在参考基因组染色体上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在参考基因组染色体上的终止位置insert_ref_end=Fr[i].ref_end;
其中,read_start为所述片段在reads上的起始位置,read_end为所述片段在reads上的结束位置,ref为所述片段比对到的参考基因组染色体,ref_start为所述片段在参考基因组的开始位置,ref_end为所述片段在参考基因组的结束位置;
如果插入序列的长度大于阈值δ,则将其记录;
步骤4)中所述插入序列si的参考基因组位置包括染色体编号、开始位置以及结束位置;
所述步骤4)中阈值γ的值为10;
5)计算RepeatHMM检测结果与短串联重复区域的序列插入检测结果的交集
对于一个短串联重复区域,如果RepeatHMM检测到该短串联重复区域存在重复单元扩张,同时检测到该短串联重复区域存在序列插入,则所述短串联重复区域称为RepeatHMM检测结果与短串联重复区域的序列插入检测结果的交集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希望组生物科技有限公司;中南大学湘雅医院,未经北京希望组生物科技有限公司;中南大学湘雅医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810499329.5/1.html,转载请声明来源钻瓜专利网。