[发明专利]过滤酶切建库方式引入噪音的方法和装置有效
申请号: | 202111649916.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114334006B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 蒋才;戴鹏;程陶然;朱文鑫 | 申请(专利权)人: | 纳昂达(南京)生物科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G06K9/62;G06F16/16 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 路秀丽 |
地址: | 210031 江苏省南京市江北新区华康路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 酶切建库 方式 引入 噪音 方法 装置 | ||
本发明公开了一种过滤酶切建库方式引入噪音的方法和装置。该方法包括:获取酶切建库双端测序下机数据并比对至参考基因组序列,再从中提取含有Soft Clip标记的读段,并统计各读段中Soft Clip碱基数;将Soft Clip碱基数大于阈值T1的读段记为候选处理序列,并提取各候选处理序列的比对位置以及Soft Clip碱基序列;根据各候选处理序列的比对位置前后延伸D长度得到延伸区域,并寻找与Soft Clip碱基序列相似的序列,若相似度大于阈值T2,视为含有酶切噪音的读段存于去除文件中;过滤掉含有的读段,得到去除噪音的比对文件。有效过滤artifact序列,提高检测准确性。
技术领域
本发明涉及生物信息分析方法,具体而言,涉及一种过滤酶切建库方式引入噪音的方法和装置。
背景技术
随着二代测序(Next-Generation Sequencing,NGS)技术的发展,研究者对建库效率的要求随之提高。由于目前各个厂家测序仪的读长有限,所以基因组片段化是构建文库的第一步,目前常见的片段化方法有机械法片段化和酶切片段化法。机械法片段化主要利用超声波打断基因组,其原理是利用超声波伸缩共振,将基因组进行片段化,该方法的优点在于产生的片段稳定、均一、无偏好性,是目前二代测序建库中片段化的金标准。但超声打断也有其无法克服的局限性,如仪器耗材成本高、不同质量和降解程度的样本需要摸索不同的打断时间、过长的打断时间导致DNA损伤等。因此便捷、经济、高效的酶切片段化方法逐步被用于手动化和自动化建库。该方法是利用片段化酶对基因组进行随机打断,其显著的特点是比较温和,并且能够更好的保留DNA完整性,可显著简化建库流程和缩短时间成本。
但是在酶的作用下,DNA片段上部分反向重复序列异常结合在一起,形成了颈环结构,它们可在下游的末端修复和PCR扩增后,产生重复的、属于人工合成错误引入的异常序列,被称为Artifact序列。Artifact序列是酶切NGS建库方法可能引入的主要噪音序列,因为Artifact序列是DNA片段上真实分子异常组合,而不是测序过程中产生的错误,所以Artifact序列碱基质量高,即使所占比例较低,仍会对突变分析造成显著的影响,尤其是对低频突变的检测。Artifact序列导致的假阳性突变的频率约在0.1%-30%之间,难以通过分子标签去除,因此迫切需要一种方法来最大程度地消除酶切建库方式所引入的噪音干扰。
发明内容
本发明提供一种过滤酶切建库方式引入噪音的方法和装置,以解决现有技术中此类噪音难以消除的问题。
根据本申请的第一个方面,提供了一种酶切建库方式引入噪音的过滤方法,包括以下步骤:获取酶切建库双端测序下机数据与参考基因组序列的初始比对结果文件;从初始比对结果文件中提取含有Soft Clip标记的读段,并统计各读段中Soft Clip碱基数;将Soft Clip碱基数大于阈值T1的读段记为候选处理序列,并提取各候选处理序列在参考基因组上的比对位置以及候选处理序列中的Soft Clip碱基序列;根据各候选处理序列在参考基因组上的比对位置前后延伸D长度,得到延伸区域,并在各延伸区域内寻找与SoftClip碱基序列相似的序列,如果相似序列的相似度大于阈值T2时,读段视为含有酶切噪音的读段,存放于去除文件中;从初始比对结果文件中过滤掉去除文件中含有的读段,得到去除酶切建库方式引入噪音的比对文件;其中,相似度是指延伸区域内与Soft Clip碱基序列的比对匹配率。
进一步地,从初始比对结果文件中提取含有Soft Clip标记的读段,并统计各读段中Soft Clip碱基数的步骤中,将初始比对结果文件切割成若干份进行多进程并行处理,优选地,将初始比对结果文件切割成若干份进行多进程并行处理时,根据初始比对结果文件的行数M和进程数目N,按照int(M/N)+1计算每个分割文件大小,得到均等分割比对文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纳昂达(南京)生物科技有限公司,未经纳昂达(南京)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649916.6/2.html,转载请声明来源钻瓜专利网。