[发明专利]基于双重测序数据检测低频突变的方法、装置及存储介质在审
申请号: | 202210061903.5 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114530199A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 浦丹;陈慧敏;向旭东;李杰;张扬;舒坤贤 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B20/50;G16B30/10;G06F16/215 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双重 序数 检测 低频 突变 方法 装置 存储 介质 | ||
本发明请求保护一种基于双重测序数据检测低频突变的方法、装置及存储介质,本发明通过降低read family所包含的读段数目的阈值为1以及充分利用读段互补的特性来筛选read family,保留读段数目大于等于2的read family,或者保留只含有1条读段的read family,且该读段能与读段数目大于等于2的read family生成的SSCS序列互补,或者保留均只含有一条读段,但所含读段之间互补的两个read families。对3类read family采用贝叶斯定理确定每个位置上的一致性碱基及其质量分数,然后根据一致性碱基生成单链一致性序列SSCS,两条互补SSCS进一步形成DCS。最后,将DCS与参考基因组再次比对,识别读段上的低频突变以及测序错误。本发明能有效抑制高通量测序数据错误,提高低频突变检测的准确率。
技术领域
本发明涉及生物信息学领域,特别涉及一种基于双重测序数据检测低频突变的方法和装置。
背景技术
在肿瘤活检和循环无细胞核酸等DNA样本中,突变可能以极低的频率(小于0.01%)存在于所测体细胞DNA分子中。检测这些极低频率的体细胞突变在肿瘤早期诊断、监测和预后、法医鉴定、产前诊断等方面具有广阔的应用前景。新一代测序(Next-generation sequencing,NGS)技术的发展改变了生物和医学科学领域的研究规模和深度。由于NGS具有大规模、高通量、低成本等特点,它不仅能实现大型基因组的分析,而且能有效地识别体细胞变异。然而,NGS的高错误率(错误率约为10-3-10-2)掩盖了频率低于测序错误率的真实突变,使低频突变的检测仍然是具有如下挑战。第一,低频体细胞突变的检测需要深度测序。但是,增加测序深度进而增加了测序成本。第二,在测序模板量充足和测序深度足够的情况下,由于NGS工作流程中积累的伪影,使极低频率的突变仍然难以检测。这些伪影可能来源于样品制备过程中的DNA碱基损伤、富集和文库扩增过程中DNA聚合酶的错误碱基掺入以及最终测序读数的错误。为了提高低频变异的识别能力,科学家提出了一系列NGS纠错方法。基于分子标签(Unique molecule identifier,UMI)的双重测序能有效抑制高通量测序错误,是一种能够检测和量化极低频突变的方法。当文库制备时,该方法在原始DNA模板的两端加上一段特有的标签序列,文库经PCR扩增和NGS测序后,进行测序数据分析。测序数据分析时,由正义链和负义链中相同的标签序列识别同一DNA模板扩展出的多个读段(reads)分别组合聚集在一起,形成正义链和反义链的单链一致性序列(single-strandconsensus sequence,SSCS);将生成的正义链SSCS与互补的反义链SSCS进行比较,进一步生成双链一致性序列(duplex consensus sequence,DCS),将DCS与参考基因组再次进行比较,进行突变或者测序错误的识别。由于基于UMI的双重测序方法利用正义链和反义链的配对原则进行进一步纠错,大幅提高了NGS测序错误的抑制效果。然而,由于仅保留含有读段大于等于3的read families用于生成SSCS,因此造成SSCS生成DCS的效率低,导致测序数据利用率低,而且与传统NGS相比,该方法需要更高的测序深度。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061903.5/2.html,转载请声明来源钻瓜专利网。