[发明专利]一种针对叠加水印的长DNA序列的插入删节的分段识别方法有效
申请号: | 202110572789.8 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113300720B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 葛奇;陈为刚;杨晋生;韩昌彩 | 申请(专利权)人: | 天津大学 |
主分类号: | H03M13/11 | 分类号: | H03M13/11;H03M13/29 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 叠加 水印 dna 序列 插入 删节 分段 识别 方法 | ||
本发明公开了长DNA序列存储的插入删节分段识别方法。针对由叠加水印的长DNA分子经过三代测序、组装得到的存在插入删节错误的长序列在采用硬判决纠错时性能存在损失,以及采用软判决算法时,状态转移网格图过大导致中间度量计算复杂度高问题,首先对长序列建立隐马尔科夫模型,利用硬判决前向‑后向算法计算每个碱基距离原始位置的偏移,给每个碱基建立偏移索引;然后对水印序列分段并按照分段后的水印序列边界的偏移索引将读出序列划分为若干长度不同的片段;最后依次对短序列片段采用软判决前向‑后向算法估计符号似然概率,完成纠错。本发明提出的分段式纠错方法可以有效地减少网格图的大小,降低纠错复杂度。
技术领域
本发明属于利用DNA的数据存储领域,尤其涉及一种针对叠加水印的长DNA序列的插入删节的分段识别方法。
背景技术
随着信息技术的飞速发展,全球产生的数据量快速增长。然而,当前存储技术的发展速度严重滞后于数据量的快速增长,并且光盘、硬盘和磁带等传统标准存储介质寿命有限,维护成本高,难以满足日益增长的数据存储需求。随着合成技术、测序技术以及组装技术的发展,合成DNA凭借密度高,能耗低,介质保存时间久等优点为海量数据的档案存储提供了另一种选择,引起了研究者们的广泛兴趣。近年来,研究者尝试将信息数据存储在DNA中,并证明其在“冷”数据存储方面可行性。然而,由于在DNA合成、样本扩增、测序以及最终碱基识别中的缺陷,多种类型的错误会对测序读段造成破坏,包括核苷酸插入、删除和替换错误。
DNA信道中引入的错误过程与通信系统中的信息传输过程遇到错误的过程类似。例如,高速通信系统中的时钟抖动、偏移造成插入、删节错误;无线光通信系统中的差分脉冲位置调制(Differential Pulse-Position Modulation,DPPM)系统中,码片因噪声发生跳表引起插入、删节;高密度磁存储系统中的比特图形化介质(Bit-Patterned Media,BPM)存储系统中,介质缺陷、读写电路不完善或时钟抖动、磁头震动问题都会造成插入和删节的发生。最常见的DNA合成错误是单碱基的删节,在大规模并行寡核苷酸合成过程中,替代和插入错误也很常见。Heckel等人通过分析之前的研究结果,发现错误主要来自合成和测序,也受到存储DNA降解和聚合酶链反应(polymerase chain reaction,PCR)的影响,在测序时,替代错误比删节和插入更有可能发生。目前使用最广泛的DNA测序平台是Illumina测序仪,它是基于图像处理和合成测序的概念,其本身存在10-3~10-4的错误率。另一种正在快速发展的DNA测序方法是纳米孔测序技术,例如第三代高通量测序:牛津纳米孔(OxfordNanopore Technology,ONT)测序中,利用DNA分子通过纳米孔引起孔内电流变化的电信号来确定DNA链的核苷酸序列,其测序读段长,速度快,无需PCR扩增过程且极具便携性,受到越来越广泛的重视,但其读段精度较低,导致测序后的数据中错误率较高,达到10%-15%。
一条含有4个天然核苷酸的DNA链上每个DNA字符最多可编码2比特。在最大码率下,信息中没有冗余,不能进行错误校正。然而,DNA合成和测序过程引入了错误,需要有效的错误纠正码来保证信息的可靠性恢复。纠错码降低了码率,但在将信息编码为DNA字符,以及读取端将DNA字符解码为信息位时,纠错码对于防止错误是必要的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110572789.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类