[发明专利]一种针对叠加水印的长DNA序列的插入删节的分段识别方法有效
申请号: | 202110572789.8 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113300720B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 葛奇;陈为刚;杨晋生;韩昌彩 | 申请(专利权)人: | 天津大学 |
主分类号: | H03M13/11 | 分类号: | H03M13/11;H03M13/29 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 叠加 水印 dna 序列 插入 删节 分段 识别 方法 | ||
1.一种针对叠加水印的长DNA序列的插入删节的分段识别方法,其特征在于,所述方法包括以下步骤:
(1)针对由叠加水印的长DNA分子测序得到的长度为的存在插入、删节与替代错误的读出序列
(2)改进观测向量的输出概率公式,基于网格图运行前向传递和后向传递,利用硬判决算法估计每个碱基位置的最大可能概率,推断每个碱基距离原始位置的偏移;
(3)对水印序列按照固定长度分段,给每个水印短片段的边界位置建立偏移索引,并基于索引计算与其对应的读出序列边界位置,将读出序列划分为若干长度不同的数据片段;
(4)对分段后的若干测序读出片段,依次递归计算中间度量,结合前向-后向软判决算法对向量
2.根据权利要求1所述的一种针对叠加水印的长DNA序列的插入删节的分段识别方法,其特征在于,所述针对由叠加水印的长DNA分子测序得到的长度为的存在插入、删节与替代错误的读出序列
(1.1)根据三代测序的错误特性与前期测序实验的统计数据的积累,估计读出序列的插入错误概率Pi,删除错误概率Pd,替代错误概率Ps以及传输概率Pt=1-Pi-Pd;
(1.2)定义第i时刻的碱基偏移量xi为从发送碱基t0至待发送碱基ti间存在的插入数目减去删节数目,将碱基偏移量xi作为隐马尔科夫模型的隐藏状态,将碱基最大偏移量限定为xmax,以降低算法的计算量,xmax定义为N为设计的长DNA序列的初始长度,xi的取值范围为X={-xmax,...,-1,0,1,...,xmax};
(1.3)定义测序读出长DNA序列
(1.4)在状态xi=a转变为状态xi+1=b时,对应的输出序列被定义为
(1.5)根据观测向量的传输过程建立隐马尔科夫模型状态转移网格图,网格图中的每个节点对应第i个位置的偏移量xi,将(x0,x1,···,xi,···,xN-1)表示为隐马尔科夫模型的状态序列,定义I为最大的连续插入错误数目,每个发送碱基对应一个长度从0到I+1的读出碱基序列,即当xi=a时,xi+1=b的取值范围是{a-1,···,a+I}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110572789.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类