[发明专利]一种针对叠加水印的长DNA序列的插入删节的分段识别方法有效

申请号：	202110572789.8	申请日：	2021-05-25
公开（公告）号：	CN113300720B	公开（公告）日：	2022-06-28
发明（设计）人：	葛奇;陈为刚;杨晋生;韩昌彩	申请（专利权）人：	天津大学
主分类号：	H03M13/11	分类号：	H03M13/11;H03M13/29
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对叠加水印 dna 序列插入删节分段识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对叠加水印的长DNA序列的插入删节的分段识别方法，其特征在于，所述方法包括以下步骤：

(1)针对由叠加水印的长DNA分子测序得到的长度为的存在插入、删节与替代错误的读出序列r，基于水印序列和错误传输模型建立隐马尔科夫模型，确定隐藏状态和观测向量，建立状态转移网格图；

(2)改进观测向量的输出概率公式，基于网格图运行前向传递和后向传递，利用硬判决算法估计每个碱基位置的最大可能概率，推断每个碱基距离原始位置的偏移；

(3)对水印序列按照固定长度分段，给每个水印短片段的边界位置建立偏移索引，并基于索引计算与其对应的读出序列边界位置，将读出序列划分为若干长度不同的数据片段；

(4)对分段后的若干测序读出片段，依次递归计算中间度量，结合前向-后向软判决算法对向量d上的符号似然函数l进行估计，根据估计值作硬判决处理，然后与水印序列相异或，得到纠正后的片段，进而拼接为长DNA序列。

2.根据权利要求1所述的一种针对叠加水印的长DNA序列的插入删节的分段识别方法，其特征在于，所述针对由叠加水印的长DNA分子测序得到的长度为的存在插入、删节与替代错误的读出序列r，基于水印序列和错误传输模型建立隐马尔科夫模型，确定隐藏状态和观测向量，建立状态转移网格图，具体步骤为：

(1.1)根据三代测序的错误特性与前期测序实验的统计数据的积累，估计读出序列的插入错误概率P_i，删除错误概率P_d，替代错误概率P_s以及传输概率P_t＝1-P_i-P_d；

(1.2)定义第i时刻的碱基偏移量x_i为从发送碱基t₀至待发送碱基t_i间存在的插入数目减去删节数目，将碱基偏移量x_i作为隐马尔科夫模型的隐藏状态，将碱基最大偏移量限定为x_max，以降低算法的计算量，x_max定义为N为设计的长DNA序列的初始长度，x_i的取值范围为X＝{-x_max,...,-1,0,1,...,x_max}；

(1.3)定义测序读出长DNA序列r为r＝r⁽⁰⁾r⁽¹⁾...r^(N-1)，其子序列为将r作为观测向量，子序列r⁽ⁱ⁾的传输过程由x_i-1→x_i的状态转移决定；

(1.4)在状态x_i＝a转变为状态x_i+1＝b时，对应的输出序列被定义为u，根据映射规则{(00)→Α，(01)→T，(10)→G，(11)→C}将读出序列解映射为比特对u₁和u₂，双层水印序列分别为w_1i和w_2i，在水印序列上的噪声包含两部分：信息序列m经编码后，得到符号序列d，经过稀疏器后生成的稀疏码字s及过信道产生的替代错误P_s，故定义有效替代概率P_f为P_f＝f(1-P_s)+(1-f)P_s，其中f为长度为n的稀疏码的平均密度；

(1.5)根据观测向量的传输过程建立隐马尔科夫模型状态转移网格图，网格图中的每个节点对应第i个位置的偏移量x_i，将(x₀,x₁,···,x_i,···,x_N-1)表示为隐马尔科夫模型的状态序列，定义I为最大的连续插入错误数目，每个发送碱基对应一个长度从0到I+1的读出碱基序列，即当x_i＝a时，x_i+1＝b的取值范围是{a-1,···,a+I}。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110572789.8/1.html，转载请声明来源钻瓜专利网。

上一篇：防夹控制方法、装置、电子设备以及存储介质
下一篇：一种安全监测用视频监控装置

同类专利

专利分类

H 电学

H03 基本电子电路
H03M 一般编码、译码或代码转换
H03M13-00 用于检错或纠错的编码、译码或代码转换；编码理论基本假设；编码约束；误差概率估计方法；信道模型；代码的模拟或测试
H03M13-01 .编码理论基本假设；编码约束；误差概率估算方法；信道模型；代码的模拟或测试
H03M13-03 .用数据表示中的冗余项检错或前向纠错，即码字包含比源字更多的位数
H03M13-25 .由信号空间编码进行的检错或前向纠错，即在信号丛中增加冗余项，例如梳状编码调制
H03M13-27 .应用交错技术的
H03M13-29 .合并两个或多个代码或代码结构，例如乘积码、广义乘积码、链接码、内层码和外层码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对叠加水印的长DNA序列的插入删节的分段识别方法有效

专利文献下载