[发明专利]一种串联序列解析方法、装置和存储介质有效
| 申请号: | 202110013886.3 | 申请日: | 2021-01-06 |
| 公开(公告)号: | CN112735527B | 公开(公告)日: | 2022-09-13 |
| 发明(设计)人: | 朱欠华;杨林峰;黎剑波 | 申请(专利权)人: | 武汉华大基因技术服务有限公司 |
| 主分类号: | G16B30/10 | 分类号: | G16B30/10 |
| 代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 李小焦;彭家恩 |
| 地址: | 430075 湖北省武汉市武汉东湖新技术开发区高*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 串联 序列 解析 方法 装置 存储 介质 | ||
本申请公开了一种串联序列解析方法、装置和存储介质。本申请的方法包括,从引物序列或其反向互补序列中截取锚片段P,在测序片段中与锚片段P完全匹配处截取与引物序列等长的片段S;将两者进行精确比对,保留比对长度占引物序列50%以上的结果,记录引物序列及其类型;根据引物序列的类型判断全长插入片段和连接点,根据连接点的引物类型,进行两端延伸,分析全长插入片段和非全长插入片段。本申请的方法,通过较短的锚片段P进行引物序列的快速定位,结合精确比对,提升了引物序列的比对效率;通过识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了引物比对假阳性导致的拆分错误的问题,提升了拆分准确性和数据拆分率。
技术领域
本申请涉及核酸测序数据分析技术领域,特别是涉及一种串联序列解析方法、装置和存储介质。
背景技术
为了提升数据利用率,降低测序成本,目前的全长转录组产品,是先把目的片段基于特定的酶将多个目的片段连接起来,形成串联序列,然后再构建文库进行上机测序。但是在片段连接的过程中,由于酶活性或者片段本身的一些结构特征等影响,会出现部分片段嵌合的现象。并且,测序还会引入碱基错误率,尤其是ONT平台的数据,其错误率高达10%左右。这些因素极大的阻碍了测序数据的拆分。如何准确地进行数据拆分,是后续信息分析的基础,将极大的影响下游结果的准确性。
目前常用的做法是基于blast比对,定位接头序列的位置,然后基于相邻的两个接头序列的关系进行数据拆分。因为需要考虑测序错误率,所以一般在blast匹配接头都是容错匹配,这样会引入一些错误的接头匹配位置;而拆分是基于相邻的接头进行判断其类别,所以会出现错误拆分的情况,其拆分准确率较低。此外,一般的测序数据都是几十万条,blast比对的速度较慢,运算成本也较高。
因此,如何准确、有效的进行串联序列解析,仍然是本领域的研究重点和难点之一。
发明内容
本申请的目的是提供一种新的串联序列解析方法、串联序列解析装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种串联序列解析方法,包括以下步骤:
引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉华大基因技术服务有限公司,未经武汉华大基因技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110013886.3/2.html,转载请声明来源钻瓜专利网。





