[发明专利]一种提升测序平台文库拆分率的标签序列混库方法和装置有效
申请号: | 201610962942.7 | 申请日: | 2016-10-28 |
公开(公告)号: | CN108018607B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 刘舒;伍梓靖 | 申请(专利权)人: | 深圳华大基因股份有限公司 |
主分类号: | C40B20/04 | 分类号: | C40B20/04;C12Q1/6869 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 孙银行;彭家恩 |
地址: | 518083 广东省深圳市盐田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提升 平台 文库 拆分 标签 序列 方法 装置 | ||
本发明公开了一种提升测序平台文库拆分率的标签序列混库方法和装置。所述方法包括:将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。本发明的方法对标签序列的碱基作转化处理,并且设定两两混库的差异标准,根据设置的标签序列混库组合规则,确保标签序列测序成功率达到100%,标签序列的拆分率达到90%以上。
技术领域
本发明涉及测序技术领域,尤其涉及一种提升测序平台文库拆分率的标签序列混库方法和装置。
背景技术
测序平台,尤其是Illumina测序平台要求测序同一个循环(cycle)的碱基较为平衡,即最好保证每个循环每个碱基含量在25%左右。如果达不到要求,由于A、C碱基共用红激光,G、T碱基共用绿激光,至少也要保证每个循环要分别存在两个激发光中的1个碱基以保障机器能正常聚焦和运行,否则会在相应的循环出现测序质量差或者读N情况。
标签序列(index),例如华大基因研发的不同标签序列的编号对应的序列差异各异,按照现有的标签序列两两混库(pooling,或称池化)方法,无法保证每个循环都至少能存在两种激发光中各自对应的1个碱基。因而在实际标签序列测序时,出现了标签序列个别循环读N,影响文库拆分率或者整体标签序列数据较差,直接导致数据无法拆分或者拆分率低。
发明内容
本发明针对现有标签序列测序拆分率低的问题,提供一种提升测序平台文库拆分率的标签序列混库方法和装置。
根据本发明的第一方面,本发明提供一种提升测序平台文库拆分率的标签序列混库方法,包括:
将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;
选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
进一步地,将标签序列中每个位置的A、C碱基替换为符号A,将G、T碱基替换为符号B。
进一步地,上述标签序列的长度是4-10个碱基,优选6-8个碱基。
进一步地,选取二者转换后在≥4个位置有差异的序列进行混库。
进一步地,上述测序平台是Illumina Hiseq/Miseq测序平台。
根据本发明的第二方面,本发明提供一种提升测序平台文库拆分率的标签序列混库装置,包括:
序列转换单元,用于将多个标签序列中每个位置的A、C碱基替换为同一个符号,将G、T碱基替换为另一个符号,从而将每个标签序列转换成由两种符号表示的序列;
序列比对单元,用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。
进一步地,将标签序列中每个位置的A、C碱基替换为符号A,将G、T碱基替换为符号B。
进一步地,上述标签序列的长度是4-10个碱基,优选6-8个碱基。
进一步地,选取二者转换后在≥4个位置有差异的序列进行混库。
进一步地,上述测序平台是Illumina Hiseq/Miseq测序平台。
本发明的标签序列混库方法,对标签序列的碱基作转化处理,并且设定两两混库的差异标准,根据设置的标签序列混库(index pooling)组合规则,确保标签序列测序成功率达到100%,标签序列的拆分率达到90%以上。
附图说明
图1为本发明一个实施方案的标签序列混库方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因股份有限公司,未经深圳华大基因股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610962942.7/2.html,转载请声明来源钻瓜专利网。