[发明专利]一种提升测序平台文库拆分率的标签序列混库方法和装置有效

申请号：	201610962942.7	申请日：	2016-10-28
公开（公告）号：	CN108018607B	公开（公告）日：	2021-04-27
发明（设计）人：	刘舒;伍梓靖	申请（专利权）人：	深圳华大基因股份有限公司
主分类号：	C40B20/04	分类号：	C40B20/04;C12Q1/6869
代理公司：	深圳鼎合诚知识产权代理有限公司 44281	代理人：	孙银行;彭家恩
地址：	518083 广东省深圳市盐田***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提升平台文库拆分标签序列方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种提升测序平台文库拆分率的标签序列混库方法和装置。所述方法包括：将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。本发明的方法对标签序列的碱基作转化处理，并且设定两两混库的差异标准，根据设置的标签序列混库组合规则，确保标签序列测序成功率达到100％，标签序列的拆分率达到90％以上。

技术领域

本发明涉及测序技术领域，尤其涉及一种提升测序平台文库拆分率的标签序列混库方法和装置。

背景技术

测序平台，尤其是Illumina测序平台要求测序同一个循环(cycle)的碱基较为平衡，即最好保证每个循环每个碱基含量在25％左右。如果达不到要求，由于A、C碱基共用红激光，G、T碱基共用绿激光，至少也要保证每个循环要分别存在两个激发光中的1个碱基以保障机器能正常聚焦和运行，否则会在相应的循环出现测序质量差或者读N情况。

标签序列(index)，例如华大基因研发的不同标签序列的编号对应的序列差异各异，按照现有的标签序列两两混库(pooling，或称池化)方法，无法保证每个循环都至少能存在两种激发光中各自对应的1个碱基。因而在实际标签序列测序时，出现了标签序列个别循环读N，影响文库拆分率或者整体标签序列数据较差，直接导致数据无法拆分或者拆分率低。

发明内容

本发明针对现有标签序列测序拆分率低的问题，提供一种提升测序平台文库拆分率的标签序列混库方法和装置。

根据本发明的第一方面，本发明提供一种提升测序平台文库拆分率的标签序列混库方法，包括：

将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；

选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。

进一步地，将标签序列中每个位置的A、C碱基替换为符号A，将G、T碱基替换为符号B。

进一步地，上述标签序列的长度是4-10个碱基，优选6-8个碱基。

进一步地，选取二者转换后在≥4个位置有差异的序列进行混库。

进一步地，上述测序平台是Illumina Hiseq/Miseq测序平台。

根据本发明的第二方面，本发明提供一种提升测序平台文库拆分率的标签序列混库装置，包括：

序列转换单元，用于将多个标签序列中每个位置的A、C碱基替换为同一个符号，将G、T碱基替换为另一个符号，从而将每个标签序列转换成由两种符号表示的序列；

序列比对单元，用于选取标签序列转换后两两标签序列在大于2个位置有差异的序列进行混库。