[发明专利]编码/解码基因组序列数据的方法、基因组编码器/解码器有效
| 申请号: | 201780063014.X | 申请日: | 2017-07-11 |
| 公开(公告)号: | CN110121577B | 公开(公告)日: | 2023-09-19 |
| 发明(设计)人: | M·K·巴卢奇;C·艾伯蒂;G·佐亚;D·伦齐 | 申请(专利权)人: | 基因组系统公司 |
| 主分类号: | C40B50/00 | 分类号: | C40B50/00;G16B45/00;G16B30/10 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;李辉 |
| 地址: | 瑞士*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 编码 解码 基因组 序列 数据 方法 编码器 解码器 | ||
本公开涉及编码/解码基因组序列数据的方法、基因组编码器/解码器。当基因组测序机产生的基因组序列数据在一个或更多个参考序列上进行比对时,表示和处理该基因组序列数据的方法和装置。通过将读序相对于已有的或构造的参考序列进行比对来编码该读序。在比对之后,编码处理包括将读序分类成数据类,接着就描述符层的多重性对各个数据类进行编码。使用特定的源模型和熵编码器对用于表示各个数据类的描述符的子集进行编码。
相关申请的交叉引用
本申请要求专利申请PCT/EP2016/074311、PCT/EP2016/074301、PCT/EP2016/074307、PCT/EP2016/074297、PCT/US2017/17842、PCT/US2017/17841的优先权和权益。
技术领域
本公开提供了一种表示基因组测序数据的新方法,该基因组测序数据相对于具有多个比对坐标或比对点的一个或更多个参考序列进行了比对,该表示需要将读序分割成更小的片段(也称为“拼接读序”)。所公开的表示方式通过提供已知现有技术的表示方法所不具有的新功能而减少了所用存储空间并改善了访问性能。
背景技术
基因组测序数据的适当表示是实现高效的基因组分析应用(例如基因组变异检测(variants calling)以及通过处理基因组测序数据和元数据而出于各种目的进行的所有其它分析)的基础。
由于高产出低成本测序技术的出现,人类基因组测序变得可负担得起。这种机会在从癌症的诊断和治疗到遗传疾病的辨认、从抗体辨认的病原体监测到新疫苗、药物的开发以及个性化治疗的定制的若干领域中开辟了新的前景。
医院、基因组分析提供商、生物信息和大型生物数据存储中心正在寻找可负担得起的、快速的、可靠的和互连的基因组信息处理方案,该基因组信息处理方案应该能够使基因医学发扬到世界范围。由于测序处理中的瓶颈之一已经变成数据存储问题,因此越来越多地研究以压缩形式表示基因组测序数据的方法。
测序数据的最常用的基因组信息表示基于压缩FASTQ和SAM格式。目标是压缩传统上使用的文件格式(对于非比对数据和比对数据,分别是FASTQ和SAM)。这样的文件由纯文本字符构成,并且如上所述通过使用诸如LZ(来自Lempel和Ziv,发布第一版的作者)方案(公知的zip、gzip等)的通用方法来进行压缩。当使用诸如gzip的通用压缩器时,压缩的结果通常是一大团的二进制数据。这种单体形式的信息导致很难存档、传送和说明,特别是在高产出测序的情况下,数据量非常大时。BAM格式的特点是压缩性能较差,因为它侧重于压缩低效和冗余的SAM格式,而不是提取SAM文件传达的实际基因组信息,并且采用了通用的文本压缩算法(如gzip)而没有利用每个数据源(基因组数据本身)的特定性质。
SAM的另一个重要制约是不能恰当地支持与基因组读序或读序对相关联的多个比对(也称为多个映射)的表示。基因组读序比对包括根据下一代测序(Next GenerationSequencing)技术产生的读序来重建测序样本的基因组信息的过程。可以在先前完全不知道来源基因组的情况下,或者使用已有的基因组作为参考,来进行该重建。后一种方法在本领域中被称为“基于参考的比对”。在基于参考的比对中,将由测序样本产生的基因组读序与已有的参考序列进行比较,以找到相对于该读序表现出最小数量的差异(如果有的话)的参考序列的区域。这个过程被称为将读序与参考序列进行“比对”或“映射”。
由于一些基因组区域的重复特性,读序可能以相同的精度比对至多个位置。例如,同一读序可以完美地(即,没有任何失配)与参考序列上的相同长度的两个以上片段匹配。在这种情况下,这两个以上的比对被认为是等效的,并且该读序被认为具有“多个比对”。图15例示了这种情况。在其它情况下,不同的比对可以具有不同的精度,例如,一个比对可以不存在失配(完全匹配),而另一个比对可以具有一个或更多个失配。在这种情况下,使用评分系统来对多个比对进行排名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于基因组系统公司,未经基因组系统公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780063014.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单晶硅晶片的缺陷区域判定方法
- 下一篇:粘结纤维以形成复合结构的方法





