[发明专利]编码/解码基因组序列数据的方法、基因组编码器/解码器有效
| 申请号: | 201780063014.X | 申请日: | 2017-07-11 |
| 公开(公告)号: | CN110121577B | 公开(公告)日: | 2023-09-19 |
| 发明(设计)人: | M·K·巴卢奇;C·艾伯蒂;G·佐亚;D·伦齐 | 申请(专利权)人: | 基因组系统公司 |
| 主分类号: | C40B50/00 | 分类号: | C40B50/00;G16B45/00;G16B30/10 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;李辉 |
| 地址: | 瑞士*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 编码 解码 基因组 序列 数据 方法 编码器 解码器 | ||
1.一种用于编码基因组序列数据的方法,所述基因组序列数据包括核苷酸序列的读序,所述方法包括以下步骤:
将所述读序与一个或更多个参考序列进行比对,从而创建比对读序;
根据与所述一个或更多个参考序列进行匹配的指定匹配规则,对所述比对读序进行分类,从而创建比对读序的类;
将分类后的比对读序编码为多个语法元素流,其中,将所述分类后的比对读序编码为多个语法元素流的步骤包括以下步骤:根据所述比对读序的类来选择语法元素;
将报头信息提供给所述多个语法元素流,从而创建连续的数据块,以将所述基因组序列数据熵编码成能够单独访问的数据单元,
所述方法还包括以下步骤:
将不满足所述指定匹配规则的所述读序分类成未映射读序类;
将分类后的未映射读序编码为多个语法元素流;
将报头信息提供给所述多个语法元素流和所述一个或更多个参考序列,从而创建连续的访问单元,
其中,根据与所述一个或更多个参考序列进行匹配的指定匹配规则对所述比对读序进行分类的步骤包括以下步骤:辨别在用于比对的参考序列上具有多个比对位置的基因组读序,
所述方法还包括以下步骤:
辨认读序的比对数目并且用语法元素表示该数目;
对于每个比对,辨认对应的映射位置并且用语法元素表示各个映射位置;
将比对分数分配给各个比对,以标识主比对和辅比对;
将具有最高分数的比对标识为主比对;
辨别是否在不同于主比对的参考上找到任何比对,并且使用描述符来表示这个信息;
辨别是否有任何比对未保留所述主比对在参考序列上的不同毗连性,并且使用语法元素来表示这个信息。
2.根据权利要求1所述的方法,其中,根据与所述一个或更多个参考序列进行匹配的指定匹配规则对所述比对读序进行分类的步骤包括以下步骤:辨别需要分成称为拼接段的多个片段以满足比对的匹配规则的基因组读序,
所述方法还包括以下步骤:
辨别需要分成两个以上的拼接段以根据规定与所述一个或更多个参考序列的匹配的预定匹配规则比对到参考序列上的读序;
使用全局配置参数通报拼接读序的存在;
使用语法元素来表示拼接段的数目;
使用语法元素来表示各个拼接段的长度。
3.根据权利要求1或2所述的方法,其中,待编码的基因组序列数据的读序是成对的并且被编码为单个实体。
4.根据权利要求3所述的方法,所述方法还包括以下步骤:
辨别读序对中的各个读序的比对数目并且用语法元素表示该数目;
对于读序对中的最左侧读序的每个比对,辨别对应的映射位置,并且用语法元素表示各个映射位置;
对于最左侧读序的每个比对,辨别读序对中的最右侧读序的关联的比对,并且用语法元素表示该关联;
将比对分数分配给各对比对,以标识主比对和辅比对;
将具有最高分数的一对比对标识为主比对;
辨别是否在不同于主比对的参考上找到任何比对,并且使用描述符来表示这个信息;
辨别是否有任何比对在参考序列上表现出不同于主比对的毗连性,并且使用语法元素来表示这个信息。
5.根据权利要求4所述的方法,所述方法还包括以下步骤:
辨别需要分成两个以上的拼接段以便根据预定匹配规则比对到参考序列上的读序;
使用全局配置参数通报存在拼接读序;
使用语法元素表示读序对中的最左侧读序的拼接段的数目;
用语法元素的向量表示与最左侧读序的各个比对相关联的最右侧读序的拼接段的数目;
使用语法元素来表示各个拼接段的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于基因组系统公司,未经基因组系统公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780063014.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:单晶硅晶片的缺陷区域判定方法
- 下一篇:粘结纤维以形成复合结构的方法





