[发明专利]基于新上下文的经比对的测序数据中的改进质量值压缩框架在审
| 申请号: | 202180013026.8 | 申请日: | 2021-01-27 |
| 公开(公告)号: | CN115088038A | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | S·尚达科;张贻谦 | 申请(专利权)人: | 皇家飞利浦有限公司 |
| 主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B50/50 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
| 地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 上下文 序数 中的 改进 质量 压缩 框架 | ||
1.一种用于压缩信息的方法,包括:
(a)访问基因组测序数据的读段;
(b)将所述读段与参考进行比对;
(c)基于所述读段的比对来生成比对数据;
(d)基于所述比对数据来获得一组一个或多个上下文;
(e)基于所述一组上下文来压缩与所述比对数据相对应的质量值,其中,所述比对数据提供对所述基因组测序数据中的错误的指示,并且其中,所述质量值中的每个质量值提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。
2.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于根据计数的自适应算术编码被压缩。
3.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于根据神经网络预测的算术编码被压缩。
4.根据权利要求1所述的方法,其中,经比对的基因组测序数据在(e)中基于算术编码被压缩,其中,算术编码模式和训练流程是基于一个或多个准则来选择的,其中,所述一个或多个准则包括:数据大小、预测能力、处理效率、训练数据的可用性或与其他系统或用途的兼容性。
5.根据权利要求1所述的方法,其中,所述一组上下文包括所述读段与参考碱基之间的匹配。
6.根据权利要求1所述的方法,其中,所述一组上下文包括以下各项中的至少一项:不匹配的存在和不匹配的类型。
7.根据权利要求1所述的方法,其中,所述一组上下文包括围绕所述质量值中的一个或多个质量值的参考序列中的若干碱基。
8.根据权利要求1所述的方法,其中,所述一组上下文包括跨当前或附近的基因组坐标处的多个碱基的平均质量值。
9.根据权利要求1所述的方法,其中,所述一组上下文包括使用映射到相同基因组坐标的读段的堆积来测量的当前和附近的错误。
10.根据权利要求1所述的方法,其中,(d)包括:
基于一个或多个准则来选择所述一组上下文,
其中,所述一个或多个准则包括:数据集类型、数据集大小、上下文大小、上下文的预测能力或要压缩的数据的量。
11.一种用于压缩信息的系统,包括:
存储器,其被配置为存储指令;以及
处理器,其被配置为运行用于执行以下操作的指令:
(a)访问基因组测序数据的读段;
(b)将所述读段与参考进行比对;
(c)基于所述读段的比对来生成比对数据;
(d)基于所述比对数据来获得一组一个或多个上下文;
(e)基于所述一组上下文来压缩与所述比对数据相对应的质量值,其中,所述比对数据提供对所述基因组测序数据中的错误的指示,并且其中,所述质量值中的每个质量值提供对所述基因组测序数据中的一个或多个碱基处的错误的概率的指示。
12.根据权利要求11所述的系统,其中,所述处理器要基于根据计数的自适应算术编码来压缩经比对的基因组测序数据。
13.根据权利要求11所述的系统,其中,所述处理器要在(e)中基于根据神经网络预测的算术编码来压缩经比对的基因组测序数据。
14.根据权利要求11所述的系统,其中,所述处理器要在(e)中基于算术编码来压缩经比对的基因组测序数据,算术编码模式和训练流程是基于一个或多个准则来选择的,其中,所述一个或多个准则包括:数据大小、预测能力、处理效率、训练数据的可用性或与其他系统或用途的兼容性。
15.根据权利要求11所述的系统,其中,所述一组上下文包括所述读段与参考碱基之间的匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180013026.8/1.html,转载请声明来源钻瓜专利网。





