[发明专利]一种基因测序数据重组封装的方法和装置有效
申请号: | 202110810347.2 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113268461B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 郭祥学;张巍 | 申请(专利权)人: | 广州嘉检医学检测有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G16B30/00;G16B50/50 |
代理公司: | 广州君策达知识产权代理事务所(普通合伙) 44749 | 代理人: | 陈宏升 |
地址: | 510000 广东省广州市黄埔区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序数 重组 封装 方法 装置 | ||
1.一种基因测序数据重组封装的方法,其特征在于,包括如下步骤:
步骤1:构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同组合;
步骤2:获取样品中染色体的第二基因序列;
步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
步骤4:将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前段,基因片段的后端的N个核苷酸定义为后段;
步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;
步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;
步骤7:将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的第一基因序列的编号发送给数据接收端;
步骤8:当数据接收端接收到基因组数据、第一基因序列的编号后,将基因组数据进行解压缩,参考基因字典提取出每个染色体上的核苷酸数据,通过前段、后段的核苷酸序列以及前段后段之间的核苷酸的数量来确定基因片段在标准基因上的位置,还原得到样品的第二基因序列。
2.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述N为3或4或5或6。
3.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述基因片段的长度大于N个核苷酸。
4.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。
5.一种基因测序数据重组封装装置,其特征在于,包括如下模块:
存储模块:用于存储和构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同组合;
标准基因组选择模块:将样品的各个染色体的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
比对模块:用于将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前段,基因片段的后端的N个核苷酸定义为后段;
字典化模块:用于将基因片段中的核苷酸以N个为一组依次进行分组;用于将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;用于将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的参考基因的代号发送给数据接收端。
6.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述N为3或4或5或6。
7.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述基因片段的长度大于N个核苷酸。
8.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州嘉检医学检测有限公司,未经广州嘉检医学检测有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810347.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多波段的平场校正方法、装置及计算机可读介质
- 下一篇:数据压缩方法及装置