[发明专利]一种基于参考的基因压缩方法在审
| 申请号: | 202111678445.1 | 申请日: | 2021-12-31 |
| 公开(公告)号: | CN114520025A | 公开(公告)日: | 2022-05-20 |
| 发明(设计)人: | 蒋艳凰;黄立磊;康佳琪;毛海波;冯博伦;廖馥璇;孙兴强 | 申请(专利权)人: | 人和未来生物科技(长沙)有限公司 |
| 主分类号: | G16B50/50 | 分类号: | G16B50/50 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚;周长清 |
| 地址: | 410000 湖南省长沙市长沙高*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 参考 基因 压缩 方法 | ||
1.一种基于参考的基因压缩方法,其特征在于,步骤包括:
步骤S1:获取当前待压缩的base行数据直接压缩的代价cost0;
步骤S2:将直接压缩的代价cost0与基于参考基因组的压缩代价cost2进行比较,如果cost0小于等于cost2,则用直接压缩的方法压缩当前base行;否则用基于参考基因组的压缩方法压缩当前base行。
2.根据权利要求1所述的基于参考的基因压缩方法,其特征在于,所述步骤S1包括:
步骤S101:读取当前待压缩的base行数据curr_base,其长度为len;
步骤S102:计算当前base行直接压缩的代价cost0;
3.根据权利要求2所述的基于参考的基因压缩方法,其特征在于,所述步骤S102中,cost0的计算方法为:
cost0=cost_noref(curr_base,len)
其中cost_noref为直接压缩的代价预估方法,用实际的压缩方法去进行压缩,得到压缩后的bits数,用压缩后的bits代表cost0。
4.根据权利要求2所述的基于参考的基因压缩方法,其特征在于,所述步骤S102中,cost_noref的预估流程为:
步骤S1000:对curr_base进行游程编码,获取编码bits数,记为GIS_bits(curr_base);
步骤S1001:cost0=GIS_bits(curr_base)。
5.根据权利要求1-4中任意一项所述的基于参考的基因压缩方法,其特征在于,所述步骤S2中,从参考基因组中搜索与curr_base的最佳匹配序列curr_ref和匹配ref_pos;计算当前base行采用最佳匹配序列curr_ref进行压缩的代价cost2。
6.根据权利要求5所述的基于参考的基因压缩方法,其特征在于,所述步骤S2中,cost2的计算方法如下:
cost2=cost_ref(curr_base,curr_ref,len,ref_pos)
其中cost_ref为基于参考基因序列的代价预估方法,先计算curr_base与curr_ref的异或curr_nor,计算压缩curr_nor的bits数和ref_pos的编码bits数的和来估算。
7.根据权利要求5所述的基于参考的基因压缩方法,其特征在于,所述步骤S2中,所述cost_ref的预估流程为:
步骤S10000:对curr_base和curr_ref进行异或,得到curr_nor序列;
步骤S10001:对curr_nor进行游程编码,获取编码bits数,记为GIS_bits(curr_nor);
步骤S10002:ref_pos为4个bits;
步骤S10003:估算curr_ref的bits,对curr_ref进行GZ编码得到编码bits数,记为GZ-bits(curr_ref),计算cost2时对该值进行加权,统计当前该基因片段被参考的次数为N_refed,加权系数w设置为如下函数:
w=0.2 当N_refed=5时;
w=1/N_refed 当N_refed5时;
步骤S1004:cost2=GIS_bits(curr_nor)+4+GZ_bits(curr_ref)*w。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111678445.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种渡口客流量统计系统
- 下一篇:一种铝合金模板表面钝化处理工艺





