[发明专利]一种基于参考序列的基因压缩方法有效
申请号: | 201910598102.0 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110310709B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 季一木;陈帅;尧海昌;李奎;刘尚东;方厚之;刘强 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16B50/50 | 分类号: | G16B50/50 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 序列 基因 压缩 方法 | ||
1.一种基于参考序列的基因压缩方法,其特征在于,包括以下步骤:
步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
步骤2)、参考基因文件碱基信息Hash值计算;使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段的方法:
首先将A、C、G、T信息编码,分别使用0、1、2、3表示;其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中;
Hash值计算方法:
对于一段字符x10x9x8x7x6x5x4x3x2x1x0,其中xi对应的编码为code(xi),则计算Hash值的方式为
其中,HashValue表示Hash值;
步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910598102.0/1.html,转载请声明来源钻瓜专利网。