[发明专利]一种GPU加速的DNA序列压缩方法及系统在审
申请号: | 201810068072.8 | 申请日: | 2018-01-24 |
公开(公告)号: | CN108287985A | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 朱泽轩;彭聪;孙怡雯 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F19/28 | 分类号: | G06F19/28 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 王利彬 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图形处理器 压缩 元数据 变换算法 匹配结果 中央处理器CPU 中央处理器 基因技术 计算单元 索引算法 异步运行 质量分数 编码器 基因组 模板链 算法 稀疏 匹配 参考 | ||
1.一种GPU加速的DNA序列压缩方法,其特征在于,包括:
中央处理器采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;
所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
2.如权利要求1所述的DNA序列压缩方法,其特征在于,所述中央处理器采用模板链算法对元数据进行简化包括:
所述中央处理器选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
3.如权利要求2所述的DNA序列压缩方法,其特征在于,所述分隔符包括逗号、句号、冒号、等号、空格和连接号。
4.如权利要求1所述的DNA序列压缩方法,其特征在于,所述图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配包括:
所述图形处理器查找所述参考基因组中前缀的位置,取k-mer的哈希值构建哈希索引表,所述哈希索引表中包含每一条k-mer的哈希值、出现频率和出现位置;
将所述哈希索引表保存至内存中,根据所述哈希索引表将N×N个DNA碱基序列异步地传输到一个N×N的匹配矩阵中,在所述匹配矩阵的每个位置保存一个DNA碱基序列,所述匹配矩阵中的每个位置表示所述图形处理器的一个计算单元;
找到所述DNA碱基序列上的两个前缀并计算其k-mer值,在所述哈希索引表上找到与所述两个前缀最接近的位置,并将每一字符进行比较,得到匹配结果。
5.如权利要求1所述的DNA序列压缩方法,其特征在于,所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列包括:
所述图形处理器将所述匹配结果、所述简化后的元数据和所述质量分数分别进行编码,得到编码数据;
将所述编码数据分割为N×N份,将分割得到的N×N份数据异步地传输到一个N×N的计算矩阵中,所述计算矩阵的每个位置保存一份数据,所述计算矩阵的每个位置表述所述图形处理器的一个计算单元;
所述计算矩阵中的每个位置对各自保存的数据分别进行Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器的编码,得到压缩后的DNA序列。
6.一种GPU加速的DNA序列压缩系统,其特征在于,包括:
中央处理器,用于采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器,用于利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;所述图形处理器还用于采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
7.如权利要求6所述的DNA序列压缩系统,其特征在于,所述中央处理器具体用于:
选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810068072.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用