[发明专利]多物种未出现k-mer子序列计算和特征分析方法及系统有效
申请号: | 201810207512.3 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108470113B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 章乐;肖铭 | 申请(专利权)人: | 四川大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 610044 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子序列 物种 全基因组 全基因组序列 预处理数据 特征分析 差异显著性分析 数据预处理 比例统计 长度变量 计算效率 数据结果 有效处理 有效分析 分析 发现 | ||
本发明提供了一种多物种未出现k‑mer子序列计算和特征分析方法及系统,该方法包括:获取原始的物种全基因组数据,并对物种全基因组数据进行数据预处理,获得全基因组序列预处理数据;基于所述物种全基因组序列预处理数据进行不同k值长度下的未出现k‑mer子序列的计算;对不同的多个物种的全基因组数据,进行多物种之间,相同k值长度下共同未出现k‑mer子序列的计算;基于未出现k‑mer子序列的数据结果,进行长度变量分析、GC含量和AG含量的比例统计分析和差异显著性分析、进行Motif发现。该方法能够有效处理多物种全基因组数据,准确计算出未出现k‑mer子序列,并且做有效分析,且有大大提高计算效率。
技术领域
本发明涉及一种对多物种全基因组数据进行不同k值长度下的未出现k-mer子序列(即LAUPs)的计算和特征分析的方法。
背景技术
生物序列的k-mer频次统计是生物信息处理中一个非常基础且重要的问题,k-mer频次统计信息可以用来揭示生物序列中各种子序列的分布规律,它是一种衡量序列相似性的重要工具。因而其在物种识别,宏基因组分类,序列拼接,多序列比对及RNA二级结构预测、CpG岛研究等众多的生物学问题上都有着重要的应用。
从国内外研究来看,在k-mer频次计算层面,王树林等研究了k-长DNA子序列在DNA全序列中出现频数的计数问题,设计并实现了k-长DNA子序列内部计数算法和外部计数算法。王磊等针对目前大多数拼接算法对于重复段的处理采用效率较低的反复迭代算法的特点,提出了基于k-mer子串的重复段分析方法,充分考虑了拼接中可能的分割点,设计与分析了识别重复序列并提高序列一致性的高效算法。Carl Kingsford等设计并开发了Jellyfish软件,运用Hash表来存储数据,同时能多线程运行,速度快,内存消耗小,该软件只能运行在64位的Linux系统下。从当前国内外情况来看,k-mer统计的计算方面往往考虑的是出现的排列,以及出现次数。很少有研究考虑到那些未出现的排列。而从在k-mer计算应用层面,RNA二级结构预测是k-mer计算非常热门的方向。例如Tinoco等提出了最小自由能模型,Zuker等针对该模型使用动态规划的方法来寻找最优结构,并且提出了Mfold算法。而这些算法,都需要一个计算的长度参数,这个参数如果过大,算法的复杂度非常高。
k-mer频次统计以及其应用研究是国际研究的热点,并且取得了很多的成果,但是现有技术中仍然存在以下的不足:
(1)大部分研究都从已有的排列入手,没有考虑那些从来未出现的序列。
(2)很少有对那些从来未出现序列的组分特性、排列特性进行的分析和研究。
(3)在k-mer运用在发现新非编码RNA或研究RNA结构预测时,当选取RNA长度过长,算法复杂度非常高。
以下对说明书中出现的英文缩写的含义进行解释如下:
LAUPs:Lineage-associated Underrepresented Permutations,与谱系有关的多物种未出现k-mer排列子序列;
GC:鸟嘌呤(guanine)和胞嘧啶(cytosine)的含量;
AT:腺嘌呤(adenine)和胸腺嘧啶(thymine)的含量;
AG:嘌呤含量,包括腺嘌呤(adenine)和鸟嘌呤(guanine);
CT:嘧啶含量,包括胞嘧啶(cytosine)和胸腺嘧啶(thymine)。
发明内容
有鉴于现有技术中存在的上述不足,本发明提供了一种针对多物种全基因组数据进行不同k值长度下的未出现k-mer子序列(LAUPs)的计算和特征分析方法,具体而言,本发明提供了如下的技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810207512.3/2.html,转载请声明来源钻瓜专利网。