[发明专利]基于DFT的RNA二级结构距离计算构建系统发育树的方法在审
申请号: | 201810551872.5 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108846262A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 昌攀;张文影;黄毅然;钟诚 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F19/28 | 分类号: | G06F19/28;G06F19/16;G06F19/22 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530022 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统发育树 二级结构 构建系统 距离计算 特征向量 物种 构建 功率谱特征 发育 比对计算 比对算法 丢失信息 公式计算 计算距离 进化关系 序列功率 复杂度 可视化 相似度 自由基 碱基 配对 映射 挖掘 分析 研究 | ||
本发明公开了基于DFT的RNA二级结构距离计算构建系统发育树的方法。通过将RNA的二级结构中的自由基和配对碱基映射成可视化的坐标系,然后利用DFT在不丢失信息的情况下挖掘RNA二级结构x、y和z轴坐标系隐藏的信息,从而获得RNA二级结构在x、y和z轴序列功率谱,通过分析DFT的功率谱特征,选取合适的提取公式计算RNA二级结构x、y和z轴上的特征值,作为RNA二级结构的特征向量,通过计算不同RNA二级结构特征向量间的距离构建物种系统发育树,研究物种的进化关系。本发明的方法,简化了通过RNA序列比对计算距离构建相似度的复杂度,避免了RNA序列比对算法忽略RNA二级结构的弊端,能够快速准确地根据物种RNA的二级结构计算距离,生成准确的系统发育树。
技术领域
本发明属于系统发育树构建方法,特别涉及基于DFT的RNA二级结构距离计算构建系统发育树的方法。
背景技术
核糖核酸(缩写为RNA,即RibonucleicAcid),近几年,越来越多的研究表明RNA在抵御细菌侵扰和治疗肿瘤方面作用重大,研究RNA分子结构的组成和特点也随之成为了一个热点问题。事实上,RNA的二级结构相比原始序列更加具有保守性,如何计算RNA二级结构间的距离用于RNA二级结构的功能预测变得尤为重要。基于比对计算RNA序列间的距离方法,消耗了大量的计算资源,耗时较长,也得不到比较好的比对结果;同时基于比对计算RNA序列间的距离方法,只考虑了RNA的一级序列顺序结构,忽略了RNA二级结构固有的自身的回折后依据特定碱基配对A-U,C-G,G-U之间的氢键形成稳定的二级结构,计算RNA二级结构间的距离不准确。无需比对计算RNA二级结构在不丢失精度的情况下,能够节约计算资源,降低计算复杂度(算法整体的时间复杂度达到O(n2),其中n为RNA二级结构序列中最长的序列长度),相比基于比对计算RNA序列间的距离方法(时间复杂度达到了O(m*n2),其中m表示基于比对的RNA二级结构序列的数量,n表示所有RNA二级结构序列中最长序列的碱基数目)具有明显的优势。
发明内容
针对上述技术问题,本发明提供基于DFT的RNA二级结构距离计算构建系统发育树的方法。
本发明解决上述技术问题的技术方案如下:
基于DFT的RNA二级结构距离计算构建系统发育树的方法,具体步骤如下:
1)RNA二级结构的映射规则:
用A,G,C,U符号分别表示RNA二级结构中未配对的碱基,用A’,G’,C’和U’分别表示RNA二级结构中的配对碱基,则得到RNA二级结构5’端到3’端的特征序列,通过如下公式(1)将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵:
式(1)中:
i=1,2,3....N;xi,yi,zi∈[-1,1];
Ai、Ui、Gi、Ci、A'i、U'i、G'i、C'i分别对应表示从上述特征序列中第一个碱基到第i个碱基中A、U、G、C和A’、U’、G’、C’中的碱基数量,N为RNA二级结构的所有碱基数量;
2)RNA二级结构x、y和z轴序列的离散傅里叶变换:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810551872.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用