[发明专利]基于DFT的RNA二级结构距离计算构建系统发育树的方法在审
申请号: | 201810551872.5 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108846262A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 昌攀;张文影;黄毅然;钟诚 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F19/28 | 分类号: | G06F19/28;G06F19/16;G06F19/22 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530022 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于DFT的RNA二级结构距离计算构建系统发育树的方法。通过将RNA的二级结构中的自由基和配对碱基映射成可视化的坐标系,然后利用DFT在不丢失信息的情况下挖掘RNA二级结构x、y和z轴坐标系隐藏的信息,从而获得RNA二级结构在x、y和z轴序列功率谱,通过分析DFT的功率谱特征,选取合适的提取公式计算RNA二级结构x、y和z轴上的特征值,作为RNA二级结构的特征向量,通过计算不同RNA二级结构特征向量间的距离构建物种系统发育树,研究物种的进化关系。本发明的方法,简化了通过RNA序列比对计算距离构建相似度的复杂度,避免了RNA序列比对算法忽略RNA二级结构的弊端,能够快速准确地根据物种RNA的二级结构计算距离,生成准确的系统发育树。 | ||
搜索关键词: | 系统发育树 二级结构 构建系统 距离计算 特征向量 物种 构建 功率谱特征 发育 比对计算 比对算法 丢失信息 公式计算 计算距离 进化关系 序列功率 复杂度 可视化 相似度 自由基 碱基 配对 映射 挖掘 分析 研究 | ||
【主权项】:
1.基于DFT的RNA二级结构距离计算构建系统发育树的方法,其特征在于,具体步骤如下:1)RNA二级结构的映射规则:用A,G,C,U符号分别表示RNA二级结构中未配对的碱基,用A’,G’,C’和U’分别表示RNA二级结构中的配对碱基,则得到RNA二级结构5’端到3’端的特征序列,通过如下公式(1)将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵:
式(1)中:i=1,2,3....N;xi,yi,zi∈[‑1,1];
Ai、Ui、Gi、Ci、A'i、U'i、G'i、C'i分别对应表示从上述特征序列中第一个碱基到第i个碱基中A、U、G、C和A’、U’、G’、C’中的碱基数量,N为RNA二级结构的所有碱基数量;2)RNA二级结构x、y和z轴序列的离散傅里叶变换:将步骤1)得到的(3×N)的二维矩阵拆分成只包含[x1,x2,x3......xN]的x轴序列Lx(N),只包含[y1,y2,y3......yN]的y轴序列Ly(N),只包含[z1,z2,z3......zN]的z轴序列Lz(N),分别将Lx(N)、Ly(N)和Lz(N)进行DFT变换,对应得到序列Fx(k)、Fy(k)和Fz(k);所述Lx(N)的DFT变换公式如下:
式(2)中,k=0,1,2,...,N‑1,N表示RNA二级结构序列的长度;同理Ly(N)和Lz(N)分别进行DFT变换对应得到Fy(k)和Fz(k)序列;Fx(k)在特定的k频率下的DFT功率谱PSx(k)表示如式(3):PSx(k)=|Fx(k)|2,k=0,1,...,N‑1 (3)同理分别得到Fy(k)和Fz(k)对应的功率谱Psy(k)和PSz(k);3)提取功率谱的特征值:根据步骤2)所得的功率谱PSx(k)、Psy(k)和PSz(k),按公式(4)提取RNA二级结构x轴上功率谱的特征值:
同理分别得到y轴和z轴上的特征值;则每一个RNA二级结构表示成唯一的三维向量[Px,Py,Pz]’;4)物种系统发育树的建立:具体步骤如下:4.1)使用欧式距离计算不同物种RNA二级结构间的距离dis(i,j),具体公式如下:
式(5)中,i,j分别表示不同物种,ik和jk表示RNA二级结构的特征向量,用式(5)分别计算出t个物种任意两个物种i和j之间的距离,则得到一个t×t的距离矩阵D;D是一个对角线全部为0的对称矩阵,每一个元素D[i,j]表示了物种i与物种j之间的RNA二级结构的距离;4.2)将步骤4.1)得到的距离矩阵D导入到分子进化遗传分析软件MEGA6.0中,构建系统发育树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810551872.5/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用