[发明专利]一种RNA结构比对方法在审
申请号: | 201810039783.2 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108334748A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 刘士勇;郑进芳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/22 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 许恒恒;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比对 比对结果 核苷酸 矩阵 相似性分数 空间距离 三级结构 序列比对 方差 叠加 收敛 引入 统一 | ||
本发明公开了一种RNA比对方法。该方法包括获得RNA初始比对结果;根据RMscore进行打分;计算比对上的核苷酸的空间距离,直到小于的核苷酸对不再变化为止;获取收敛矩阵,直到获得稳定的RNA三级结构比对结果。本发明的RNA结构比对方法能获得叠加好的结构和序列比对结果。该方法RMalign不依赖于RNA长度,通过引入RMscore,相比于现有技术的方法使得RNA比对更加的精确;本发明将描述RNA之间的相似性统一到(0,1)这个区间中,减少了描述RNA相似性分数的方差。
技术领域
本发明属于结构比对领域,具体的,涉及到一种RNA结构比对程序。
背景技术
为了揭示RNA之间结构与功能的关系,就需比较RNA结构之间的相似,还得有一个量来描述这些RNA结构上的相似性。在目前的RNA采用的各种不同的方法来比对RNA的结构。第一种方法是将RNA看成一个是归一化的向量,然后再叠合这些向量。第二种方法是将RNA看成是三维空间中的一条曲线,结合RNA的序列信息变成一个四位的空间,然后使用测地线距离来描述RNA结构的相似性。第三种方法是将三维的RNA结构离散成一维的结构。然后使用传统的序列比对的方法来比对这些结构上的相似性。但是这些RNA结构比对的存在着如下问题:缺乏一个归一化的且不依赖RNA长度的分数来描述RNA结构间的相似度;缺乏一个方便使用的方法来比对RNA结构。
在蛋白质领域,已经存在着一个这样的一个比对方法TMalign,由于蛋白质和RNA在物化上存在着差异,完全使用蛋白质领域中的方法会得到一个错误的比对结果。因此我们针对现有技术的缺陷,基于TMalign,开发了一个RNA结构比对的方法RMalign。相对于TMalign,我们更新由于表示蛋白质和RNA物化上差异的参数。从而得到了一个描述RNA结构之间相似性的特异性分数RMscore,基于RMscore,我们得到用一个专门比对RNA结构的方法RMalign。
发明内容
针对现有技术的缺陷,本发明提供了一种RNA结构比对的方法RMalign,RMalign依靠RMscore分数来描述RNA结构之间的相似度。其目的在于解决当前RNA结构比对方法中依赖RNA长度的分数来描述RNA结构间的相似度问题。
本发明提供了一种RNA结构比对方法,包括以下步骤:
(1)将比对RNA和被比对RNA进行序列比对,得到初始序列比对结果,使用叠加算法计算所述初始序列比对结果,得到平移向量和旋转矩阵R;
(2)将步骤(1)得到的平移向量和旋转矩阵R根据作用到被比对RNA原始结构上后,与比对RNA进行叠加形成叠加好的结构A1;所述指的是被比对RNA的空间坐标;
(3)将步骤(2)得到的叠加好的结构A1根据公式得到距离矩阵S(i,j);其中dij是比对RNA核苷酸序列的第i个碱基和被比对RNA核苷酸序列的第j个碱基的距离;其中d0由公式计算得到,LN指的是比对RNA和被比对RNA片段的平均核苷酸个数,A、B、C、D、E和F是任意正数;
(4)将步骤(3)得到的距离矩阵作为打分矩阵,并将比对RNA和被比对RNA进行序列比对,得到第一序列比对结果;
(5)将步骤(4)中得到的第一序列比对结果使用RMscore打分过程进行打分,得到最大的RMscore分数以及对应的旋转矩阵R1;所述RMscore打分过程包括以下步骤:
(S1)选取步骤(4)中所述第一序列比对结果中比对上的核苷酸对片段,所述片段至少含有3对连续的比对上的核苷酸对,将所述片段的核苷酸对质心均移动到原点,将叠加算法运用到质心移动到原点的片段上,得到旋转矩阵R2;
(S2)根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加好的结构A2;所述是被比对的RNA空间坐标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810039783.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用