[发明专利]基于Xgboost的全基因组RNA二级结构预测方法在审
申请号: | 201811314747.9 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109215740A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 肖侬;柯耀斌;饶家华;杨跃东;陈志广;卢宇彤 | 申请(专利权)人: | 中山大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 广州润禾知识产权代理事务所(普通合伙) 44446 | 代理人: | 凌衍芬 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 碱基 配对 机器学习模型 二级结构 概率分数 碱基位点 全基因组 序列片段 测试集 训练集 预测 测试 判断依据 样本数据 正负样本 负样本 正样本 加载 算法 | ||
本发明提供基于Xgboost的全基因组RNA二级结构预测方法,包括:获取RNA序列和RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本;将正负样本组合成的样本数据集划分为训练集和测试集,将训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。利用本发明得到RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据概率分数,能为下一步二级结构的形成提供判断依据。
技术领域
本发明涉及生物信息学研究领域,具体涉及基于Xgboost的全基因组RNA二级结构预测方法。
背景技术
RNA二级结构预测是分子生物学的一个重要研究领域,对于推动生命科学的发展具有极其重要的意义。RNA分子结构由三级结构组成:一级结构、二级结构、三级结构。RNA二级结构是指RNA序列由自身回折形成的茎环结构,是一种介于一级结构和三级结构之间的结构,且存储较多高级结构信息,因此RNA二级结构的研究成为生物信息学领域的重要研究问题。二级结构的确定主要有两种方法:物理化学的实验方法和数学计算的预测方法。实验方法主要包括X射线晶体衍射和核磁共振(NMR)。虽然实验方法得到的结果精确,但由于RNA分子降解速度快,难以结晶,故通过等实验方法测定RNA分子的结构很不容易,费时费力,代价高昂,无法满足今天海量RNA二级结构预测的需求。另外实验方法只能测定包含较少碱基的RNA序列的二级结构,而面对分子量较大的RNA时,实验方法的精确度会急剧下降。
为了解决上述实验方法的弊端,人们开始着手借助数学计算方法,并结合计算机从理论上去预测RNA的二级结构,然后做进一步的验证。当只给定RNA的一级序列而缺少先验知识,传统的RNA二级结构预测方法一般采用最小自由能模型。该模型假设所有RNA都会折叠成一个具有最小自由能的二级结构,而二级结构中的每段模体(motif)都有相应的自由能计算方法,一般茎区的自由能为负值,环区自由能为正,茎区越长其自由能越小。因此可以近似的认为,配对的碱基使自由能降低,没有形成配对的碱基则会使自由能升高。
申请号为CN200910218023.9的专利公开了基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,属生物信息学研究领域,该发明将RNA序列重新编码,使RNA序列以编码序列的形式存储于SRAM中,并根据匹配表得到长度为n的茎区集合,对所有长度为n的茎区采用向右延伸的策略得到所有长度大于n的茎区集合,将得出的相应于RNA序列的所有可能的茎区集合存储于SDRAM中等待调用,然后通过ARM控制芯片随机选取某一茎区作为蚁群算法的初始结点,并利用轮盘赌的策略选择下一茎区,直至可选择的茎区集合为空,最后计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构,按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算,直至达到给定的迭代步数或满足循环退出的条件,以括号法的模式输出RNA序列二级结构到LCD中,最终得到自由能最小的二级结构。但是,实验证明,真实结构往往不是自由能最小的二级结构。而且,自由能迄今为止还没有完全精确的计算规则。虽然可人为设定一个阈值将目标输出。但实际上,人为阈值设定,往往会带来输出目标过多或过少的问题,从而极大影响准确率等。
发明内容
为解决上述问题,本发明提供基于Xgboost的全基因组RNA二级结构预测方法,该方法中算法的准确性和运算效率就会得到很大的提高。
该技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811314747.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:阿尔茨海默症相关基因的预测方法
- 下一篇:生物信息可视化装置及方法