[发明专利]基于Xgboost的全基因组RNA二级结构预测方法在审

申请号：	201811314747.9	申请日：	2018-11-06
公开（公告）号：	CN109215740A	公开（公告）日：	2019-01-15
发明（设计）人：	肖侬;柯耀斌;饶家华;杨跃东;陈志广;卢宇彤	申请（专利权）人：	中山大学
主分类号：	G16B40/00	分类号：	G16B40/00
代理公司：	广州润禾知识产权代理事务所(普通合伙) 44446	代理人：	凌衍芬
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供基于Xgboost的全基因组RNA二级结构预测方法，包括：获取RNA序列和RNA序列中碱基位点配对的可能性值；配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本；将正负样本组合成的样本数据集划分为训练集和测试集，将训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；利用训练与测试后的机器学习模型进行RNA二级结构的预测。利用本发明得到RNA在形成二级结构时，每一个碱基位点会形成配对的概率分数，根据概率分数，能为下一步二级结构的形成提供判断依据。
搜索关键词：	碱基配对机器学习模型二级结构概率分数碱基位点全基因组序列片段测试集训练集预测测试判断依据样本数据正负样本负样本正样本加载算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，包括步骤：获取RNA序列和所述RNA序列中碱基位点配对的可能性值；配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本，所述正样本、负样本组合成样本数据集；将样本数据集划分为训练集和测试集，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；利用训练与测试后的机器学习模型进行RNA二级结构的预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811314747.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Xgboost的全基因组RNA二级结构预测方法在审

专利文献下载