[发明专利]一种跨物种编码多肽sORF的预测方法在审

专利信息
申请号: 202111305379.3 申请日: 2021-11-05
公开(公告)号: CN114154396A 公开(公告)日: 2022-03-08
发明(设计)人: 郭丽;姜雯雯;夏道良 申请(专利权)人: 南京邮电大学
主分类号: G06F30/27 分类号: G06F30/27;G06K9/62;G06F119/02
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 刘妍妍
地址: 210003 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 物种 编码 多肽 sorf 预测 方法
【权利要求书】:

1.一种跨物种编码多肽sORF的预测方法,其特征在于,包括以下步骤:

将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集,分别得到与之对应的非编码sORFs数据集;将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;

提取各数据集中相应的特征参数;结合最大相关最小冗余策略和增量选择方法选取表现较好的特征,构建相应特征集;构建基于支持向量机肽编码sORFs的预测模型,将训练集的特征集用于模型训练;利用贪婪的网格搜索方法对训练模型进一步优化,分别得到指定参数范围内的最佳预测模型;

利用预测模型对测试集进行预测,分析各数据集预测结果,比较评估不同特征选取策略的预测效率,得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。

2.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,从sORF数据库中下载人和小鼠的编码序列,从TAIR数据库中下载拟南芥的CDS,从NCBI数据库中下载部分原核生物基因组的CDS;根据数据过滤策略滤除“错误”序列,得到多个物种的肽编码sORFs的数据集。

3.根据权利要求2所述的一种跨物种编码多肽sORF的预测方法,其特征在于,“错误”序列过滤策略为:

滤除sORF长度≥100aa;

滤除序列长度不能被3整除的sORF;

滤除以终止密码子开头的sORF;

滤除不以终止密码子结尾的sORF;

滤除序列中带有终止密码子的sORF。

4.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,

非编码序列产生策略为:固定起始密码子和终止密码子,随机打乱每个正sORF序列;

确保在序列末端的终止密码子之前没有任何终止密码子。

5.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,去冗余方法为:

通过CDHit程序,将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;

去冗余阈值设为0.80,滤除相似度大于80%的DNA序列。

6.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,根据9种不同的特征选取策略,提取各数据集中相应的特征参数;所述9种不同的特征选取策略分别为:CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。

7.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,利用PyCharm软件提取各数据集中DNA序列的特征参数;利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法,完成特征排序,构建相应的特征集。

8.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,

网格搜索方法的参数设置:

cmin:惩罚参数c的变化范围的最小值;默认为-5;

cmax:惩罚参数c的变化范围的最大值;默认为5;

gmin:参数g的变化范围的最小值;默认为-5;

gmax:参数g的变化范围的最大值;默认为5;

v:交叉验证的参数;默认为3;

cstep:参数c步进的大小;默认为1;

gstep:参数g步进的大小;默认为1;

accstep:最后显示准确率图时的步进大小;默认为1.5。

9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法,其特征在于,利用matlab的libsvm包,利用预测模型对测试集进行跨物种预测,根据Sn、Sp、ACC、MCC,4个指标分析预测结果,对预测模型进行比较评估,将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。

10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法,评估指标计算公式如下:

其中,Sn为灵敏度,Sp为特异度,ACC为准确率,MCC为马修斯相关系数,TP为真正例,FN为假负例,TN为真负例,FP假正例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111305379.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top