[发明专利]一种跨物种编码多肽sORF的预测方法在审
| 申请号: | 202111305379.3 | 申请日: | 2021-11-05 |
| 公开(公告)号: | CN114154396A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 郭丽;姜雯雯;夏道良 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06F119/02 |
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 刘妍妍 |
| 地址: | 210003 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 物种 编码 多肽 sorf 预测 方法 | ||
1.一种跨物种编码多肽sORF的预测方法,其特征在于,包括以下步骤:
将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集,分别得到与之对应的非编码sORFs数据集;将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;
提取各数据集中相应的特征参数;结合最大相关最小冗余策略和增量选择方法选取表现较好的特征,构建相应特征集;构建基于支持向量机肽编码sORFs的预测模型,将训练集的特征集用于模型训练;利用贪婪的网格搜索方法对训练模型进一步优化,分别得到指定参数范围内的最佳预测模型;
利用预测模型对测试集进行预测,分析各数据集预测结果,比较评估不同特征选取策略的预测效率,得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。
2.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,从sORF数据库中下载人和小鼠的编码序列,从TAIR数据库中下载拟南芥的CDS,从NCBI数据库中下载部分原核生物基因组的CDS;根据数据过滤策略滤除“错误”序列,得到多个物种的肽编码sORFs的数据集。
3.根据权利要求2所述的一种跨物种编码多肽sORF的预测方法,其特征在于,“错误”序列过滤策略为:
滤除sORF长度≥100aa;
滤除序列长度不能被3整除的sORF;
滤除以终止密码子开头的sORF;
滤除不以终止密码子结尾的sORF;
滤除序列中带有终止密码子的sORF。
4.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,
非编码序列产生策略为:固定起始密码子和终止密码子,随机打乱每个正sORF序列;
确保在序列末端的终止密码子之前没有任何终止密码子。
5.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,去冗余方法为:
通过CDHit程序,将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;
去冗余阈值设为0.80,滤除相似度大于80%的DNA序列。
6.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,根据9种不同的特征选取策略,提取各数据集中相应的特征参数;所述9种不同的特征选取策略分别为:CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。
7.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,利用PyCharm软件提取各数据集中DNA序列的特征参数;利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法,完成特征排序,构建相应的特征集。
8.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,
网格搜索方法的参数设置:
cmin:惩罚参数c的变化范围的最小值;默认为-5;
cmax:惩罚参数c的变化范围的最大值;默认为5;
gmin:参数g的变化范围的最小值;默认为-5;
gmax:参数g的变化范围的最大值;默认为5;
v:交叉验证的参数;默认为3;
cstep:参数c步进的大小;默认为1;
gstep:参数g步进的大小;默认为1;
accstep:最后显示准确率图时的步进大小;默认为1.5。
9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法,其特征在于,利用matlab的libsvm包,利用预测模型对测试集进行跨物种预测,根据Sn、Sp、ACC、MCC,4个指标分析预测结果,对预测模型进行比较评估,将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。
10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法,评估指标计算公式如下:
其中,Sn为灵敏度,Sp为特异度,ACC为准确率,MCC为马修斯相关系数,TP为真正例,FN为假负例,TN为真负例,FP假正例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111305379.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能座椅电器节能温控系统
- 下一篇:一种文档预览实现系统





