[发明专利]一种用于预测蛋白质功能的数据多标签分类方法在审
申请号: | 202010984625.1 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112365931A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 丁家满;李红磊 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B5/00 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 预测 蛋白质 功能 数据 标签 分类 方法 | ||
本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。本发明包括步骤:把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题,同时本方法可操作性强,实用性强,不仅在基本蛋白质功能预测问题上表现出了良好性能,也在其他蛋白质功能预测上表现出了良好的性能。
技术领域
本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。
背景技术
随着生物信息领域研究的不断加深,蛋白质成为最炙手可热的研究领域之一。人类对DNA序列认知数量的与日俱增使得新发现的蛋白质序列也飞速增加。面对数量 如此庞大的蛋白质序列,对其进行信息挖掘和分类研究是生物信息研究中不可或缺的 工作。蛋白质功能预测本质上是一个多标签分类问题,其预测精度与分类器的性能密 切相关。分类器是机器学习研究中的关键步骤,其运用统计理论对数据进行规律寻找, 对样本未知的标签进行预测。
分类器的研究发展非常迅速,其与蛋白质研究的结合也越来越紧密。早在2003 年张等人就使用贝叶斯分类器尝试对蛋白质高级结构进行预测研究。之后的2006年,Sudipto等人引入支持向量机(SVM)分类器进行蛋白质功能的预测。同时,K-近邻 分类器(KNN)、决策树、贝叶斯分类器等机器学习方法很快就被研究者们所使用。 近年来,较为流行的深度学习算法也得到蛋白质研究者的关注。
但是在研究中学者很快发现,由于样本数目的增大,单独使用某种分类器已经难以达到研究的需求,降维思想以及分类器等技术迅速与生物信息相结合。随着机器学 习算法的不断更新完善,针对蛋白质序列的相关研究有着越来越大的发展空间。
发明内容
本发明提供了一种用于预测蛋白质功能的数据多标签分类方法,能对蛋白质序列生物数据进行预测标签分类,从而用于能够高效解决蛋白质标签缺失情况下的功能的 预测问题。
本发明的技术方案是:一种用于预测蛋白质功能的数据多标签分类方法,所述方法包括:Step1、把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式 进行降维处理;
Step2、构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;
Step3、利用构建好的标签分类模型进行预测标签分类。
作为本发明的进一步方案,所述步骤Step1包括:
Step1.1、蛋白质序列生物数据用向量X表示,X=[x1,x2,…xn]T∈Rn×m,也用作 蛋白质预测模型训练数据,并且训练数据对应的蛋白质标签被表示为 Y=[y1,y2,…,yn]T∈{0,1}n×l,yi,j=1表示第i个蛋白质具有第j个标签yj,yi,j=0表 示第i个蛋白质没有标签yj或者该值未被观测到,即丢失,对任意非零的矩阵W,其中 wi和wj分别代表第i行和第j列,wi,j是矩阵中第(i,j)个元素;
Step1.2、从蛋白质序列生物数据的向量形式中提取出来最具辨识度的低维特征,用于得到一个简洁且有效的特征子空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010984625.1/2.html,转载请声明来源钻瓜专利网。