[发明专利]基于关系图谱的蛋白质亚细胞区间预测方法有效
| 申请号: | 201811014322.6 | 申请日: | 2018-08-31 |
| 公开(公告)号: | CN109273054B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 薛卫;陈行健;胡雪娇;徐阳春;韦中;梅新兰 | 申请(专利权)人: | 南京农业大学 |
| 主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B35/00 |
| 代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 刘畅;徐冬涛 |
| 地址: | 211225 江苏省南京市溧*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 关系 图谱 蛋白质 细胞 区间 预测 方法 | ||
1.一种基于关系图谱的蛋白质亚细胞区间预测方法,其特征在于它包括以下步骤:
(1)对数据集中所有的蛋白质序列即目标序列按照一定的长度进行分割处理产生若干个序列单词,提取所有序列单词的特征;
(2)对序列单词的特征进行聚类分析,用K-means聚类算法构建字典,聚类中心个数即为字典大小,经聚类分析后序列单词的特征被映射到字典中的各个聚类中心;步骤(2)的具体步骤为:
(2-A):使用K-means算法对序列单词特征进行聚类分析构建字典,核心思想是按照类内方差和最小的原则,将序列单词特征分为不同类别,聚类中心个数即为字典大小;
(2-B):对蛋白质序列进行量化描述,将蛋白质序列的各个序列单词特征映射到字典中与之距离最近的聚类中心,则蛋白质序列可由若干个聚类中心唯一表示,即对于任意蛋白质序列经上述步骤后可定义为:
F=(x1,x2,x3,…,xn),1≤i≤n,n∈Z
其中F为蛋白质序列,xi表示序列F中第i个序列单词特征所映射的聚类中心,n为序列单词的分割长度;
(3)对由聚类中心表示的序列单词提取位置关系图谱并送入卷积神经网络CNN进行特征提取;步骤(3)的具体步骤为:
(3-A):提取关系图谱:
(3-A-1):依次遍历蛋白质序列F,即for(i=1;i≤n;i++),对F中任意聚类中心xi,与其相邻聚类中心xj组成一个聚类片段(xi,xj),j取值依次为i-k到i-1,其中k为相邻间隔系数,则序列F共可得到组聚类片段;
(3-A-2):随机生成一个大小为m*m的矩阵D,矩阵的行和列分别对应相应的聚类中心,根据每组聚类片段(xi,xj)出现的次数对矩阵进行赋值,即令D(xi,xj)+=1;
(3-A-3):重复步骤(3-A-2),直到i=n;然后得到相应的m*m的位置关系矩阵;
(3-A-4):将位置关系矩阵中各元素的值采取不同亮度的像素点表示即获得关系图谱;
(3-B):关系图谱降维:将关系图谱送入卷积神经网络CNN进行特征提取,CNN由输入层、卷积层、下采样层、全连接层和输出层组成:
输入层即为关系图谱X;
卷积层通过制定不同的窗口值对X进行特征提取,卷积后获得的关系图谱表示为:
Ci=g(Wi*Ci-1+bi)
其中,Wi代表卷积神经网络中第i层卷积核的权值向量,bi代表第i层的偏置值,Ci表示第i层的特征图,当i=0时,C0=X,g表示激活函数,采用纠正线性单元ReLU作为激活函数;
下采样层即对图谱进行下采样,在尽可能保留关系图谱完整信息的同时通过对特征图进行降维来减少后续层的参数,公式表述为:
Ci=max(Ci-1)
全连接层采用dropout技术,在训练过程中按照一定的比例舍弃部分神经元,使用交叉熵作为损失函数进行权值更新,并引入权重衰减对参数进行正则化;
输出层提取全连接层的输出作为关系图谱的特征向量表示;
(4)统计每一条蛋白质序列属于各个聚类中心的序列单词个数,并计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,然后与步骤(3)所得到的关系图谱特征进行融合,经PCA降维后得到蛋白质序列最终的融合特征;
(5)将蛋白质序列的融合特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京农业大学,未经南京农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811014322.6/1.html,转载请声明来源钻瓜专利网。





