[发明专利]一种基于深度学习模型获取多基因风险评分的方法及系统有效
申请号: | 201911342136.X | 申请日: | 2019-12-24 |
公开(公告)号: | CN111128298B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 马宝山;李重阳;严浩文;方明坤 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 涂文诗;邓珂 |
地址: | 116000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 模型 获取 多基因 风险 评分 方法 系统 | ||
1.一种基于深度学习模型获取多基因风险评分的方法,其特征在于,包括:
S1、对原始SNP样本数据进行预处理;
S2、创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;在创建所述深度学习模型之前还包括将预处理之后的SNP样本数据划分为训练数据以及测试数据;
S3、对所述深度学习模型进行优化;
S4、基于优化后的深度学习模型对待评分的SNP数据进行评分;
所述深层神经网络模型的创建过程包括:
S201、设定所述深层神经网络模型的输入层,其中,训练样本数为m,SNP位点数为n,则SNP数据对应的矩阵表示为X(m*n),其中,所述矩阵中的每一行对应一个SNP数据,每一列对应所述SNP数据的位点;
S202、设定所述深层神经网络模型每层之间采用全连接的方式,即除输入层外,模型中各个神经元存储的数据与上一层所有神经元有关,对应的关系如下述公式所示:
其中,Nh,k表示第h层第k个神经元,h≥2,wh-1,k表示第h-1层的第k个神经元的权重,bh-1,k表示第h-1层的第k个神经元的偏置,f()表示激活函数;
S203、基于数据变量对应的表型,计算所述深层神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
其中标签Y用于计算模型前向传播的误差,表示所述模型前向传播的输出向量,w,b分别表示所述模型中所有神经元的权重和偏置;
若所述表型为二值离散型变量,则对应的损失函数公式为下述公式
其中,y(i)表示标签Y的第i个元素,表示的第i个元素;
所述卷积神经网络模型的创建过程包括:
S211、设定所述卷积神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,以对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示SNP样本数据的个数;
S212、设定所述卷积神经网络模型的卷积层与池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;
S213、设定输出层以及连接所述池化层与输出层的全连接层;
S214、基于数据变量对应的表型,计算所述卷积神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
若所述表型为离散型变量,则对应的损失函数公式为下述公式
其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置;
所述残差神经网络模型的创建过程包括:
S221、设定所述残差神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,即1行n列对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示样本数据的个数;
S222、设定所述残差神经网络模型的卷积层和池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;且为实现在不增加计算量的同时改变该层的通道数则在该层对应的支路上使用1*1的卷积核进行处理;
S223、设定输出层以及连接所述池化层与输出层的全连接层;
S224、基于数据变量对应的表型,计算所述残差神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
若所述表型为离散型变量,则对应的损失函数公式为下述公式
其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置。
2.一种基于深度学习模型获取多基因风险评分的系统,其特征在于,包括:
数据预处理单元,该单元能够对原始SNP样本数据进行预处理;
模型创建单元,该单元能够创建SNP数据与疾病风险评分关系的深度学习模型,所述深度学习模型至少包括深层神经网络模型、卷积神经网络模型和残差神经网络模型;其中,所述深层神经网络模型的创建过程包括:
S201、设定所述深层神经网络模型的输入层,其中,训练样本数为m,SNP位点数为n,则SNP数据对应的矩阵表示为X(m*n),其中,所述矩阵中的每一行对应一个SNP数据,每一列对应所述SNP数据的位点;
S202、设定所述深层神经网络模型每层之间采用全连接的方式,即除输入层外,模型中各个神经元存储的数据与上一层所有神经元有关,对应的关系如下述公式所示:
其中,Nh,k表示第h层第k个神经元,h≥2,wh-1,k表示第h-1层的第k个神经元的权重,bh-1,k表示第h-1层的第k个神经元的偏置,f()表示激活函数;
S203、基于数据变量对应的表型,计算所述深层神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
其中标签Y用于计算模型前向传播的误差,表示所述模型前向传播的输出向量,w,b分别表示所述模型中所有神经元的权重和偏置;
若所述表型为二值离散型变量,则对应的损失函数公式为下述公式
其中,y(i)表示标签Y的第i个元素,表示的第i个元素;
所述卷积神经网络模型的创建过程包括:
S211、设定所述卷积神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,以对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示SNP样本数据的个数;
S212、设定所述卷积神经网络模型的卷积层与池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;
S213、设定输出层以及连接所述池化层与输出层的全连接层;
S214、基于数据变量对应的表型,计算所述卷积神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
若所述表型为离散型变量,则对应的损失函数公式为下述公式
其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置;
所述残差神经网络模型的创建过程包括:
S221、设定所述残差神经网络模型的输入层,其中,所述输入层为被表示成1*n*1*m四个维度的SNP样本数据构成;其中前两个维度对应的1与n表示1行n列,即1行n列对应每个SNP样本数据的形状,第三个维度1表示通道数,第四维度m表示样本数据的个数;
S222、设定所述残差神经网络模型的卷积层和池化层,所述卷积层包括多个1*f大小的卷积核组成,其中,卷积核的个数对应该层输出数据的通道数;且为实现在不增加计算量的同时改变该层的通道数则在该层对应的支路上使用1*1的卷积核进行处理;
S223、设定输出层以及连接所述池化层与输出层的全连接层;
S224、基于数据变量对应的表型,计算所述残差神经网络模型前向传播的误差,即若所述表型为连续型变量,则对应的损失函数公式为下述公式
若所述表型为离散型变量,则对应的损失函数公式为下述公式
其中,wfilter,bfilter,wfc,bfc分别表示卷积核的权重、偏置,全连接层神经元的权重、偏置;
模型优化单元,该单元能够对所述深度学习模型进行优化;
数据评分单元,该单元能够基于优化后的深度学习模型对待评分的SNP数据进行评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911342136.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种KU波段高频头
- 下一篇:高效节水深度处理与节能型零排处理设备及方法