[发明专利]一种分泌入支气管肺泡灌洗液蛋白质预测方法在审
申请号: | 202010337266.0 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111554348A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 邵丹;黄岚;王岩;何凯 | 申请(专利权)人: | 长春大学;吉林大学 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B40/00 |
代理公司: | 长春市吉利专利事务所(普通合伙) 22206 | 代理人: | 李晓莉 |
地址: | 130022 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分泌 支气管 肺泡 灌洗 蛋白质 预测 方法 | ||
一种分泌入支气管肺泡灌洗液蛋白质预测方法,属于人工智能检测技术领域,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。本发明通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。
技术领域
本发明属于人工智能检测技术领域,特别是涉及到一种分泌入支气管肺泡灌洗液蛋白质预测方法。
背景技术
支气管肺泡灌洗液是应用纤维支气管镜对支气管以下肺段和亚肺段进行灌洗后,采集肺泡表面衬液来获得。临床用于诊断多种肺部疾病,如肺泡炎、肺纤维化、石棉肺、肺癌、肺囊虫病、肺泡蛋白沉积症等的临床诊断、鉴别诊断以及研究肺部疾病的病因、发病机制、评价疗效和预后等。
通过对支气管肺泡灌洗液中蛋白质标志物进行分析,达到肺部疾病进行早期诊断。但是目前,公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种分泌入支气管肺泡灌洗液蛋白质预测方法,解决了目前公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白的技术问题。
一种分泌入支气管肺泡灌洗液蛋白质预测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本,并存储正样本蛋白质信息数据;
步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族,选取其中5个蛋白质信息作为模型训练负样本,并存储负样本的蛋白质信息数据;
步骤三、采用随机欠采样方法,对正样本和负样本数量进行均衡,获得均衡的正负样本;
步骤四、将正样本和负样本的蛋白质信息数据按照80%训练集、10%验证集、10%测试集随机进行分割;
步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM;
步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型,所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM,分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质;
步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;
步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证,获得验证后的分类器模型;输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC,作为评价模型验证效果的评估指标;
步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复所述步骤六和步骤七至分类准确性达到90%以上,分类器模型建立完成;
步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列,通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。
所述步骤六中的卷积神经网络RNN与长短期记忆LSTM结合建立分类器模型的方法为,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春大学;吉林大学,未经长春大学;吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010337266.0/2.html,转载请声明来源钻瓜专利网。