[发明专利]一种基于深度学习的多肽检测方法在审

申请号：	201911205827.5	申请日：	2019-11-29
公开（公告）号：	CN112885411A	公开（公告）日：	2021-06-01
发明（设计）人：	张晓哲;赵凡;赵楠	申请（专利权）人：	中国科学院大连化学物理研究所
主分类号：	G16B40/20	分类号：	G16B40/20;G16B30/00;G16B20/00
代理公司：	北京元周律知识产权代理有限公司 11540	代理人：	史冬梅
地址：	116023 ***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习多肽检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于深度学习的多肽检测方法，包括：获取训练样本的质谱联用数据；根据质谱联用数据获取训练集；利用训练集训练基于深度学习的目标检测模型，利用训练后的目标检测模型检测待测样本中的多肽。本发明中的基于深度学习的多肽检测方法，基于深度学习方法具有较强的特征提取能力，可有效捕获多肽的2D分布特征，实现不同多肽的强鲁棒性检测和高灵敏度检测；同时，本发明中的约束函数中所使用的分类误差函数是基于交叉熵损失函数设计的，可实现多肽目标概率的高精度预测。该方法基于人工智能技术，可实现复杂样本中密集多肽目标的检测。

技术领域

本申请涉及一种基于深度学习的多肽检测方法，属于有机化学技术领域。

背景技术

多肽是由多个氨基酸通过肽键连接而形成的一类化合物，通常由10-100个氨基酸分子组成，其连接方式与蛋白质相同，相对分子质量低于10000。多肽普遍存在于生物体内，迄今在生物体内发现的多肽已达数万种，其广泛参与和调节机体内各系统、器官、组织和细胞的功能活动，在生命活动中发挥重要作用。

多肽检测是基于质谱(MS)的蛋白质组学研究的关键步骤。高精度多肽检测对于后续生物标志物的发现、药物开发和疾病分类都是至关重要的。随着液相色谱-质谱联用(LC-MS)仪器的灵敏度、色谱分辨率和质量测量精度不断提高，获得的LC-MS数据量巨大并包含丰富生物信息，这也给多肽的检测带来了较大困难。

现有技术中的多肽检测方法主要为：1)基于MS和LC峰值强度的多肽检测方法，但是仅根据强度来区分低峰度肽峰和化学噪声峰，会造成较高的假阳性和假阴性；2)基于MS谱或LC峰频率的多肽检测方法，但是该种方法难以区分其中的部分噪音峰；3)基于LC峰形的多肽检测方法，但是，一方面，LC峰是难以预测的；另一方面，不同多肽的LC峰具有较大的差异；基于峰形状的检测方法具有较低的检测灵敏度。

发明内容

本发明的目的在于，提供一种基于深度学习的多肽检测方法，以解决现有多肽检测方法存在的检测灵敏度低的技术问题。

本发明提供了一种基于深度学习的多肽检测方法，包括：

获取训练样本的质谱联用数据；

根据所述质谱联用数据获取训练集；

利用所述训练集训练基于深度学习的目标检测模型，利用训练后的所述目标检测模型检测待测样本中的多肽。

优选地，根据所述质谱联用数据获取训练集，具体为：

利用伪彩成像方法处理所述质谱联用数据，得到伪彩图像；

标记所述伪彩图像中的多肽，得到具有多个标记区域的伪彩图像，将含有标记区域的伪彩图像作为训练集。

优选地，利用所述训练集训练基于深度学习的目标检测模型，具体为：

将所述训练集输入至所述目标检测模型，利用目标检测模型中的特征提取层提取所述训练集中的多肽，将特征提取层提取的多肽所在区域记为预测区域；

结合所述标记区域、所述预测区域和所述目标检测模型的输出层的概率预测函数训练所述目标检测模型。