[发明专利]一种基于深度嵌入卷积神经网络的模体挖掘方法在审
申请号: | 202110509307.4 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113096732A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 黄德双;张寅东 | 申请(专利权)人: | 同济大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G06N3/08;G06N3/04 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 张雪 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 嵌入 卷积 神经网络 挖掘 方法 | ||
本发明涉及一种基于深度嵌入卷积神经网络的模体挖掘方法,包括:S1、构建深度嵌入卷积神经网络eDeepCNN模型;S2、对DNA序列进行K‑mer编码,利用嵌入向量作为所述模型中K‑mer的输入表示,作为所述模型的数据集进行训练,并进行特征提取和绑定预测;S3、将所述深度嵌入卷积神经网络eDeepCNN模型与浅层网络对比,用于验证所述深度嵌入卷积神经网络eDeepCNN模型的优越性。本发明中,K‑mer编码显式建模了DNA序列中邻近核苷酸的依赖关系,隐含了DNA序列的形状信息,高维嵌入向量则可以充分表征K‑mer所包含的潜在信息。
技术领域
本发明涉及计算机识别与深度学习技术领域,特别是涉及一种基于深度嵌入卷积神经网络的模体挖掘方法。
背景技术
转录因子在基因转录、修复和调控等生物过程中有着重要的作用。转录因子绑定位点的基因变异与某些重大疾病有密切关联。因此,挖掘转录因子绑定位点或者说模体挖掘对于理解转录因子的调控机制有重要影响。传统上,转录因子绑定位点由位置权重矩阵PWM表示,位置权重矩阵通过将模体序列对齐并统计对应位置的核苷酸分布计算而来。然而,PWM只关注了模体序列的核苷酸分布,而忽略了模体邻近序列的信息,案例研究显示,模体的上下文序列信息对于绑定行为有重大影响。受位置权重矩阵的启发,DeepBind构建了一个单层卷积神经网络模型用于模体挖掘任务,研究表明,绑定位点邻近序列的核苷酸分布对绑定行为有重要影响。在实际的生物过程中,多个转录因子可能互相协同,共同影响绑定过程。因此,在一段序列中可能存在模体与模体之间的相互作用,单层卷积网络对于这种情况同样无能为力。
PWM假设DNA序列中的核苷酸相互独立,是对真实物理过程的简单近似。DeepBind基于单核苷酸进行独热编码,具有简单直观的优点,但也无法充分表达邻近核苷酸的相互作用,因此,亟需一种基于深度嵌入卷积神经网络的模体挖掘方法。
发明内容
本发明的目的是针对转录因子绑定预测任务,捕捉模体与邻近核苷酸序列的相互作用,在DeepBind模型基础上,构建了深度卷积网络eDeepCNN模型。
为实现上述目的,本发明提供了如下方案:
一种基于深度嵌入卷积神经网络的模体挖掘方法,包括以下步骤:
S1、构建深度嵌入卷积神经网络eDeepCNN模型;
S2、对DNA序列进行K-mer编码,利用嵌入向量作为所述eDeepCNN模型中K-mer的输入表示,对所述eDeepCNN模型的数据集进行训练,并进行特征提取和绑定预测;
S3、将所述eDeepCNN模型与浅层网络对比,用于验证所述eDeepCNN模型的优越性。
优选地,S1中所述eDeepCNN模型中包括三个卷积层,每个卷积层后布设有一个局部最大池化层和一个丢失层,用于帮助所述深度嵌入卷积神经网络模型对抗训练过程中的过拟合现象。
优选地,所述三个卷积层分别为:第一卷积层、第二卷积层和第三卷积层,所述第一卷积层用于负责抽取序列局部模式,所述第二卷积层和第三卷积层则对所述局部模式之间的相互作用进行建模。
优选地,所述第一卷积层经过计算得到模体得分序列,作为所述第二卷积层的输入,识别所述得分序列的局部分布模式,用于捕捉模体和临近序列的相互作用;所述第三卷积层的工作模式与所述第二卷积层的工作模式相同。
优选地,S2中所述嵌入向量表示在高维隐藏空间的一个嵌入表示点,代表不同K-mer的嵌入向量在高维空间的相对位置之间相互作用关系,实现K-mer序号和对应的嵌入向量之间一一映射,得到由K-mer序号组成的序列。
优选地,根据所述K-mer序号以查表的方式找到对应的嵌入向量,将所述嵌入向量按顺序组成一个二维数组,并通过嵌入向量层转变为嵌入向量矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509307.4/2.html,转载请声明来源钻瓜专利网。