[发明专利]一种融合DNA形状特征的转录因子结合位点预测方法有效
申请号: | 202110903386.7 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113593634B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 李阳阳;魏志强;刘昊;闫金盟 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/30;G06N3/04;G06N3/06;G06N3/08 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 沈小明 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 dna 形状 特征 转录 因子 结合 预测 方法 | ||
本发明涉及一种融合DNA形状特征的转录因子结合位点预测方法,属于生物信息学领域,所述方法结合了结构生物学和基因组学以及深度学习神经网络的知识提出了一个使用CNN结合DNA序列与形状特征信息预测转录因子结合位点的新模型。同时,构建了包含DNA形状特征及DNA序列信息的特殊数据集,在传统转录因子预测的数据集基础之上添加了对应的DNA形状信息。从而提高DNA转录因子结合位点预测的准确性。
技术领域
本发明属于生物信息学领域,结合了结构生物学和基因组学的知识设计并实现了一套融合DNA形状特征的转录因子结合位点预测新方法。
背景技术
转录因子(TF)可以通过与调节转录的基因组区域结合来协调许多基因的表达。细胞机制利用这些主调节器来调节关键的细胞过程并适应环境刺激。事实上,TF的序列或数量的改变可能是遗传性疾病,复杂疾病,自身免疫缺陷和癌症的主要原因。TF如何与特定的DNA调节序列(称为TF结合位点,或简称TFBS,如启动子,增强子)结合以协同调节基因转录和蛋白质合成是一个十分重要的过程,它在许多生物过程中起着关键作。过去十年中,已经产生了大量的免疫沉淀及其高通量测序(ChIP-seq)数据,并用于研究这些调控过程背后的机制,但由于该方法是TF特异性的,即特定于某一种TF来确定其DNA序列上的结合位点序列,以及其高实验成本等原因,不可能在所有细胞类型中分析每个TF结合图谱,因此,需要一个精确的计算方法来解码底层绑定规则。当然,如何预测DNA序列中的TFBS是生物信息学中的一个基本问题。
转录因子的DNA结合特异性是基因调控过程的关键组成部分,但对于TF与其基因组靶位点的高度特异性结合的基础机制知之甚少。早期研究中,我们假设DNA转录因子的结合位点完全由碱基序列确定。基于位置权重矩阵(PWM)的方法在DNA-蛋白质结合过程建模中取得了巨大成功。后来,gkm-SVM(即缺口k-mers和支持向量机)显示出优于基于PWM的方法。近几年,卷积神经网络,加上DNA序列的单热编码格式,引起了对预测TFBS的极大兴趣。然而,仅使用初级DNA序列预测或插入TFBS已被证明不足以充分建模其底层绑定规则。显然,如果要真正提高预测准确性,就需要改进其底层的建模方式,这一过程是后续预测工作的重要保障。
事实上,过去十年的技术发展促进了对许多TF的DNA结合偏好的表征的发现与研究。最近的高通量研究强调,TF-DNA结合不仅仅依赖于核苷酸序列偏好,并且已经确定了多种相关因素。越来越多的证据支持序列背景,包括侧翼序列和DNA形状,在调节序列识别中的广泛贡献。相互作用的辅因子和TF也可以改变序列偏好。除此之外,一些特定于细胞类型的信息,这里主要包括染色质可及性和组蛋白修饰也对TFs与其靶位点的结合有很大影响。
在此背景下,越来越多的研究倾向于采用将DNA基序与其他特征(包括组蛋白修饰、染色质可及性以及细胞类型等)相结合的方式进行建模。且对不同方法进行过尝试。例如有方法使用不受控制的方法,如分层混合模型或隐马尔可夫模型,以使用染色质可及性数据识别转录因子足迹。他们使用序列基序分数来将足迹归因于不同的转录因子。更近期的方法使用矩阵完备(Matrix Completion)的方法来完成转录因子结合预测,即使用表示基因组位置,细胞类型和TF结合的3模式张量来推断TF结合。该方法不依赖于序列特异性,但是只能在具有许多ChIP-seq数据集的充分研究的细胞类型中预测TF结合。值得关注的是,卷积神经网络模型中将序列与表观基因组数据相结合用来预测转录因子结合位点。其预测过程除了DNA序列外,还使用了组蛋白修饰和染色质可及性信息。虽然与只考虑基序信息的同类模型相比有所改进,但是这种方法仅使用了15种细胞类型的标准化DNase-seq数据和5种特定核心组蛋白修饰的信息进行训练和验证,这可能会导致训练模型仅对该特定细胞环境下的TF结合偏好预测良好。综上,目前甚少有人尝试将DNA的三维结构特征结合到TFBS的预测建模中。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110903386.7/2.html,转载请声明来源钻瓜专利网。