[发明专利]多组学融合剪接位点的识别方法及系统、设备和存储介质有效
申请号: | 202110485740.9 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113178227B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 杨晓飞;魏宏;叶凯 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多组学 融合 剪接 识别 方法 系统 设备 存储 介质 | ||
组学融合剪接位点的识别方法及系统、设备和存储介质,对待测试样本进行高通量测序,进行质量控制,获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件;将转录组数据的高质量的读段文件和参考基因组文件进行比对,组装后与标准注释文件对比,得到剪接位点的位置;然后对基因组数据、组蛋白数据以及甲基化数据进行提取并进行编码,得到多组学数据集;将多组学数据集进行分割,得到训练集、验证集和测试集;将训练集放入到卷积神经网络中,加入神经网络注意力机制后对测试集进行识别,得到网络识别结果。本发明能够提高可变剪接位点的识别的准确率并且可以用来预测新的可变剪接位点。
技术领域
本发明涉及多组学测序技术领域,尤其是涉及多组学融合剪接位点的识别方法及系统、设备和存储介质。
背景技术
可变剪接(Alternative Splicing,AS)是指mRNA前体因为不同的剪接方式或者选择了不同的剪接位点产生不同的mRNA异构的现象。对于基因组的分析能够发现,在人类中35%-70%的基因拥有可变剪接异构体,而这些可变剪接也是导致一些疾病的重要因素,所以对于可变剪接的研究越发重视。
可变剪接是转录后基因表达调控的重要步骤,能通过单个基因从而产生不同的RNA异构体进而有助于丰富蛋白质组学的多样性。而近年来的研究表明,可变剪接在人类肿瘤中也十分常见,通过特定癌症基因的剪接调节元件发生突变或者调节剪接机制发生了变化,产生可变剪接机制的更改进而影响蛋白质的变化而导致癌症的产生,所以,对可变剪接位点的研究,无论是在疾病、癌症的治疗和预后中都可以发挥极为重要的作用,并且对于一些治疗靶点以及新型药物的研发的发现也会产生帮助。
目前对于可变剪接位点识别和预测主要有两种方法:
1.基于对比的方法,能够将大量的转录组的读段于生物的参考基因组进行回帖,根据回帖的结果进行分析。这是一种由果溯因的方法,只有产生剪接才会在转录组上进行表达,所以该方法也比较常见,但是这种方法的缺陷也是相对明显的,会依赖于测序深度,而且对于新的剪接位点可能发现的情况不是特别优秀。
比较常见的工具有以下几种:
1)TopHat:使用以FM-index建立参考基因组的索引,然后根据比对模式的不同使用罚分的模式对参考基因组和读段进行比对后选择最优的位点作为读段的位点从而实现回帖,再实现回帖过后通过读段的信息来进行最优的选择,但是对于读段比外显子小的情况很难很难进行分析,而且依赖基因组注释的情况下对于新的剪接位点很难识别,而不依赖的情况下结果相对来说又比较差。但这种方法依然是识别剪接位点比较优选的解。
2)MapSplice:相较于TopHat进行了改进,只需要依赖于参考基因组,但是这种方法对于测序深度要求相当高,如果发生可变剪接但是未检测到的情况下就很难进行检测到该剪接位点。
2.基于基因组的方法,直接通过对基因组进行编码来,利用机器学习或者深度学习来识别特异性的剪接位点,这种方法能够识别更新的剪接位点并且也更加准确,但是无论是数据选择,编码或者算法问题仍然有一定的进步空间。
而使用该方法的工具主要包括:
1)基于隐马尔科夫模型,该方法主要是计算周边序列的碱基频率,编码结束后投入隐马尔科夫模型中计算进行剪接位点的识别。
2)基于支持向量机,该方法使用的编码方式是序列的多重编码,编码完成后投入支持向量机算法中。以上两种方法确实能够有效地提取信息,但是同时也会导致一些可能重要的信息的丢失,而且这些信息极度依赖于已有知识。
3)基于深度神经网络,该方法将序列碱基进行编码后,进入神经网络中,再由神经网络进行判断剪接位点。该方法只使用了基因组数据,没有考虑其他组学的信息,所以对于剪接位点的识别和认知可能也较为片面,与无法对于剪接位点的进行准确的识别。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110485740.9/2.html,转载请声明来源钻瓜专利网。