[发明专利]基于谱聚类的染色质拓扑关联结构域预测方法及电子装置在审
申请号: | 202210061550.9 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114444286A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 朱敏;龙春林;张铭洋;王心翌;周怡 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F119/02 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 谱聚类 染色质 拓扑 关联 结构 预测 方法 电子 装置 | ||
本发明公开了一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置,使用Hi‑C数据中位点上下游的交互模式特征来进行谱聚类划分区域,并使用划分结果来对拓扑关联结构域区域进行预测;本发明将位点上下游2mb范围内的交互频次数据作为该位点的染色质相互作用模式特征,为后续模型提供更多有效的交互特征;引入余弦相似度量化位点之间相互作用模式的相似性,在聚类模型中具有更高的区分度,进而提高模型预测准确性;最后,在基准数据集上对本发明提出的方法进行评价,在预测精度方面优于现有技术,并在相关生物学数据进行验证,以证明本发明的有效性。
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置。
背景技术
DNA的复制、基因调控和基因表达等生物学功能都依赖于染色质三维结构实现。研究表明,特定基因组区域和特定条件下染色体结构的变化与多种人类疾病高度相关,包括癌症、发育过程中肢体畸形和严重的脑部发育异常。因此,研究染色质三维结构对于解释基因的表达和调控等细胞过程,进而指导遗传病相关研究和基因治疗等医学问题方面具有重要价值。
拓扑关联结构域(Topologically Associated domain,TAD)作为染色质层次结构中的一种,于2012年被首次发现。该区域富集了绝缘子结合蛋白CTCF、管家基因、SINE逆转座子等,在基因调控中发挥关键作用。进一步的研究发现,在苍蝇、蠕虫、真菌和细菌中也检测到类似的结构域。因此,这些区域在细胞分裂中是稳定存在的,在不同细胞系中存在一定的进化保守性。TAD目前已被认为是染色体折叠的基本单位,并被认为是染色体组织中的一个重要二级结构。
然而,传统生物实验识别TAD区域存在耗时长、花费成本高、实验实施困难等问题。为更好地理解TAD在生物生长发育和遗传过程中发挥的功能,研究者需要可靠的预测模型指导生物实验定位染色质上的TAD区域。
根据预测模型所用数据的不同,可将该领域已有的计算方法分为两类:基于3C-based数据的预测方法与基于组蛋白修饰信号数据的预测方法。
基于3C-based数据的预测方法是最早定义和研究染色质拓扑关联结构域的方法,主要利用全基因组范围上的染色质读取段间的交互频次矩阵。依据各读取段的交互频次的差异,对各读取段进行分类,进而获取TAD区域。但本申请发明人在实施本发明的过程中,发现现有基于3C-based数据的染色体拓扑关联结构域计算方法存在一些不足之处:存在假阳性高、参数选择困难等问题。这类方法的实施可以划分为特征提取、模型构建和结果筛选三个阶段。当前特征提取阶段未能很好提取对应的特征向量来量化染色质读取段交互频次之间的差异。模型阶段由于区域划分的错误,导致结果假阳性过高。结果筛选阶段则会因为未能有效剔除假阳性区域,故而难以准确区分TAD区域和“gap”区域。
基于组蛋白修饰信号数据的方法是利用拓扑关联结构域边界处存在CTCF位点、组蛋白和一些基因调控元件富集或缺失的现象,通过构建计算模型预测拓扑关联结构域的边界。但这类方法存在特征选择困难的问题,难以准确提取有效的特征。
发明内容
针对上述问题,本发明的目的在于提供一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置,从位点(染色质读取段)上下游的角度聚焦位点的交互特征,并使用余弦相似度量化位点交互模式的相似性,进而提高模型预测准确性。技术方案如下:
一种基于谱聚类的染色质拓扑关联结构域预测方法,包括如下步骤:
S1:获取人类常见细胞系的Hi-C数据,并进行数据预处理;
S2:对于Hi-C数据中的每个位点,分别提取上下游交互频次数据作为该位点的特征向量;
S3:根据提取的特征向量,使用余弦相似度计算位点与位点之间的相似性,构建对应的相似性矩阵;
S4:基于相似性矩阵完成相似性无向图的构建,再使用聚类算法对位点进行分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061550.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灰尘过滤装置及扫地设备
- 下一篇:一种立定跳远测试方法和装置