[发明专利]基于谱聚类的染色质拓扑关联结构域预测方法及电子装置在审
申请号: | 202210061550.9 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114444286A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 朱敏;龙春林;张铭洋;王心翌;周怡 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F119/02 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 谱聚类 染色质 拓扑 关联 结构 预测 方法 电子 装置 | ||
1.一种基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,包括如下步骤:
S1:获取人类常见细胞系的Hi-C数据,并进行数据预处理;
S2:对于Hi-C数据中的每个位点,分别提取上下游交互频次数据作为该位点的特征向量;
S3:根据提取的特征向量,使用余弦相似度计算位点与位点之间的相似性,构建对应的相似性矩阵;
S4:基于相似性矩阵完成相似性无向图的构建,再使用聚类算法对位点进行分类;
S5:从聚类结果中提取TAD区域并进行筛选,预测TAD区域。
2.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述S1具体包括:
S11:获取Hi-C数据并对该数据进行规范化以消除位点之间距离带来的数据噪声;
S12:对输入的Hi-C频次矩阵进行ln(x+1)处理,以减小Hi-C交互频次数据的动态范围,并进行数据平滑,使交互数据更符合高斯分布;并对每个频次加1,以避免出现负无穷大的值。
3.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S2具体为:
S21:对于每个位点分别提取上下游2mb范围的染色质交互频次数据作为该位点的特征向量;对于没有足够的上/下游的位点,用上/下游的所有交互频次数据的平均值进行填充;
S22:将得到的特征向量拼接为特征矩阵。
4.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S3具体为:
S31:根据任意两位点的特征向量,计算位点之间的余弦相似性,越大的余弦值表明两个向量方向越接近;余弦相似性计算如下:
其中,Cosineij表示位点i和位点j的特征向量余弦值;Fi和Fj分别表示位点i和位点j的特征向量;
S32:通过对余弦值进行数值变换,将位点之间的相似性范围变为[0,1],得到相似性矩阵S;相似性矩阵计算公式为:
其中,Sij为相似性矩阵S中的元素。
5.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S4具体为:
S41:定义为无向图,其中顶点集V={v1,v2,…,vn}表示位点,边集E表示位点与位点之间的相似性;图中的邻接关系表示对称的相似性矩阵中的邻接关系;
S42:由于顶点的度指与该顶点相关联的边的条数,则定义顶点vi的度d(vi)为:
其中,表示相似度矩阵,顶点vi和顶点vj之间的边的权重,也即两个顶点之间相似性;
度矩阵为对角矩阵,定义为:
S43:计算拉普拉斯矩阵,计算公式为:
对拉普拉斯矩阵进行规范化:
计算规范化的拉普拉斯矩阵中前k个特征值对应的特征向量u1,…,uk,将其组成矩阵U∈Rn×k,U=[u1,…,uk];
S44:在矩阵U上使用k-means算法,将顶点聚集到C1,…,Ck,k个簇中。
6.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S5具体为:
S51:定义TAD区域:TAD的最小尺寸为180kb,将矩阵对角线上同一簇的连续位点连接成段,将属于同一类别且大于180kb的片段预测为TAD,将小于180kb的片段定义为TAD边界;
S52:剔除假阳性区域:若一个TAD的域内平均交互频次低于整个染色体的平均交互频次,则该区域为被聚集在一起的“gap”区域,而非拓扑关联结构域区域,将这其从结果中剔除。
7.一种基于谱聚类的染色质拓扑关联结构域预测电子装置,其特征在于,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求1至6任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061550.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灰尘过滤装置及扫地设备
- 下一篇:一种立定跳远测试方法和装置