[发明专利]基于谱聚类的染色质拓扑关联结构域预测方法及电子装置在审

专利信息
申请号: 202210061550.9 申请日: 2022-01-19
公开(公告)号: CN114444286A 公开(公告)日: 2022-05-06
发明(设计)人: 朱敏;龙春林;张铭洋;王心翌;周怡 申请(专利权)人: 四川大学
主分类号: G06F30/20 分类号: G06F30/20;G06F119/02
代理公司: 成都禾创知家知识产权代理有限公司 51284 代理人: 刘凯
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 谱聚类 染色质 拓扑 关联 结构 预测 方法 电子 装置
【权利要求书】:

1.一种基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,包括如下步骤:

S1:获取人类常见细胞系的Hi-C数据,并进行数据预处理;

S2:对于Hi-C数据中的每个位点,分别提取上下游交互频次数据作为该位点的特征向量;

S3:根据提取的特征向量,使用余弦相似度计算位点与位点之间的相似性,构建对应的相似性矩阵;

S4:基于相似性矩阵完成相似性无向图的构建,再使用聚类算法对位点进行分类;

S5:从聚类结果中提取TAD区域并进行筛选,预测TAD区域。

2.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述S1具体包括:

S11:获取Hi-C数据并对该数据进行规范化以消除位点之间距离带来的数据噪声;

S12:对输入的Hi-C频次矩阵进行ln(x+1)处理,以减小Hi-C交互频次数据的动态范围,并进行数据平滑,使交互数据更符合高斯分布;并对每个频次加1,以避免出现负无穷大的值。

3.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S2具体为:

S21:对于每个位点分别提取上下游2mb范围的染色质交互频次数据作为该位点的特征向量;对于没有足够的上/下游的位点,用上/下游的所有交互频次数据的平均值进行填充;

S22:将得到的特征向量拼接为特征矩阵。

4.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S3具体为:

S31:根据任意两位点的特征向量,计算位点之间的余弦相似性,越大的余弦值表明两个向量方向越接近;余弦相似性计算如下:

其中,Cosineij表示位点i和位点j的特征向量余弦值;Fi和Fj分别表示位点i和位点j的特征向量;

S32:通过对余弦值进行数值变换,将位点之间的相似性范围变为[0,1],得到相似性矩阵S;相似性矩阵计算公式为:

其中,Sij为相似性矩阵S中的元素。

5.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S4具体为:

S41:定义为无向图,其中顶点集V={v1,v2,…,vn}表示位点,边集E表示位点与位点之间的相似性;图中的邻接关系表示对称的相似性矩阵中的邻接关系;

S42:由于顶点的度指与该顶点相关联的边的条数,则定义顶点vi的度d(vi)为:

其中,表示相似度矩阵,顶点vi和顶点vj之间的边的权重,也即两个顶点之间相似性;

度矩阵为对角矩阵,定义为:

S43:计算拉普拉斯矩阵,计算公式为:

对拉普拉斯矩阵进行规范化:

计算规范化的拉普拉斯矩阵中前k个特征值对应的特征向量u1,…,uk,将其组成矩阵U∈Rn×k,U=[u1,…,uk];

S44:在矩阵U上使用k-means算法,将顶点聚集到C1,…,Ck,k个簇中。

6.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S5具体为:

S51:定义TAD区域:TAD的最小尺寸为180kb,将矩阵对角线上同一簇的连续位点连接成段,将属于同一类别且大于180kb的片段预测为TAD,将小于180kb的片段定义为TAD边界;

S52:剔除假阳性区域:若一个TAD的域内平均交互频次低于整个染色体的平均交互频次,则该区域为被聚集在一起的“gap”区域,而非拓扑关联结构域区域,将这其从结果中剔除。

7.一种基于谱聚类的染色质拓扑关联结构域预测电子装置,其特征在于,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求1至6任一项所述方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210061550.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top