[发明专利]一种基于角度特征的短时序基因表达数据聚类方法有效
申请号: | 202010060429.5 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111276188B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 李爱民;刘雅君;裴广胜;刘光明;费蓉;周红芳;王磊;黑新宏 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G06F18/23 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 角度 特征 时序 基因 表达 数据 方法 | ||
一种基于角度特征的短时序基因表达数据聚类方法,包括以下步骤:步骤1,计算角度特征;步骤2,用Affinity Propagation聚类算法聚类;步骤3,获得功能显著的类;把基因表达变化趋势相似的基因聚为一类,同属于一类的基因有功能相似的趋势;对于每一个基因,相邻时间点的基因表达的变化可以计算出角度特征,反映基因表达的局部变化趋势;对于每个时间点,用换算后的角度间接反映整体的表达水平情况;以这些角度为特征,皮尔森相关系数作为相似性测度,相关系数越大,表示两个基因的表达谱越相似;然后用Affinity Propagation聚类算法聚类;具有聚类结果更能反映基因功能、聚类结果做功能富集分析的p值更小的特点。
技术领域
本发明属于时序基因表达技术领域,具体涉及一种基于角度特征的短时序基因表达数据聚类方法。
背景技术
时序基因表达实验作为一种研究很多生物学过程的方法越来越普遍,比如研究细胞繁殖、发育、对外部刺激的响应等。基因的时序表达数据可以粗略地分为两类:有较少的时间点(一般3到8个时间点)的短时序,超过8个时间点的长时序。据估计现存的时序基因表达数据中,大约80%的时序基因表达数据集都是短时序的。大部分分析时序数据集的算法都是基于通用的聚类方法,比如层次聚类、k-means、Bayesian网络、自组织映射等。尽管这些方法能揭示一些生物学特征,但是它们没有考虑时序数据的时序本质。这些算法一般没有考虑各时间点的先后顺序和依赖关系。最近,一些研究组提出专门针对聚类时序基因表达数据的方法,包括表达谱的连续表示、隐马尔可夫模型以及其他方法。然而,这些算法在长时序数据集表现良好。对于短时序数据,由于采样点数量少导致数据过拟合,效果不佳。
对于短时序基因表达数据,Jason Ernst等人提出一个专门聚类短时序表达数据的算法STEM(Short Time-series Expression Miner)。该算法预先定义一个潜在的实验期望的模型表达谱集合。然后,把基因划分到不同的模型表达谱中。Jason Ernst等人讨论了如何获得这样的模型表达谱集合,以及如何通过permutation tests确定每个表达谱的显著性。Alain B Tchagang等人提出了两个新的能从短时序基因表达数据中提取生物学模型的算法ASTRO(Analysis of Short Time-series using Rank Order preservation)和MiMeSR(minimum mean squared residue),分别受到秩保序框架和最小均方残差方法的启发。ASTRO也采用permutation test的方法确定显著的聚类。PESTS(A Platform forProcessing Expression of Short Time Series)采用FBPA(the Feature BasedPartitioning around medoids Algorithm)做时序数据的分析。PESTS可以做显著性分析、差异表达的显著性、多重检验校正、聚类分析。
现有的这些针对短时序基因表达数据进行分析的算法或工具都有一些局限性。本发明使用酵母氨基酸挨饿时序基因表达数据。用STEM对700个基因聚类,采用默认的参数,STEM可以聚类约50个,其中GO(Gene Ontology)显著的聚类约13个,其余的37个类都不是GO(Gene Ontology)功能显著的。也就是说大部分聚到一起的基因在功能上不是显著相似的或统计上功能不显著。另外,STEM聚类的结果较为集中。比如,当聚类为50个时,部分类中基因数量达到150个,其余类中的基因数量过少。这有可能将多个不同功能的基因都聚到一个类中。较多的类在一个类中,不利于后续对基因的功能进一步分析。ASTRO可用来从短时序基因表达数据中提取有统计显著性的表达谱,功能较为单一,对于没有被包含在显著表达谱中的基因不能分析。PESTS聚类后得到的结果用GO(Gene Ontology)进行功能富集性分析,其p-value远远大于STEM得到的p-value。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010060429.5/2.html,转载请声明来源钻瓜专利网。