[发明专利]一种基于角度特征的短时序基因表达数据聚类方法有效
| 申请号: | 202010060429.5 | 申请日: | 2020-01-19 |
| 公开(公告)号: | CN111276188B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 李爱民;刘雅君;裴广胜;刘光明;费蓉;周红芳;王磊;黑新宏 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00;G06F18/23 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
| 地址: | 710048*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 角度 特征 时序 基因 表达 数据 方法 | ||
1.一种基于角度特征的短时序基因表达数据聚类方法,其特征在于,包括以下步骤:
步骤1,计算角度特征
相邻两个时间点的表达水平推算出来的角度作为表达水平变化的一个特征,因为它反映了一个时间段上表达水平的变化,对于任意的两个相邻的时间点,计算角度,对于给定的一个基因g,计算出一个角度向量v,
vig=arctan((x(i+1)g-xig)/(ti+1-ti)) (1)
其中,i=1,2,…,n-1,n为时间点个数,ti表示时间点i,xig是基因g在时间点i的表达水平,arctan指反正切函数,反正切函数是反三角函数的一种,即正切函数的反函数,vig表示基因g在全部n个时间点的角度向量,因此,对于有n个时间点的表达水平,共有n-1个角度,该角度称为一阶角度,一阶角度主要反映相邻两个时间点基因表达水平的变化趋势,
为了确保提取数据特征时尽量减少信息丢失,提取基因表达水平变化的整体变化情况,也转换为角度,便于聚类,计算公式为,
aig=arctan(xig) (2)
因此,对于有n个时间点的表达水平,共有n-1个反映整体表达水平的角度,对于任何一个基因,得到(n-1)+(n-1)=2n-2维的角度向量;
对于任意的两个基因g和h,通过相应位置的角度相似性来衡量它们的表达水平的相似性,采用皮尔森相关系数作为相似性测度:
其中,ρgh表示基因g的角度向量和基因h的角度向量之间的相关系数,cov(vg,vh)表示基因g的角度向量和基因h的角度向量之间的协方差,σg表示基因g的角度向量的标准差,σh表示基因h的角度向量的标准差,μg表示基因g的角度向量的期望,μh表示基因h的角度向量的期望,ρgh的值越大表示基因g和h的表达越相似,E表示数学期望;
步骤2,用Affinity Propagation聚类算法聚类
采用Affinity Propagation聚类算法对以上步骤获得的角度特征进行聚类,聚类时,可以指定聚类数量,也可不指定聚类数量,通过改变聚类的数量可以观察数量与性能之间的关系;
步骤3,获得功能显著的类
STEM使用permutation test找出表达谱是显著的类,STEM把全部的表达谱预先固定下来,然后把全部基因划分到这些表达谱中,permutation test仅考虑了表达谱的基因的数量的多少,没有考虑其他可以利用的特性。
2.根据权利要求1所述的一种基于角度特征的短时序基因表达数据聚类方法,其特征在于,所述的步骤3,利用permutation test计算确定一些显著类,然后再用另外的三个特性来找出重叠的类,具体做法是:
1)度量表达水平波动情况的指标:对于一个类q,求出该类的中心(分别取各个时间点的表达值的中值),然后求类的中心在全部时间点的最大表达值和最小表达值之差,这是一个度量表达水平波动情况的指标,该差值越大则表达水平变化越大,该类代表的表达谱越不会是随机的,
dq=max(mqi)-min(mqi) (5)
其中,mqi表示q类中所有基因在时间点i的表达水平的中值,其中i=1,2,3…n,n为时间点个数,med表示求中值,r=1,2,3…R,其中R表示q类中基因总数量,xqri表示q类中第r个基因在第i个时间点的表达水平,max表示求最大值,min表示求最小值,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,即为表达水平波动情况;
2)同质性:对于一个类,计算各个基因和类中心之间的差异,然后求这些差异的平均值,最后用1减去归一化的平均值,得到同质性,
其中,uqi表示q类在时间点i到时间点i+1之间的角度的中值,其中i=1,2,3…n-1,n为时间点个数,med表示求中值,vqri为q类第r个基因在时间点i到时间点i+1之间的角度,R表示q类中基因总数量,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,即为同质性;
3)衡量聚类结果为功能显著类的程度指标:在满足以上两个条件的前提下,某个类中的基因越多越不随机,也就是说,在表达水平变化较大并且内聚性较好的类中,基因越多越不会是随机的,如果内聚性不好的话,基因越多会导致相反的结果,
某个类q的功能显著的程度为:
SIGq=dq/max(dy)+2(1-Iq/max(Iy))+2(Nq/max(Ny)) (8)
其中,SIGq为q类为功能显著类的程度指标(取值范围0~5),y=1,2,3…Y,Y为类的数量,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,dy表示y类的中心在全部时间点的最大表达值和最小表达值之差,Ny表示y类中基因的数量,Nq表示q类中基因的数量,Iy表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,max表示求最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010060429.5/1.html,转载请声明来源钻瓜专利网。





