[发明专利]基于基因表达谱的肿瘤基因识别方法无效
申请号: | 201110032012.9 | 申请日: | 2011-01-28 |
公开(公告)号: | CN102073799A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 黄鸿;叶俊勇;于攀 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张先芸 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于基因表达谱的肿瘤基因识别方法,通过计算机辅助手段,融合局部保持投影和核函数-最近邻分类方法,采用局部保持投影方法对基因样本的基因表达矩阵进行学习,将其投影到低维嵌入空间,可以揭示隐藏在高维基因表达谱数据中的低维流形结构,然后利用核函数-最近邻分类方法对低维特征矩阵进行分类,使低维特征矩阵中没有显现的特征突现出来,进而划分出基因样本中的肿瘤基因,实现了肿瘤基因的识别。本发明方法具有较高的识别率,对于肿瘤基因的临床诊断具有很好的参考价值,可应用于建立肿瘤基因识别系统。 | ||
搜索关键词: | 基于 基因 表达 肿瘤 识别 方法 | ||
【主权项】:
1.基于基因表达谱的肿瘤基因识别方法,其特征在于,将基因样本的基因表达谱以计算机可识别的格式输入计算机,利用计算机进行分类,划分出其中的肿瘤基因;该方法具体包括如下步骤:1)根据先验知识获取与待测基因样本种类相同的M个正常基因样本和M个肿瘤基因样本,该种类基因样本的基因表达谱特征数为N;将所述M个正常基因样本和M个肿瘤基因样本的基因表达谱输入计算机,由每个基因样本的基因表达谱生成一个维数为N的向量,向量的第n维数据值代表基因样本的第n个基因表达谱特征,n∈{1,2,...,N};从而,由所述M个正常基因样本生成正常基因表达矩阵Z正={z′1,z′2,…,z′m,…,z′M},由所述M个肿瘤基因样本生成肿瘤基因表达矩阵Z肿={z″1,z″2,…,z″m,…,z″M};其中,z′m表示第m个正常基因样本对应的向量,z′m表示第m个肿瘤基因样本对应的向量,m∈{1,2,...,M};2)对基因库表达矩阵Z=Z正∪Z肿,利用局部保持投影方法进行学习,获取局部保持投影矩阵A={a1,a2,…,aG},G<N;3)利用局部保持投影矩阵A,对基因库表达矩阵Z进行维数简约,获得基因库低维特征矩阵YZ=ATZ;其中,T为矩阵转置符号;4)将待测的I个待测基因样本的基因表达谱输入计算机,由每个待测基因样本的基因表达谱生成一个维数为N的向量,向量的第n维数据值代表待测基因样本的第n个基因表达谱特征,n∈{1,2,...,N};从而,由所述I个待测基因样本生成待测基因表达矩阵X={x1,x2,…,xi,…,xI};其中,xi表示由第i个待测基因样本对应的向量,i∈{1,2,...,I};5)利用局部保持投影矩阵A,对待测基因表达矩阵X进行维数简约,获得待测基因低维特征矩阵YX=ATX;6)计算待测基因低维特征矩阵YX中每个向量yX,i与基因库低维特征矩阵YZ中各个向量yZ,p的核函数欧氏距离d(yX,i,yZ,p):d ( y X , i , y Z , p ) = Ker ( y X , i , y X , i ) + Ker ( y Z , p , y Z , p ) - 2 Ker ( y X , i , y Z , p ) ; ]]> 其中,yX,i∈YX,i∈{1,2,...,I};yZ,p∈YZ,p∈{1,2,...,2M};核函数Ker(y1,y2)为:
且宽度参数σ=0.3;7)根据核函数欧氏距离d(yX,i,yZ,p),利用最近邻分类方法对待测基因低维特征矩阵YX中的向量yX,i对应的待测基因样本进行分类,划分出待测基因样本中的肿瘤基因。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110032012.9/,转载请声明来源钻瓜专利网。
- 上一篇:压力补偿式油气悬挂缸
- 下一篇:一种提高鸡肉丸凝胶硬度的制备方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用