[发明专利]基于基因表达谱的肿瘤基因识别方法无效
| 申请号: | 201110032012.9 | 申请日: | 2011-01-28 |
| 公开(公告)号: | CN102073799A | 公开(公告)日: | 2011-05-25 |
| 发明(设计)人: | 黄鸿;叶俊勇;于攀 | 申请(专利权)人: | 重庆大学 |
| 主分类号: | G06F19/24 | 分类号: | G06F19/24 |
| 代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张先芸 |
| 地址: | 400044 *** | 国省代码: | 重庆;85 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 基因 表达 肿瘤 识别 方法 | ||
技术领域
本发明涉及计算机数据处理和基因技术领域,特别涉及一种基于基因表达谱的肿瘤基因识别方法。
背景技术
癌症已经成为威胁人类生命的主要疾病之一,癌症的早期发现与诊断是治疗癌症的关键。在基因表达水平的肿瘤基因分析,是未来诊断癌症的重要手段,而在基因表达水平的肿瘤基因判断识别,则是进行肿瘤基因分析的前提和基础,它有助于癌症的早期发现和准确的判断。
以生物细胞的DNA基因片段作为基因样本进行基因表达分析时,通常是通过基因芯片技术获得基因样本的基因表达谱,对其基因表达谱进行分析研究。但是,由于DNA基因片段中的基因序列特征非常复杂,其相应的基因表达谱特征数(也称作基因表达谱的维数)都高达几千或上万。相对于人工视觉分析来说,这种基因表达谱高维数据难以进行直观分析,只能依靠计算机通过聚类或降维处理后进行分析。聚类分析是无人参与的全自动计算机方法,不能利用直观分析的优势,对结果解析的专业性要求较高,对数据的判读分析难度较大。而将基因表达谱进行数据降维后,可以将高维数据投影到低维空间以便于计算机运算,甚至还可以投影到可视化维度空间(2维或3维)以便于人工视觉直观分析,对数据判读的专业性要求相对较低,特别适合在临床癌症诊断等医学领域中应用。因此,降维技术则成为基于基因表达谱的肿瘤基因判断识别技术的突破方向。
目前,应用比较广泛的降维方法有主成分分析(Principal Component Analysis,简称PCA)和线性判别分析(Linear Discriminant Analysis,简称LDA)。PCA是在全局最小重构误差的情况下把高维数据投影到低维子空间,而数据点的协方差矩阵最大的几个特征值所对应的特征量成为子空间。LDA是通过最小化类内散度矩阵和类间散度矩阵的比值来寻找最有效的判别方向。然而,当用于对基因表达谱进行分类时,PCA方法和LDA方法都存在着明显的不足,主要表现在:第一,由于样本总体散度同时包括了样本的类内散度和类间散度,使得以最优重建为目的的PCA方法不适合分类问题;第二,LDA虽然可以有效地提取各类之间的鉴别信息,但在计算过程中需要保证类内散布矩阵可逆,而基因表达谱生数据的维数很高,其类内散布矩阵往往是奇异的;第三,PCA方法和LDA方法都是在假设样本服从多元正态分布的前提下得出来的,有研究表明,基因表达谱并不一定服从正态分布,而很可能位于一个低维的非线性流形上,在这种情形下,PCA方法和LDA方法将很可能失效。
发明内容
针对现有技术存在的上述不足,本发明的目的在于提供一种基于肿瘤基因表达谱的肿瘤识别方法,该方法能有效发现基因样本的基因表达谱中的本征流形结构,将局部保持投影的学习方法与核函数-最近邻分类方法相结合,实现肿瘤基因样本的判断识别。
为达到上述目的,本发明采用了如下的技术手段:
基于基因表达谱的肿瘤基因识别方法,将基因样本的基因表达谱以计算机可识别的格式输入计算机,利用计算机进行分类,划分出其中的肿瘤基因;该方法具体包括如下步骤:
1)根据先验知识获取与待测基因样本种类相同的M个正常基因样本和M个肿瘤基因样本,该种类基因样本的基因表达谱特征数为N;将所述M个正常基因样本和M个肿瘤基因样本的基因表达谱输入计算机,由每个基因样本的基因表达谱生成一个维数为N的向量,向量的第n维数据值代表基因样本的第n个基因表达谱特征,n∈{1,2,...,N};从而,由所述M个正常基因样本生成正常基因表达矩阵Z正={z′1,z′2,…,z′m,…,z′M},由所述M个肿瘤基因样本生成肿瘤基因表达矩阵Z肿={z″1,z″2,…,z″m,…,z″M};其中,z′m表示第m个正常基因样本对应的向量,z″m表示第m个肿瘤基因样本对应的向量,m∈{1,2,...,M};
2)对基因库表达矩阵Z=Z正∪Z肿,利用局部保持投影方法进行学习,获取局部保持投影矩阵A={a1,a2,…,aG},G<N;
3)利用局部保持投影矩阵A,对基因库表达矩阵Z进行维数简约,获得基因库低维特征矩阵YZ=ATZ;其中,T为矩阵转置符号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110032012.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:压力补偿式油气悬挂缸
- 下一篇:一种提高鸡肉丸凝胶硬度的制备方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





