[发明专利]基于多目标蚁群优化算法的基因位点挖掘方法在审
申请号: | 201510540644.4 | 申请日: | 2015-08-28 |
公开(公告)号: | CN105205344A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 沈红斌;景鹏杰 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12;G06F19/24 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多目标 优化 算法 基因 挖掘 方法 | ||
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基因位点挖掘算法,是在全基因组关联数据中寻找定位复杂性状相关的SNPs位点,特别是一种基于蚁群优化算法和多目标优化算法的基因位点挖掘算法。
背景技术
复杂性状相关基因位点定位是动植物遗传改良以及人类复杂疾病致病机理研究的重要基础,是目前生物信息学领域的热点问题之一,通常采用全基因组关联分析方法。全基因组关联分析其基本原理是:在一定人群中选择一定数量的病例组(case)和对照组(control),然后扫描所有样本全基因组范围内的所有SNP位点,比较其等位基因或者基因型频率在病例组和对照组中的差异,如果某个SNP位点的等位基因或者基因型频率在对照组中与病例组中有统计学意义上的差异,则认为这个SNP位点与复杂性状之间有关联关系。
尽管之前已有大量有关复杂性状的全基因组关联分析方法文章发表,但是内容大多集中在单基因位点挖掘的探讨和研究。有研究表明,对复杂性状,上位效应即交互作用扮演了重要角色,而目前多数方法模型中上位效应重要性并没有体现出来。
此外,目前领域内提出的复杂性状有关基因位点挖掘方法大致可以分为三类:穷尽搜索法,随机搜索法,机器学习法。穷尽搜索法是最直接明了的方法,但是其主要缺点是面对小样本高维度的全基因组关联数据所带来的组合爆炸问题。穷尽搜索法所需要的计算资源及计算时间使得该算法在全基因组数据上的实用性大打折扣。随机搜索法的优势在于其设计的特定的统计量及算法能够直接在有限的资源及先验知识下极大地提高其检验上位性的能力,且由于其随机采样的思想,大大降低了计算复杂度,使得在全基因数据上直接测试变为可能。随机搜索法的缺点在于其引入随机采样的思想,不可能覆盖所有的位点及组合,势必可能丢失某些致病基因及位点,而且随着数据维数的增长,其检测精度将会受到很大影响。机器学习算法为全基因组关联分析开创了一片新天地,但其仍受到小样本、高维度问题的困扰,致使不能大规模在大数据上使用。带启发性信息的机器学习方法通过启发式信息降低了计算复杂度,使得算法能够用于全基因组数据,但是因为各种机器学习算法从不同的角度解决问题,导致的结果具有生物学上难解释性,不能全面对各种性状模型建模等缺点。
已有的可归为三大类的方法从各个领域各个角度提出来解决全基因组关联数据中寻找与复杂性状相关联的基因位点,但由于现实中复杂性状模型的多样性及未知性,已发表的这些方法运用在各种复杂性状模型上时表现各异,有的在此性状模型上能很好地定位到相关基因位点,但是遇到别的性状模型时,却呈现出诸多假阳性。这是因为已提出的这些算法都是从单一领域单一角度去考虑建模,忽略了各个领域模型之间可能存在的某种互补效应。
再者,挖掘算法要运用到全基因组关联数据中去必然要面对高维小样本问题,高维数据中包含很多冗余信息,对挖掘相关基因位点并不需要,因此,如何平衡降维以降低计算复杂度及最大程度地保留基因位点相关信息之间的关系成为全基因组关联分析中的首要问题,解决此问题的主要方法为特征选择。按照不同的评价准则,特征选择方法可以分为三类:过滤法,封装法,嵌入法。过滤法是一种预处理的方法,没有和后面建模分析联系,有可能会过滤掉真正致病基因位点,而留下一些假阳性位点。封装法考虑到了后处理中模型要解决的问题与特征选择之间的交互作用,但是由于其特征选择时要同模型相结合带来了很大的计算量,同时会导致过拟合。总之,面对全基因组数据的高维小样本问题不可避免要用到特征选择的方法,而特征选择方法的工作效率与具体选择能够很大程度影响到GWAS的最后结果,所以要结合具体的问题再进行设计、处理。
经过对现有技术的检索发现,张韶凯在“基于贝叶斯网的潜类分析在基因关联分析中的应用”(山西医科大学硕士学位论文)中记载了采用基于Bayesian网络的潜类模型来进行高维度全基因组数据的分析。贝叶斯网潜类分析既可以有效地体现单体型和高维SNPs的综合效应,又可以充分发挥贝叶斯网络结构分析的特征,分析SNPs复杂的网络结构关系,是分析大规模基因数据的一种有效的方法,将为复杂性状疾病遗传以及基因定位等方面的研究提供新的方法支持。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510540644.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用