[发明专利]一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法有效
申请号: | 201811287261.0 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109448794B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 刘建晓;果杨;钟芷漫;杨晨;胡江峰;蒋雅玲;梁子珍;高辉 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/12 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 崔友明;刘琰 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 禁忌 贝叶斯 网络 上位 性位点 挖掘 方法 | ||
本发明公开了一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,包括:1、将基因型数据转换为二进制表示的布尔型数据;2、利用逻辑与操作快速地计算任意SNP位点对与表型间条件互信息,取出top‑N节点对,构建包含SNP位点的初始网络图;3、基于初始网络个体,通过随机增加边、删除边、逆转边生成新的个体,直到网络个体数量达到种群大小规模;4、通过遗传算法的三种操作与贝叶斯网络的打分机制,对贝叶斯网络结构进行演化,找到网络结构的最优解,快速准确的获取到影响表型性状的上位性基因位点。本发明可以帮助生物学研究者得到影响特定表型性状的上位性基因位点,进而辅助基因功能挖掘,以及为不同物种的复杂数量性状的遗传基础解析提供借鉴。
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法。
背景技术
随着人们生活水平和医疗环境的不断提高和改善,那些仅仅由环境因素决定的疾病(比如传染病、营养不良等)基本得到了控制,而复杂疾病和孟德尔遗传病成为了目前影响人类健康的主要疾病。孟德尔遗传病是一种单基因疾病,其遗传过程遵循孟德尔遗传定律,目前研究者利用定位克隆的方法确定了相关遗传基因,基本阐明了其遗传方式。复杂疾病占人类疾病的大约80%以上,对人类健康造成了极大的伤害。哮喘、癌症、糖尿病、高血压、老年痴呆症、类风湿性关节炎、精神分裂症、心脏病、心血管疾病、肥胖、肿瘤等常见慢性疾病,统称为复杂疾病。复杂疾病的病因非常复杂,涉及到环境、基因以及它们之间的相互作用等多种因素。因此,急需阐明复杂疾病的致病原因及遗传机制,给复杂疾病的诊断和治疗提供科学依据,为人类健康提供保障,也具有重要的研究意义。
从生物遗传学的角度看,决定生物复杂性状的遗传因素主要包括三个方面:基因主效应、基因与基因之间的相互作用和基因与环境之间的相互作用。通过生物学大量实验研究发现,控制生物复杂性状的主要原因是基因与基因之间的相互作用。基因与基因之间的相互作用,又称为上位性(Epistasis),它主要表现为SNP之间的相互作用。同时,随着高通量技术的迅速发展,目前产生了海量的生物数据。利用全基因组关联研究(Genome-wideAssociation Study,GWAS)方法从基因组范围内的数据中筛选出和疾病显著关联的SNPs,从而阐释复杂疾病的遗传机制是当前生物信息学研究的一个热点问题。GWAS方法主要侧重于主效基因的检测,在前期研究尽管利用该方法找到了很多与表型相关的位点,但也只能解释极少数的遗传变异。其中一个最重要的原因就是这些研究忽略了基因与基因之间的相互作用,即上位性。可见,进行上位性位点挖掘是目前解释复杂疾病遗传机制的主要手段。然而,目前上位性检测方法仍然存在计算困难、算法复杂度高、效率低下以及假阳性率高等问题,导致不能准确高效地检测出与疾病相关联的SNP位点及其组合。因此,在全基因组范围内提出更有效、更准确的上位性检测算法具有十分重要的研究意义,也对复杂疾病致病机理的发现、诊断、治疗和预防有着非常重要的作用。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法,包括以下步骤:
步骤1、对SNP基因型数据,将基因型数据表示为0、1、2形式的数据,0表示纯合子常见基因型,1表示杂合子,2表示纯合子少见基因型;获取待挖掘的基因样本,以样本数为单位分为0、1、2三组,将基因型数据转换为二进制形式表示的布尔型数据0、1;
步骤2、基于信息熵理论,计算任意SNP位点对与表型性状间条件互信息,根据计算的互信息大小对节点对进行排序,取出top-N节点对,构建包含SNP位点对的初始网络图;
步骤3、在不生成环的前提下,对初始网络个体通过随机增加边、删除边、逆转边操作生成下一个网络个体,然后在下一个网络个体的基础上再生成新的网络个体;重复以上生成新网络个体的操作,直到网络个体数量达到初始种群规模大小;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811287261.0/2.html,转载请声明来源钻瓜专利网。