[发明专利]一种基于压缩的快速分析致病基因算法在审
申请号: | 201711472339.1 | 申请日: | 2017-12-29 |
公开(公告)号: | CN107977550A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 孙志伟;贾洪川;马永军;蔡润身 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 300222 天津市河*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 压缩 快速 分析 致病 基因 算法 | ||
技术领域
本发明属于生物信息处理技术领域,尤其是一种基于压缩的快速分析致病 基因算法(FADG-C,Fast anlysis of disease gene based on compression)。
背景技术
单核苷酸多态性(Single nucleotide polymorphism,SNP)指的是在某种生 物不同个体的DNA序列当中,存在着单个核苷酸变异的多态性现象。SNP是基因 组中存在的一种数量异常丰富的变异形式,占人类基因组中遗传多态性的90% 以上。SNP与罕见变异的不同之处在于,通常情况下,种群中频率等于或小于 1%的此种变异被称为是突变,而只有当频率大于1%的时候才被称为是单核苷酸 多态性。
SNP的诸多特性使得它可以用于对复杂性状与疾病的遗传解剖以及基于群 体的基因识别等多方面的研究工作,表现在以下方面:
首先,SNP数量多并且分布广泛。
其次,SNP适用于规模化并且快速的筛查。虽然组成DNA的碱基有4种类型, 但SNP是一种二态的标记,因为它一般只有两种碱基组成,又被称为是二等位 基因(biallelic)。由于SNP二态性的存在,在基因组筛选中SNP往往只需要 进行或加或减的分析,而不需要去分析片段的长度,这一特性对于利用自动化 技术来筛选或者检测SNP的发展特别有利。
然后是易于估计SNP等位基因频率。采用混和样本估算等位基因的频率的 策略就是一种高效且快速的方法。第一步选择参考样本作为标准曲线,第二步 将待测的混和样本与标准曲线进行分析比较,最后一步根据所得信号的比例来 确定各种等位基因在混和样本中的频率。
最后是SNP易于基因分型。SNP的二态性同时也使得对其进行基因分型更加 方便。SNP进行基因分型主要包含三个方面的内容:(1)通过DNA分子杂交、等 位基因特异的寡核苷酸连接反应、引物延伸、侧翼探针切割反应以及基于这些 方法的变通技术来鉴别SNP基因型;(2)完成上述这些化学反应采用包括液相反 应、固相支持物上进行的反应以及两者都有的反应三种模式。(3)等到化学反应 结束之后,还需要运用生物技术对化学反应的结果进行系统检测。
人类基因组计划的实施使得SNP成为人类基因组中最丰富的遗传变异形式。 位于一条染色体特定区域的一组相互关联并且倾向于作为一个整体一起遗传给 下一代的SNP的组合称为是单体型(Haplotype)。人类群体中大约有一千万个 SNP位点,其中特异SNP位点的频率往往都大于百分之一。相邻的SNP等位位点 倾向于作为一个整体一起遗传给下一代,单体型图利用这一特性可以拿来描述 人类常见的遗传多态模式。单体型图谱可以涵盖染色体上具有紧密关联SNP的 区域,区域当中的单体型以及这些单体型的标签SNP。除此之外单体型图还可以 标示出那些与特定SNP位点关联不紧密的区域。
在两个或者两个以上的个体当中,如果一个DNA片段具有相同的核苷酸序列, 就说这个DNA片段是IBS(Identity By State,状态一致),如果这个IBS片段 是遗传自同一个祖先且中间过程没有发生过重组事件,就说这个片段是 IBD(Identity By Descent,同源一致)。也就是说,该片段在这些个体中具有 相同的祖先来源。
作为IBD的DNA片段是定义的IBS,但是不是IBD的片段仍然可以是IBS, 因为不同个体中的相同突变或许不改变该区段的重组。如果往上追溯足够长的 时间,则在有限群体中的所有个体都是相关的,并且因此将共享它们的基因组 IBD的片段。在减数分裂期间,IBD的片段通过重组进行分裂。因此,IBD片段 的预期长度取决于该区段的基因座的最近的共同祖先的世代数。
IBD共享的量(包括长度和数量)取决于受试个体之间的家族关系。因此, IBD片段检测的一个应用是量化关联性。相关性的测量可以用于法医遗传学,但 也可以增加遗传连锁图谱中的信息,并且有助于通过标准关联研究中的非文档 关系减少偏差。IBD定位类似于连锁分析,但是却可以在无关个体不知系谱的情 况下进行。IBD定位可以看作是关联分析的一种新形式,提高了定位包含多个罕 见的疾病易感基因变异或基因组区域的能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711472339.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用