[发明专利]一种快速检测融合基因的方法在审
| 申请号: | 201710293318.7 | 申请日: | 2017-04-28 |
| 公开(公告)号: | CN107437002A | 公开(公告)日: | 2017-12-05 |
| 发明(设计)人: | 闫成海;唐元华;徐健 | 申请(专利权)人: | 首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司 |
| 主分类号: | G06F19/22 | 分类号: | G06F19/22 |
| 代理公司: | 北京恒泰铭睿知识产权代理有限公司11642 | 代理人: | 胡艳 |
| 地址: | 215123 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 检测 融合 基因 方法 | ||
技术领域
本发明涉及生物信息技术领域,尤其是一种快速检测融合基因的方法。
背景技术
融合基因是指两个基因的全部或者部分序列相互融合为一个全新的基因的过程,其有可能是染色体易位、中间缺失或染色体倒置所致的结果,通常具有致瘤性。1973年,芝加哥大学的Janet Rowley确认了费城染色体的形成机制来自于染色体易位,并在白血病中发现第一个融合基因。随后,在众多实体瘤如尤文肉瘤、滑膜肉瘤、前列腺癌、肺癌、乳腺癌、卵巢癌等中相继发现了融合基因的存在。据相关研究报道,90%以上的慢性粒细胞白血病(CML)会出现BCR-ABL融合基因,此基因产生一种新的mRNA,编码的蛋白为P210,P210会使细胞失去对周围环境的反应性,并抑制细胞凋亡的发生。因此,BCR-ABL融合基因也可以作为慢性粒细胞白血病的生物标记,来判别是否罹患慢性粒细胞白血病。常见的基因融合原理如图1所示,第一个基因从第二个序列断开,第二个基因从第二个序列断开,第一个基因的前段和第二个基因的后段组合形成新的基因。
目前融合基因的检测,多是基于高通量测序技术,首先进行转录组测序,获得全部转录本的序列信息;然后将这些序列回帖到人类基因组上,寻找可以比对上不同区域上的嵌合序列,对于双端测序,可以寻找横跨某一区域的双端序列,。最后根据嵌合序列比对到的基因,确定融合基因的名称。
然而,由于现有测序技术具有一定的错误率,加之人类基因组的复杂性,现有融合基因的检测装置和方法并不能很好的完成检测目标。现有检测方法存在以下不足:
1.检测过程对短序列比对软件的依赖较高,比对结果的好坏对检测到融合基因的有较大影响;
2.检测时间相对较长、内存消耗较大。现有检测方法一般要花费数小时或者数天来才能检测到结果,且对计算内存消耗较大,一般的计算设备较难满足要求。
3.检测结果的假阳性较高。由于测序错误、比对错误等原因,传统的检测方法会产生较多的假阳性结果,导致分析结果需要进一步验证才能最终确定真正的融合基因。
发明内容
为了解决上述技术问题,本发明提供了一种快速检测融合基因的方法,其不但可以快速检测出融合基因,同时可以防止软件比对错误引起的误判。
一种快速检测融合基因的方法,包括以下步骤:
A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;
B.获取待检测基因:通过基因检测装置,获取待检测基因的序列数据;
D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息;
E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。
进一步地,在所述步骤B之后还包括步骤C.将序列数据建立数据库索引。
进一步地,在所述步骤D之后还包括步骤F.当含有融合基因时,判断待检测基因包含融合基因的含量,当融合基因的含量大于一定阈值时,提示存在风险。
进一步地,所述步骤B中的基因检测装置为二代高通量测序平台或三代测序平台或基因芯片。
进一步地,所述步骤A中,N≥5或M≥5。
进一步地,所述步骤D中种子与序列数据采用局部比对。
采用上述方法,本发明具有以下的技术效果:
1.由于本发明将将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库,并将种子与待检测基因的序列数据进行比对,弃用了常规的融合基因寻找方法,通过建立新的融合基因数据库,采用执果索因的方式,不需要与人类基因组进行比较,避免了既耗时又可能产生错误的比对基因组步骤,使得此种方法检测速度可提高几十倍,很少的内存需求下完成分析,并且防止了比较错误引起的误判。
2.当融合基因大于阈值时,提示存在风险,通过本发明的检测融合基因的方法,可以有效检测融合基因并且提示用户注意,提前做出预防。
3.基因检测装置为二代高通量测序平台或三代测序平台或基因芯片,通过快速测序平台,使得检测融合基因的方法的检测速度进一步提高,防止测序的时间影响整个检测时间。
4.N≥5或M≥5时,种子与待检测基因的序列数据比对速度较快,并且可以有效保障准确率,如果N<5,则可能引起误判;同样M<5,也有可能引起误判。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司,未经首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710293318.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于云计算的心脏病病理数据处理系统
- 下一篇:智能锁(618)
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





