[发明专利]遗传信息管理系统及方法有效
| 申请号: | 201110329432.3 | 申请日: | 2011-10-24 |
| 公开(公告)号: | CN102456101A | 公开(公告)日: | 2012-05-16 |
| 发明(设计)人: | 朴旻*;金祐延 | 申请(专利权)人: | 三星SDS株式会社 |
| 主分类号: | G06F19/28 | 分类号: | G06F19/28 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 韩明星;王艳娇 |
| 地址: | 韩国*** | 国省代码: | 韩国;KR |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 遗传 信息管理 系统 方法 | ||
技术领域
本发明涉及生物信息(Bioinformatics)技术,尤其涉及有效管理庞大的量的读取数据及从读取数据中获得的遗传信息的系统及方法。
背景技术
最近,生物产业领域的基因组产业领域逐渐得到扩大。最具代表性的是,“Genome Quest”、“Knome”、“Complete Genomics”跨国企业,将称之为下一代测序(Next Generation Sequencing,NGS)DNA测序技术进行商业化并提供服务,而在韩国,最近有“THERA-GEN”等公司也开始提供相同方法的服务。这样的技术具有可用于需要显示通过NGS提取的数据的基因组领域、提供基因组分析服务的生物产业领域、在基因组研究领域中提供数据的基因组研究领域、在诊断及治疗中利用基因组数据的医学领域等各种领域的潜力。
但是,利用通过上述NGS的DNS次序技术所获取的数据,其数量在人类的情况下每个按压达35亿个,因此,为了对所获取的数据的有效分析、检索及显示,数据库构建及数据处理技术(即,遗传信息管理技术)的开发也显得尤为重要。
目前为止所使用的遗传信息管理技术有次序队列/映射(Sequence Alignment/Map,SAM)工具、通用基因组浏览器(Generic Genome Browser,Gbrowse)、整合基因组查看器(Integrative Genomics Viewer,IGV)等。
SAM工具曾发表于2009年的学刊“Bioinformatics”,提供有效保存通过NGS方法计算出的读取数据的方法。上述方法提供SAM和二进制队列/映射(Binary Alignment/Map,BAM)形式的文件格式,而且,还提供在减少整体数据大小的同时,快速提取数据的方案。
SAM文件格式用“”字符表示头,而实际数据用TAB区分并如下表1所示,具有共11个的必要的列。
【表1】
上述SAM格式可转换为作为二进制格式的BAM格式。这是从数据中快速提取信息并节省数据空间的方案。为了实际访问数据,需使用特别开发的SAM工具程序。
另外,世界很多研究机构使用的遗传信息浏览器有GBrowse。GBrowse以mysql数据库为基础,而且,还可进行基于文件的数据管理。但是,不能在数据库中保存/管理读取数据。而且,NGS数据与一般遗传信息不同,因其容量过大,因此,无法直接使用现有方式。因此,2009年为显示NGS数据而做出过努力,而且,作为其结果修改成当前可显示读取数据的形式。
最后,为将遗传信息显示于本地计算机而开发出的浏览器有IGV。这不仅可显示NGS数据,而且,还可一同包括微阵列等实验数据。在NGS数据的情况下,可将SAM或BAM文件形式数据作为输入。用户直接将此工具安装于自己的计算机并获取必要的文件之后,将上述文件利用工具导入(import)驱动的方式。
但是,上述现有技术存在如下几个问题:
第一、在现有技术中使用的数据中,不能只对所需部分进行变更。为了变更内容需要重新生成全部数据,因此,需将数据本身转换为SAM形式之后,再将此变换为二进制形式的BAM文件。即,为数据的变更,需重新生成全部文件。
第二、在现有技术中,在资料的生成或添加、删除等功能中,难以判断整体资料的重复性。在变更一个资料时,为了确认整个资料中的重复性,需验证整个资料。另外,在整个资料中到处所需资料时,也需要一一验证重复性。
第三、现有技术不是以多个用户为对象进行服务的形式。因此,在多个用户访问相同数据时,不能对其进行限制或应用规则。为此,需构建承担上述功能的程序并对上述数据进行管理。
第四、现有技术难以对资料进行完整性处理。治疗的完整性是指防止资料被未被许可的用户或未被许可方式修改或删除。为此,需要将一个个资料与系统的帐户进行关联或另外开发管理资料本身的工具。生命体的遗传信息的安全非常重要,而对于人类的遗传信息,需要比居民身份证更高的安全管理。因此,完整性处理的难度是一个很到的问题。
最后,在现有技术中,若资料因各种原因遭到损坏,则没有对此进行修复的方法。因此,需直接实现与此相关的其他功能或启动其他的程序。在产业领域中,资料的完整性和资料的稳定性显得尤为重要。
发明内容
本发明的目的在于克服现有技术之不足而提供一种数据库设计,其可快速稳定地处理NGS的读取数据等大容量的遗传信息。尤其是,在上述数据库显示于基因浏览器时,可进行有效显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110329432.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:风力动力装置和运行风力动力装置的方法
- 下一篇:强化燃料电池金属板周界
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





