[发明专利]一种生物信息数据库注释方法及系统有效
| 申请号: | 201810017510.8 | 申请日: | 2018-01-09 |
| 公开(公告)号: | CN110111850B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 黄金艳;李剑峰 | 申请(专利权)人: | 上海交通大学医学院附属瑞金医院 |
| 主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/21;G06F16/27 |
| 代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 生物 信息 数据库 注释 方法 系统 | ||
本发明公开了一种生物信息数据库注释方法,包括以下步骤:建立一个数据过滤脚本池;建立一个包含多个数据库的数据库池;接收输入数据并进行初始化通过数据库池匹配数据库;根据数据库匹配判断输入数据是否标准;若不标准则通过数据过滤脚本池进行数据标准化;若标准,则进行数据注释步骤后返回;还公开了一种生物信息数据库注释系统。可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作,通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度;通过整合多个数据库集合,可以大大方便人们开展相关生物信息数据注释工作。
技术领域
本发明涉及生物信息数据库技术领域,尤其涉及一种生物信息数据库注释方法及系统。
背景技术
生物信息数据库资源经过几十年的飞速发展,种类和功能已经变得越来越强大。综合性数据库:如NCBI有核酸、蛋白、基因名、基因组名等等的搜索工具、PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等;Genome Browser:如UCSC、EnsEMBL提供了大量的基因组相关数据库;Ontology/Pathway:如DAVID整合了诸如GO(Gene Ontology)、KEGG、基因ID信息等大量数据库来进行生物信息挖掘。基因变异注释工具:如ANNOVAR整合了近50种与基因变异相关的数据库,极大的方便了基因组学数据的注释工作。
目前,大量的生物信息数据库已经极大地便利了人们开展相关工作。不过,在使用这些数据库过程中,仍然存在以下几个难点和困难:
1)输入数据与参考数据的兼容性问题。由于输入数据的来源、格式是多样的、参考数据库的格式也可能有多种格式如纯文本文件、类SQL数据库等,如果要进行相关注释和分析,必须对输入数据以及参考数据库进行标准化,在此之前,主要是用户通过自己编写转换脚本或人工手动调整,并没有一套系统、完整的数据过滤器,来匹配各类输入数据和参考数据库。
2)注释工具的单线程模式不太适合于大数据分析。目前,相当多的数据注释工具仍然采用单线程或单一数据流格式进行注释,与目前主流的计算机集群计算以及海量数据的需求不配套。
3)数据库来源分散,如果需要进行多种数据注释需要进行多次操作,极大地拖慢了数据注释的时间,拉长了数据分析的周期。
4)只有少量数据库注释工具拥有整合自有数据库的功能,另外,各类工具整合自有数据的灵活度大都不太高。
发明内容
鉴于目前存在的上述不足,本发明提供一种生物信息数据库注释方法,能够解决以上问题。
为达到上述目的,本发明的实施例采用如下技术方案:
一种生物信息数据库注释方法,所述生物信息数据库注释方法包括以下步骤:
建立一个数据过滤脚本池;
建立一个包含多个数据库的数据库池;
接收输入数据并进行初始化通过数据库池匹配数据库;
根据数据库匹配判断输入数据是否标准;
若不标准则通过数据过滤脚本池进行数据标准化;
若标准,则进行数据注释步骤后返回。
依照本发明的一个方面,所述建立一个包含多个数据库的数据库池包括:整合ANNOVAR已有数据库和公共数据库形成数据库池。
依照本发明的一个方面,所述建立一个包含多个数据库的数据库池包括:下载和安装数据库池中的数据,并生成相应数据库的元信息进行管理和更新。
依照本发明的一个方面,所述进行数据注释步骤后返回包括:使用数据注释函数库中对应的注释函数对数据进行注释,并根据用户输入的其他参数返回数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学医学院附属瑞金医院,未经上海交通大学医学院附属瑞金医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810017510.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





