[发明专利]基于计算云平台的真核无参转录组交互分析系统及其方法在审
申请号: | 201710598315.4 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107391963A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 刘彬旭;余果;郭权;任一;史彩萍;曾静;石今;周玄 | 申请(专利权)人: | 上海桑格信息技术有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06F19/26 |
代理公司: | 上海恒锐佳知识产权代理事务所(普通合伙)31286 | 代理人: | 黄海霞 |
地址: | 201321 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 计算 平台 真核无参 转录 交互 分析 系统 及其 方法 | ||
技术领域
本发明涉及生物信息分析技术领域,尤其涉及一种基于计算云平台的真核无参转录组交互分析系统及其方法。
背景技术
转录组又称转录物组或表达谱,指特定物种、组织或细胞类型在某一时期内表达的所有RNA的总和,包括编码蛋白质的mRNA和各种非编码的RNA(rRNA、tRNA、snoRNA、snRNA、microRNA等)。转录组包含了时间和空间的限定,它是基因组与外部物理特征的动态联系,转录组反映的是特定条件下活跃表达的基因,是研究细胞表型和功能的一个重要手段。转录组学是从RNA水平研究基因表达变化的学科,对于尚不能得到全基因组序列的物种而言,进行转录组测序,已成为沟通表型和基因型的重要桥梁。
转录组的研究可以提供特定条件下基因的表达信息,从而推断未知基因的功能,揭示特定调节基因的作用机制,还可以确定不同种类的细胞和组织的基因在何时何地被激活或进入休眠,对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗。
相对于真核生物全基因组而言,转录组序列不含有内含子及其它非编码序列,能给出更高效的有用信息。转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。而无参考基因组的真核生物转录组测序无需设计探针,不但能检测已知基因还能够发现新的转录本,在测序覆盖率足够大时还能检测到低丰度转录本。
生物信息学数据分析是高通量测序应用于转录组研究的最关键步骤。Illumina HiSeq运行一次产生的数据量高达1000G,个人计算机和工作站显然无法完成这些数据的处理工作。
高通量数据处理时要对数据进行调整、筛选、比对,需要生物信息学工作者掌握脚本程序编写能力。现有真核无参转录组生物信息分析主要由三部分组成。标准生物信息学分析是整个转录组分析的基础,其结果呈现包括数据产出统计、数据质控、转录组拼接、拼接转录本/Unigene长度统计、序列分析和表达量分析。其中序列分析包括ORF预测、基因功能注释,SNP分析和SSR分析。而基因功能注释将比对NR、Pfam、Swissprot、String、KEGG、GO、COG等数据库。表达量分析包括重复样本间相关性分析、基因表达差异分析、差异基因GO/KEGG富集分析、差异基因表达模式聚类分析、差异基因Venn分析和显著性GO有向无环图分析。高级生物信息学分析呈现方式包括:基因共表达网络构建、Ipath整合分析、蛋白互作网络分析、转录因子分析等。个性化生物信息学分析包括:模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建系统发育树、近缘物种直系同源分析、Divergent同源基因GO/KEGG分析、Conserved同源基因GO/KEGG分析、GO分类水平的选择压力分析、树假设检验分析等。
现有技术的业务流程采用手动的方式,工作效率较低,因此无法满足市场的需求。
发明内容
为解决上述问题,本发明提供一种基于计算云平台的真核无参转录组交互分析系统及其方法,以解决个人计算机和工作站无法完成数据处理和现有手动业务流程效率低的问题。
为实现上述目之一,本发明提供一种基于计算云平台的真核无参转录组交互分析系统,包括
项目管理模块,用于对项目信息进行查看和管理,通过项目、任务、应用和文件对所有状态的分析项目进行综合管理;
基础分析任务提交模块,用于设置基础参数运行任务,并将结果以及原始数据按照预设格式整合封装成相应的项目文件,基础参数运行任务包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析;
交互式结果分析模块,用于根据用户请求生成分析结果,并将结果可视化展示,包括高级生物信息学分析和个性化生物信息学分析;
所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接;
首先,向本地集群服务器上传测序数据,在项目管理模块中建立项目在该项目管理模块中可以进行项目锁定或者共享给他人操作;
然后,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;
最后,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海桑格信息技术有限公司,未经上海桑格信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710598315.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用