[发明专利]一种高通量转录组测序数据与性状关联分析系统及方法在审
| 申请号: | 202110081269.7 | 申请日: | 2021-01-21 |
| 公开(公告)号: | CN112837751A | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 康慧敏;李华 | 申请(专利权)人: | 佛山科学技术学院 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00 |
| 代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
| 地址: | 528231 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通量 转录 序数 性状 关联 分析 系统 方法 | ||
本发明提供了一种高通量转录组测序数据与性状关联分析方法,包括如下步骤:获取对象的高通量转录组测序数据;根据高通量转录组测序数据获取对象的每个基因的归一化表达量;通过线性回归模型拟合对象的性状表型值与每个基因的归一化表达量之间的关系;求解线性回归模型并将所有效应不为零的基因作为与性状关联的基因。本发明能够有效挖掘重要性状的候选基因,提高了基因挖掘功效,降低了假阳性率。相应地,本发明还提供一种高通量转录组测序数据与性状关联分析系统。
技术领域
本发明涉及生物信息技术领域,具体而言,涉及一种高通量转录组测序数据与性状关联分析系统及方法。
背景技术
转录组广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。而高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。
挖掘重要性状的候选基因是动植物遗传育种领域的一项主要研究内容,它对于分子辅助育种,包括基因组选择和基因编辑都具有重要意义。目前,高通量转录组测序已成为遗传育种领域挖掘重要性状候选基因所使用的主流方法之一。
对于数量性状,现有技术未充分利用个体的表型信息,其将连续变化的数据类型简单地按照分类性状处理,降低了基因挖掘的功效,增加了假阳性率。为此,有必要研发一种高通量转录组测序数据与性状关联分析方法,以提高基因挖掘功效,降低假阳性率。
发明内容
基于此,为了解决现有技术未充分利用个体的表型信息,将连续变化的数据类型简单地按照分类性状处理而降低基因挖掘功效以及增加假阳性率的问题,本发明提供了一种高通量转录组测序数据与性状关联分析系统及方法,其具体技术方案如下:
一种高通量转录组测序数据与性状关联分析系统,其包括:
数据获取模块,用于获取对象的高通量转录组测序数据以及性状表型值;
表达量获取模块,用于根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;
拟合模块,用于通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;
求解分析模块,用于求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。
进一步地,所述线性回归模型的表达式为其中,y为性状表型值向量,μ1为群体均值,Xi是第i个基因的表达量,bi为第i个基因表达量对所述性状表型值的偏回归系数,m为基因数,e为残差。
进一步地,所述求解分析模块包括算法单元,所述算法单元用于根据弹性网络算法求解所述线性回归模型。
进一步地,所述弹性网络算法的最小目标函数为其中,λ和α均为调整参数。
本发明还提供一种高通量转录组测序数据与性状关联分析方法,其包括如下步骤:
获取对象的高通量转录组测序数据以及性状表型值;
根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;
通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;
求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110081269.7/2.html,转载请声明来源钻瓜专利网。





