[发明专利]鉴定长链非编码核糖核酸-转录因子-基因调控模体的方法有效
| 申请号: | 201911147482.2 | 申请日: | 2019-11-21 |
| 公开(公告)号: | CN111091866B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 李爱民;刘雅君;刘光明;费蓉;周红芳;黑新宏;王磊;赵中明 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 杨洲 |
| 地址: | 710048*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 鉴定 长链非 编码 核糖核酸 转录 因子 基因 调控 方法 | ||
1.鉴定长链非编码核糖核酸-转录因子-基因调控模体的方法,其特征在于,包括以下步骤:
步骤1,获得基因表达数据
从XENA数据库下载基因及其数量、诊断基础数据,癌症基因组图谱提供了癌症组织和癌旁组织中转录组测序数据,癌症基因组图谱中的这些样本用于分析表达谱,癌症基因组图谱提供的原始RNA-seq测序数据用于计算出lncRNA、TF和gene的表达水平,以每百万个匹配上的读段中匹配到外显子的每一千个碱基上的片段个数的形式来表示表达水平;
步骤2,基因表达数据的过滤
对lncRNA、TF和gene进行了过滤,首先,仅保留FPKM表达水平在至少50%样本中大于1的lncRNA、TF和gene,在后续分析步骤中舍去不满足过滤条件的生物分子;其次,根据生物分子的类别将整个基因表达数据划分为若干个数据集,分别为:过滤后的lncRNA表达数据、过滤后的转录因子表达数据、过滤后的基因表达数据;
步骤3,获得生物分子之间的调控关系
从TRANSFAC数据库和TRRUST数据库获得TF-gene相互调控关系数据,对于两个数据库获得的数据,取其中的交集,这样的数据更为可靠;对于TF-gene,进一步过滤,TF-gene中的TF必须要表达,也就是TF的FPKM必须在至少一半的样本中的值大于1,gene也必须表达,gene的FPKM必须在至少一半的样本中的值大于1;
步骤4,获得高表达和低表达的长链非编码RNA
把现有的癌症样本按照每个lncRNA的表达水平从低到高的表达值进行排序,每个lncRNA独立分析,对每个lncRNA而言,按照lncRNA的表达水平对全部样本排序,三分之一的低表达样品被认为是lncRNA低表达组,三分之一的高表达样品被视为lncRNA高表达组,其余的样本看作中表达组;
步骤5,设计多元线性回归模型
多元线性回归模型如下:
Eg~Et+Gl+Et:Gl 公式1
式中,E是Expression表达水平,G是Group分组,g是gene,t是TF,l是lncRNA,Eg表示基因的表达水平,Et表示转录因子的表达水平,Gl是样本的分组,包括低组和高组,Et:Gl表示转录因子与lncRNA分组之间的相互作用,通过此模型,可获得对TF-gene有显著影响的lncRNA,可获得lncRNA-TF-gene调控模体;
拷贝数变异影响基因表达,需要对公式1进行修正,修正之后的公式如下:
Eg~Et+Gl+C+Et:Gl 公式2
式中,C表示转录因子或基因的拷贝数变异,如果C对应的p-value小于0.05,则表明CNV对gene的表达水平有显著影响,此时,排除这个TF-gene,获得的经过拷贝数变异纠正后的lncRNA-TF-gene调控模体;
步骤6,结果处理
对于步骤5获得的经过拷贝数变异纠正后的lncRNA-TF-gene调控模体,分析各项参数的p-value,满足Gl的p-value0.05和C的p-value0.05的调控模体需要保留下来,并做多重校验,FDR0.05的为最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911147482.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能电池板清洗装置
- 下一篇:一种命令处理器与DDR读写访问电路





