[发明专利]一种过滤全长转录本的方法和系统在审
| 申请号: | 202011619487.3 | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN114694751A | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 封力;汤冬;刘山林;梁帆;汪德鹏 | 申请(专利权)人: | 武汉希望组生物科技有限公司 |
| 主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B30/10;G16B40/00 |
| 代理公司: | 武汉河山金堂专利事务所(普通合伙) 42212 | 代理人: | 胡清堂 |
| 地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 过滤 全长 转录 方法 系统 | ||
1.一种过滤全长转录本的方法,其特征在于,包括以下步骤:
S1、将测序获得的转录本读段与参考基因组进行比对,根据转录本剪切模式,进行聚类去冗余,得到第一转录本;所述第一转录本包括,与参考基因组剪切模式相同的转录本集合A,以及与参考基因组剪切模式不同的转录本集合B;
S2、根据平均测序深度、外显子支持数以及转录本读段支持数,过滤集合B,得到集合C;
S3、取集合A与集合C的并集,与参考基因组重比对,再次聚类去冗余,得到第二转录本。
2.根据权利要求1所述过滤全长转录本的方法,其特征在于,步骤S1与步骤S3所述聚类去冗余方法相同,具体为:根据3'端的外显子和剪切位点的完全匹配,将相同剪切模式下的转录本读段聚为一类,且一种剪切模式下只保留唯一最长的转录本。
3.根据权利要求1所述过滤全长转录本的方法,其特征在于,步骤S2所述外显子支持数的计数方法为:根据集合B内不同转录本中具有重叠关系的外显子之间的相似性,判断是否为相同外显子,并进行计数。
4.根据权利要求3所述过滤全长转录本的方法,其特征在于,所述外显子之间的相似性的计算方法为:设置窗口区域,并对其进行切分得到切分窗口,对切分窗口进行赋值并均一化,将各外显子所落入的切分窗口赋值之和计为该外显子得分,通过比较各外显子得分获得外显子之间的相似性。
5.根据权利要求4所述过滤全长转录本的方法,其特征在于,所述窗口区域的起点为存在重叠比对关系的外显子的最上游5’端,所述窗口区域的终点为存在重叠比对关系的外显子的最下游3’端。
6.根据权利要求4所述过滤全长转录本的方法,其特征在于,取所述切分窗口赋值的对数值进行均一化。
7.根据权利要求3所述过滤全长转录本的方法,其特征在于,所述外显子之间的相似性大于等于70%时判定为相同外显子。
8.根据权利要求1所述过滤全长转录本的方法,其特征在于,步骤S2所述集合B过滤方法具体为:
1)对于参考基因组中已知基因但剪切模式不同的转录本,转录本中的每一个外显子均满足以下条件,则保留:
若外显子与参考基因组中的外显子有重叠,外显子支持数<第一阈值且转录本读段支持数≥第二阈值,或外显子支持数≥第一阈值;
若外显子与参考基因组中的外显子无重叠,外显子长度<第三阈值且外显子支持数≥第四阈值,或外显子长度≥第三阈值且外显子支持数≥第五阈值;
2)对于参考基因组中未知基因的转录本,保留平均测序深度≥第六阈值的转录本。
9.根据权利要求1所述过滤全长转录本的方法,其特征在于,所述方法还包括以下步骤:
S4、对所述第二转录本基于剪切位点进行转录本分类。
10.一种过滤全长转录本的系统,其特征在于,包括:
比对模块:用于转录本读段与参考基因组的比对,获得各条读段的转录本剪切模式;
聚类去冗余模块:根据转录本剪切模式,将相同剪切模式下的读段聚为一类且仅保留该类中唯一最长的转录本;
转录本过滤模块:以平均测序深度、外显子支持数以及转录本读段支持数为参数,对新剪切模式的转录本进行过滤;
过滤转录本输出模块:对过滤后的转录本进行输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉希望组生物科技有限公司,未经武汉希望组生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011619487.3/1.html,转载请声明来源钻瓜专利网。





