[发明专利]一种转录本的分类方法有效
| 申请号: | 201910388054.2 | 申请日: | 2019-05-10 |
| 公开(公告)号: | CN111916147B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 封力;汤冬;王毓博;李净净;梁帆;胡江;汪德鹏 | 申请(专利权)人: | 武汉希望组生物科技有限公司 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/10 |
| 代理公司: | 武汉河山金堂专利事务所(普通合伙) 42212 | 代理人: | 胡清堂 |
| 地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 转录 分类 方法 | ||
1.一种转录本分类方法,其特征在于,所述方法是通过准确定位剪切位点对转录本进行分类,具体包括以下步骤:
S1、对测序所得全长转录本结果质控,获得高质量全长转录本;
S2、将S1中获得的高质量全长转录本与参考基因组比对,将相同基因模型下的所有转录本进行聚类,去冗余,一个基因模型下的一种剪切模式只保留唯一最长的转录本;
S3、根据剪切位点,对全长转录本进行分类,获得初步分类结果;步骤S3所述剪切位点需要通过二代转录组数据进行验证;
S4、过滤初步分类结果,获得最终分类结果。
2.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S1所述质控方法具体为:筛选原始下机数据中碱基准确率大于99.9%和全长片段数大于等于2的序列。
3.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S2所述聚类具体为:根据3'端的外显子和剪切位点的完全匹配对相似转录本进行聚类。
4.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S2所述的唯一最长的转录本序列需要通过参考基因组序列进行碱基序列的矫正。
5.根据权利要求1所述的一种转录本分类方法,其特征在于,所述通过二代转录组数据验证剪切位点的方法具体为:对二代转录组数据进行质控,过滤掉低质量、N数目过多的序列,得到合格质量的短片段序列,再通过比对软件把短片段序列比对到参考基因组上获取准确的剪切位点的信息。
6.根据权利要求5所述的一种转录本分类方法,其特征在于,所述对二代转录组数据进行质控的条件为:过滤掉接头序列,允许的最大错配数为2,palindrome模式下匹配碱基数大于30,simple模式下的匹配碱基数大于5,序列长度大于100bp,切除首端碱基质量小于3的或者N的碱基。
7.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S3将所述的分类方法将转录本分成了9类,具体为:完全匹配的转录本,部分匹配的转录本,包含已知剪切位点重新组合的转录本,包含新剪切位点的转录本,反义转录本,融合转录本,内含子区的转录本,基因间区的转录本以及跨内含子和外显子区域的转录本。
8.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S4所述过滤的条件具体为:
a) 过滤掉二代转录组数据在测序所得全长转录本剪切位点覆盖度低于3的测序所得全长转录本;
b) 过滤掉测序所得全长转录本3′端下游20个碱基中A含量低于80%的测序所得全长转录本;
c) 过滤掉剪切位点5′端外显子末端碱基与剪切位点3′内含子末端碱基序列不一致的测序所得全长转录本。
9.根据权利要求8所述的一种转录本分类方法,其特征在于,所述条件c)的具体方法为:两个末端至少8bp的重复序列匹配,重复序列匹配位置的可变碱基数最大为1,不允许碱基的错配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉希望组生物科技有限公司,未经武汉希望组生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910388054.2/1.html,转载请声明来源钻瓜专利网。





