[发明专利]过滤酶切建库方式引入噪音的方法和装置有效
申请号: | 202111649916.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114334006B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 蒋才;戴鹏;程陶然;朱文鑫 | 申请(专利权)人: | 纳昂达(南京)生物科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G06K9/62;G06F16/16 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 路秀丽 |
地址: | 210031 江苏省南京市江北新区华康路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 酶切建库 方式 引入 噪音 方法 装置 | ||
1.一种过滤酶切建库方式引入噪音的方法,其特征在于,所述方法包括:
获取酶切建库双端测序下机数据与参考基因组序列的初始比对结果文件;
从所述初始比对结果文件中提取含有Soft Clip标记的读段,并统计各所述读段中Soft Clip碱基数;
将所述Soft Clip碱基数大于阈值T1的所述读段记为候选处理序列,并提取各所述候选处理序列在所述参考基因组上的比对位置以及所述候选处理序列中的Soft Clip碱基序列;
根据各所述候选处理序列在所述参考基因组上的比对位置前后延伸D长度,得到延伸区域,并在各所述延伸区域内寻找与所述Soft Clip碱基序列相似的序列,如果所述相似序列的相似度大于阈值T2时,所述读段视为含有酶切噪音的读段,存放于去除文件中;
从所述初始比对结果文件中过滤掉所述去除文件中含有的读段,得到去除酶切建库方式引入噪音的比对文件;
其中,相似度是指所述延伸区域内与所述Soft Clip碱基序列的比对匹配率。
2.根据权利要求1所述的方法,其特征在于,从所述初始比对结果文件中提取含有SoftClip标记的读段,并统计各所述读段中Soft Clip碱基数的步骤中,将所述初始比对结果文件切割成若干份进行多进程并行处理。
3.根据权利要求2所述的方法,其特征在于,将所述初始比对结果文件切割成若干份进行多进程并行处理时,根据所述初始比对结果文件的行数M和进程数目N,按照int(M/N)+1计算每个分割文件大小,得到均等分割比对文件。
4.根据权利要求1所述的方法,其特征在于,将所述Soft Clip碱基数大于阈值T1的所述读段记为候选处理序列包括如下情形:
(i)分布在所述读段的前端或后端的Soft Clip碱基,若所述Soft Clip碱基数大于阈值T1时,所述读段记为候选处理序列;
(ii)同时出现在所述读段的前端和后端的Soft Clip碱基,至少一端的所述Soft Clip碱基数大于阈值T1时,所述读段记为候选处理序列;
(iii)同时出现在所述读段的前端和后端的Soft Clip碱基,前端和后端Soft Clip碱基数分别小于阈值T1,且前端和后端Soft Clip碱基数之和大于阈值T1时,所述读段不记为候选处理序列。
5.根据权利要求1所述的方法,其特征在于,根据各所述候选处理序列在所述参考基因组上的比对位置,按如下规则前后延伸D长度:
(i)当所述比对位置位于染色体起始位置区域,且距离所述染色体起始位置的长度小于D时,仅延伸至染色体起始位置;
(ii)当所述比对位置位于染色体末端位置区域,且距离是所述染色体末端位置的长度小于D时,仅延伸至染色体末端位置;
(iii)当所述比对位置位于染色体中间位置,且距离所述染色体起始位置和所述染色体末端位置的长度均大于D时,前后延伸D长度。
6.根据权利要求5所述的方法,其特征在于,所述D为200~400bp。
7.根据权利要求5所述的方法,其特征在于,所述D为250bp~350bp。
8.根据权利要求1所述的方法,其特征在于,通过局部比对的方法在各所述延伸区域内寻找与所述Soft Clip碱基序列相似的序列。
9.根据权利要求8所述的方法,其特征在于,所述局部比对的方法所引入的评分机制如下:相同碱基记为2分,错配碱基记为-3分,出现空缺记为-10分,连续的空缺不计分,根据最优得分在所述延伸区域找到所述Soft Clip碱基序列的最优相似序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纳昂达(南京)生物科技有限公司,未经纳昂达(南京)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649916.6/1.html,转载请声明来源钻瓜专利网。