[发明专利]一种获得染色体水平基因组的方法有效
申请号: | 202110202878.3 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112908415B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 曲俊杰;尹玲 | 申请(专利权)人: | 广西壮族自治区农业科学院 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B20/20 |
代理公司: | 南宁市吉昌知识产权代理事务所(普通合伙) 45125 | 代理人: | 李秋琦 |
地址: | 530007 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获得 染色体 水平 基因组 方法 | ||
本发明公开了一种获得染色体水平基因组的方法。通过对比基于Hi‑C数据组装的基因组scaffold和基于大片段mate‑pair文库组装的基因组scaffold的contig顺序,保留基因组scaffold中与基于Hi‑C数据组装结果的顺序一致的contig,将不一致的contig打断,重复以上步骤,直至不再出现新的一致的contig顺序,得到经过校正的染色体水平基因组。本发明使用Hi‑C技术辅助对组装到基因组scaffold的结果进行校正,在不重新进行基因组测序的情况下,最大化的利用已测序的数据,保证组装结果正确的情况下,既最大化的保留了第二代测序基于大片段文库组装结果中正确的scaffold连接,又不影响Hi‑C染色体水平的准确性。
技术领域
本发明涉及生物信息学技术领域,具体涉及一种使用Hi-C技术对第二代测序大片段文库构建的基因组scaffold进行校正,进而获得更准确的染色体水平基因组的方法。
背景技术
长期以来,DNA测序技术一直是分子生物学相关研究中最常用的技术手段之一,从一定程度上推动了该领域的快速发展。第二代DNA测序技术又称大量并行测序技术(massive parallel sequencing,MPS)、高通量测序技术(high—throughput sequencing,HTS),第二代测序技术低成本、可实现99%以上的准确度,1次可对几百、几千个样本的几十万至几百万条DNA分子同时进行快速测序分析。
随着高通量测序技术的发展,大量的物种基因组序列被公布,在这些已公布的基因组序列中,很多是采用二代小片段pair-end文库和大片段mate-pair文库相结合的建库方式进行测序的。不论是二代小片段pair-end文库还是大片段mate-pair文库,得到的测序reads均为双端一一配对对应的短reads,reads的长度依赖于测序的illumina平台,一般在100bp~150bp不等。小片段pair-end文库的测序数据用于基于k-mer的overlap组装得到碱基连续的contig序列,大片段mate-pair文库用于将连续的contig序列连接成中间用gap填充的scaffold序列。
利用大片段的mate-pair文库测序得到的序列是一一配对的双端reads;因此基因组组装软件可以根据双端reads的配对关系,将这些reads比对到利用小片段pair-end文库数据组装得到的contig结果中,以比对结果为依据,将有大量双端mate-pair reads支持的contig连接成中间有gap填充的连续的scaffold。gap以字符N填充,而字符N的长度由组装软件根据参数设置的,以及软件推算的大片段mate-pair文库的insert size最终决定。
在没有其他技术手段的情况下,利用大片段mate-pair文库连接形成大片段的scaffold基因组序列,能够在一定程度上减少小片段pair-end文库组装得到的contig的数目,延长其长度,从而从整体上提升基因组的组装指标。后续又可以再利用小片段pair-end文库的数据map到得到的scaffold水平的基因组上,进一步依据map到字符N填充的gap上的reads信息,将部分gap填充成真实的A/G/C/T碱基,从而缩短甚至填充gap,进一步提升组装指标。在过去没有其他技术手段的情况下,该方法是唯一可以获得更完整的基因组组装结果的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西壮族自治区农业科学院,未经广西壮族自治区农业科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110202878.3/2.html,转载请声明来源钻瓜专利网。