[发明专利]基因变异的识别方法及装置、电子设备和存储介质在审
申请号: | 201911286025.1 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111081314A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 胡志强 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/30;G16B20/50;G16B40/00 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100142 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 变异 识别 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种基因变异的识别方法及装置、电子设备和存储介质。所述方法包括:确定覆盖基因变异的候选位点的至少一个读序;根据在所述候选位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征;基于所述候选位点的特征,对所述候选位点进行基因变异识别。本公开实施例能够提高基因变异识别的准确性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种基因变异的识别方法及装置、电子设备和存储介质。
背景技术
随着生物技术的发展,通过基因测序技术可以测定人类的碱基序列。基因测序技术在基因组研究、疾病医疗研究、药物研发、育种等领域发挥重要作用。相比于第一代基因测序技术,第二代基因测序技术极大地提高了基因测序的效率,降低了基因测序的成本,并能生成更大的原始基因测序数据。
然而,第二代基因测序技术同时还会产生更多的噪声和错误。如何从海量的基因测序数据中筛掉噪声和错误带来的干扰,对于第二代基因测序技术的应用具有重要意义。
发明内容
本公开提供了一种基因变异的识别技术方案。
根据本公开的一方面,提供了一种基因变异的识别方法,包括:
确定覆盖基因变异的候选位点的至少一个读序;
根据在所述候选位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征;
基于所述候选位点的特征,对所述候选位点进行基因变异识别。
通过确定覆盖基因变异的候选位点的至少一个读序。根据在所述候选位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征,并基于所述候选位点的特征,对所述候选位点进行基因变异识别,由此利用覆盖候选位点的正链读序和负链读序中出现变异的情况处理链偏好性假阳的问题,从而能够更好地对基因变异候选位点进行的基因变异识别,将基因变异的位点与由于测序噪声或者测序错误等造成干扰的位点进行区分,提高基因变异识别的准确性。
在一种可能的实现方式中,所述根据在所述候选位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征,包括:
确定包含所述候选位点的位点区间;
根据在所述位点区间的位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征。
在该实现方式中,考虑了在包含所述候选位点的位点区间上正链读序和负链读序出现变异的情况,从而有助于判断所述候选位点是否具有链偏好性,以提高对所述候选位点进行基因变异识别的准确性。
在一种可能的实现方式中,所述至少一个读序包括属于正常组织样本的读序和属于病变组织样本的读序;
所述根据在所述位点区间的位点上,所述至少一个读序的正链读序中出现变异的读序数目,以及所述至少一个读序的负链读序中出现变异的读序数目,确定所述候选位点的特征,包括:
确定在所述位点区间的位点上,所述属于正常组织样本的读序的正链读序中出现变异的读序数目,以及所述属于正常组织样本的读序的负链读序中出现变异的读序数目;
确定在所述位点区间的位点上,所述属于病变组织样本的读序的正链读序中出现变异的读序数目,以及所述属于病变组织样本的读序的负链读序中出现变异的读序数目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911286025.1/2.html,转载请声明来源钻瓜专利网。