[发明专利]考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法有效
| 申请号: | 201910385057.0 | 申请日: | 2019-05-09 |
| 公开(公告)号: | CN110232949B | 公开(公告)日: | 2021-08-13 |
| 发明(设计)人: | 王嘉寅;王以瑄;张选平;闫新兴;冯旋;赵仲孟 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/10;G16B40/00;G16B5/00 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 考虑 肿瘤 纯度 因素 基因组 卫星 广域 长度 分布 估计 方法 | ||
本发明公开了一种考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法,完成数据特征提取;找到微卫星候选区域;利用聚类算法筛选忽略的微卫星候选区域;遍历该区域的读段并进行分割;估计给定测序样本的肿瘤纯度;估计肿瘤组织微卫星的长度分布参数;利用长型微卫星的平均长度分布反映其整体的长度分布;基于包含微卫星指定窗口的覆盖度估计微卫星的平均长度,然后使用更新后的微卫星平均长度迭代估计指定窗口的覆盖度,检测完成纯肿瘤样本长型微卫星;判定长型肿瘤微卫星状态完成广域长度分布估计。本发明解决了由于输入数据的肿瘤样本纯度问题导致的计算偏差,突破测序读段长度对可检出的基因组微卫星的长度限制,实现广域长度检测。
技术领域
本发明属于以精准医学为应用背景的数据科学技术领域,具体涉及一种考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法。
背景技术
基因组微卫星(英文名称:micro-satellite,英文缩写:MS)是由特定的寡核苷酸单元(通常为1-6个核苷酸片段)重复组成的DNA序列,具有长度方面的多样性,通常称为长度分布。微卫星不稳定(英文名称:micro-satellite instability,英文缩写:MSI)是指由DNA错配修复系统的缺陷(英文名称:deficient DNA mismatch repair,英文缩写:dMMR)引起的一种超突变模式,其特征包括微卫星重复序列广泛的长度多样性,以及单核苷酸变异(英文名称:single nucleotide variants,英文缩写:SNVs)频率的升高。当同一个微卫星的长度分布在不同的组织样本(如肿瘤组织样本和正常组织样本)之间存在显著差异时,即为微卫星不稳定事件,否则即为微卫星稳定(英文名称:micro-satellite stability,英文缩写:MSS)事件。MSI是否呈阳性是肿瘤精准诊疗中的重要指标之一,特别适用于消化系统癌症、泌尿系统癌症的诊断分型,在其他常见癌症中,其临床指示意义也被广泛报道。目前,现代肿瘤学、临床医学和药学中已有大量针对MSI特征的研究,普遍报道MSI不仅可以用于癌症诊断,而且是用药决策和患者预后的重要临床指标。目前广泛使用的肿瘤免疫疗法的疗效与MSI阳性模型密切相关。鉴于其巨大的临床应用价值,基因组微卫星的检测具有重要意义。
由于下一代测序技术(英文名称:Next Generation Sequencing,英文缩写:NGS)的日益普及,基于NGS数据,运用数据挖掘模型和算法检测MSI是目前的主流技术,已经基本取代了传统的基于PCR的片段分析技术。目前这些基于NGS数据的MSI检测算法大致可以分为两类:基于读段计数分布的算法和基于肿瘤突变负荷的算法。第一类算法基于配对的正常-肿瘤测序数据,对于每个微卫星,首先统计数据中携带不同长度的微卫星的读段个数,计算读段的频数分布,由此重构长度分布,再利用统计检验判定微卫星的稳定性。目前已有的检测算法,主要根据测序数据类型、癌症类型等特征,通过调整检验方法与判定标准来提高检测的特异性与敏感性。此类算法已有临床应用。第二类算法也基于配对的正常-肿瘤测序数据,不同之处是,采集不同的数据特征构建机器学习模型,根据肿瘤突变负荷等指标判定MSI状态。此类算法目前尚不成熟。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910385057.0/2.html,转载请声明来源钻瓜专利网。





