[发明专利]癌症筛查模型、癌症筛查模型的构建方法及构建装置有效
申请号: | 202110707095.0 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113257360B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 曹善柏;周涛;张萌萌;郭璟;孙宏;楼峰 | 申请(专利权)人: | 北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;天津橡鑫医疗器械有限公司 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B40/00;G16B20/20;G16H50/20;G16H50/70;G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 金田蕴 |
地址: | 102600 北京市大兴区经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 癌症 模型 构建 方法 装置 | ||
1.一种癌症筛查模型的构建方法,其特征在于,包括以下步骤:
基于不同的数据构建不同的CNV baseline;
分别利用不同的所述CNV baseline对待检测样本的sWGS数据进行CNV检测,获取多个基因组特征;
利用所述待检测样本的sWGS数据建立训练集与测试集,将各个所述基因组特征的数值做ROC曲线,选择AUC值最大的基因组特征作为最终基因组特征;
对所述最终基因组特征进行模型训练,获得所述癌症筛查模型;
所述基于不同的数据构建不同的CNV baseline包括:
选取预定数量的健康人,获取其cfDNA测序信息,与参考基因组进行比对,构建cfCNVbaseline;
基于千人基因组数据库中人群样本基因组数据与所述参考基因组构建1000G.CNVbaseline;
所述构建方法在获得所述癌症筛查模型之后还包括:使用所述测试集对模型进行验证;
所述基因组特征包括大片段CNV个数和异常reads比例;
所述CNV baseline的构建包括:
S1,利用参考基因组信息文件,构建坐标文件;
S2,利用所述S1得到的坐标文件、所述参考基因组信息文件和所述预定数量的正常人的cfDNA测序信息数据或所述千人基因组数据库中人群样本基因组数据,分析得到记录有各个区间bin内的reads数的每个样本对应的reads统计文件;
S3,利用所述参考基因组信息文件与所述坐标文件,分析得到包含每个bin内GC含量的文件;
S4,通过所述S2中得到所述样本对应的reads统计文件,所述S3中得到包含每个bin内GC含量的文件,分析得到CNVbaseline文件;
所述CNV检测包括:
利用所述坐标文件、所述参考基因组信息文件和所述待检测样本的sWGS数据,分析得到记录有各个区间bin内的reads数的每个所述待检测样本对应的reads统计文件;
利用所述CNVbaseline文件,对所述待检测样本对应的reads统计文件进行降噪处理,得到降噪后的文件;
对所述降噪后的文件中的各个CNA区段进行合并,得到合并后的文件;
通过对所述合并后的文件进行分析判断 CNV 是扩增、缺失、还是正常;
所述大片段CNV个数通过大片段CNV检测获得,所述大片段CNV检测包括:
1)UCSC数据库下载与所述参考基因组对应的 cytogenetic band 文件;
2)通过所述合并后的文件计算出区段内拷贝数,得到扩增、缺失状态的CNV区段,其中,所述CNV区段的起始、终止区间与所述cytogenetic band 文件内染色体片段的范围有交集的CNV区段即为大片段CNV:
所述癌症为膀胱癌,所述待检测样本包括健康人群的尿液脱落细胞样本与膀胱癌患者尿液脱落细胞样本。
2.根据权利要求1所述的构建方法,其特征在于,所述预定数量为50人以上。
3.根据权利要求1所述的构建方法,其特征在于,所述千人基因组数据库中人群样本基因组数据为千人基因组数据库中中国人群样本基因组数据。
4.根据权利要求1所述的构建方法,其特征在于,对所述最终基因组特征采用随机森林模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;天津橡鑫医疗器械有限公司,未经北京橡鑫生物科技有限公司;天津橡鑫生物科技有限公司;天津橡鑫医疗器械有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110707095.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体育课时战术箱的手环分发系统及方法
- 下一篇:一种夹具及剪切试验装置