[发明专利]使用基因组区域建模进行癌症分类在审
| 申请号: | 202180023008.8 | 申请日: | 2021-03-29 |
| 公开(公告)号: | CN115335533A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 萨缪尔·S·格罗斯;约书亚·纽曼;弗吉尔·尼古拉 | 申请(专利权)人: | 格里尔公司 |
| 主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;C12Q1/6886;G16B20/00;G16B40/00;G16B40/20;G16H50/20 |
| 代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吕姝娟 |
| 地址: | 美国加*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 基因组 区域 建模 进行 癌症 分类 | ||
1.一种检测癌症的方法,其特征在于,所述方法包含:
接收包含多个cfDNA片段的一生物样品的定序数据,每个cfDNA片段与多个基因组区域中的至少一基因组区域重叠;
对于所述生物样品的每个cfDNA片段,确定所述cfDNA片段重叠的所述基因组区域的一第一分数,通过将所述cfDNA片段输入为所述基因组区域训练的一神经网络,来确定一基因组区域的所述第一分数,所述神经网络配置为生成代表所述cfDNA片段来自一癌症生物样品的一似然的所述第一分数;
为所述生物样品生成一特征向量,所述特征向量的每个特征对应于所述多个基因组区域中的一基因组区域,并且根据具有高于一阈值分数的所述基因组区域的一分数的多个cfDNA片段的一计数来生成;以及
将所述特征向量输入到一训练模型中,以生成所述生物样品的一癌症预测。
2.如权利要求1所述的方法,其特征在于:每个神经网络包含1个隐藏层。
3.如权利要求2所述的方法,其特征在于:每个神经网络中的所述隐藏层包含不超过以下各项中的一个:8个节点、9个节点、10个节点、11个节点、
12个节点、16个节点、20个节点、24个节点、28个节点、及32个节点。
4.如权利要求1所述的方法,其特征在于:每个神经网络包含2个隐藏层。
5.如权利要求1所述的方法,其特征在于:一第一基因组区域包含一第一数量的CpG位点,并且所述多个基因组区域中的一第二基因组区域包含一第二数量的CpG位点,所述第二数量的CpG位点与所述第一数量的CpG位点不同。
6.如权利要求1所述的方法,其特征在于:每个神经网络均使用来自癌症生物样品以及非癌症生物样品的多个训练的cfDNA片段来进行训练。
7.如权利要求1所述的方法,其特征在于:每个神经网络输出所述第一分数以及一第二分数,所述第一分数对应于一cfDNA片段来自一第一癌症类型的一生物样品的一似然,所述第二分数对应于所述cfDNA片段来自不同于所述第一癌症类型的一第二癌症类型的一生物样品的一似然。
8.如权利要求1所述的方法,其特征在于:所述特征向量的每个特征是根据具有高于所述阈值分数的所述基因组区域的一分数的多个cfDNA片段的所述计数的一归一化来生成的。
9.如权利要求1所述的方法,其特征在于:每个cfDNA片段是一异常片段,所述方法还包含:
使用p值过滤来过滤多个cfDNA片段的一初始集合,以生成多个异常片段的集合,所述过滤包含从所述初始集合移除相对于其他多个片段具有低于一阈值p值的多个片段,以产生所述多个异常片段的集合。
10.如权利要求1所述的方法,其特征在于:所述训练模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法、一线性模型或一线性回归算法。
11.一种系统,其特征在于,所述系统包含:
一计算机处理器;以及
一非暂时性计算机可读存储介质,用以存储多个指令,当所述计算机处理器执行所述多个指令时,使得所述处理器执行如权利要求1至10中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格里尔公司,未经格里尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180023008.8/1.html,转载请声明来源钻瓜专利网。





