[发明专利]发掘用于机器学习技术中的基因组在审
| 申请号: | 201880060638.0 | 申请日: | 2018-07-18 |
| 公开(公告)号: | CN111095232A | 公开(公告)日: | 2020-05-01 |
| 发明(设计)人: | 保罗·格鲁希;蒂莫西·伯顿;阿里·侯索斯;阿比那夫·多姆拉;萨尼·古普塔 | 申请(专利权)人: | 生命分析有限公司 |
| 主分类号: | G06F15/16 | 分类号: | G06F15/16;G06N3/12 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 邬玥;方挺 |
| 地址: | 加拿大*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 发掘 用于 机器 学习 技术 中的 基因组 | ||
1.一种具有存储器和处理器的系统,用于发掘机器学习基因组,所述系统包括:
第一组件,被配置为生成多个基因组,其中每个基因组识别至少一个特征和用于至少一个机器学习算法的至少一个参数,其中,生成所述多个基因组的第一基因组包括:
从一组特征中随机选择一个或多个所述特征,
从至少一个机器学习算法的一组参数中随机选择一个或多个所述参数,以及
为每个选择的参数分配至少一个随机值;
第二组件,被配置为为每个生成的基因组,
使用生成的基因组训练一个或多个模型,以及
对于使用所述生成的基因组训练的每个模型,
通过将训练的模型应用于验证数据组,至少部分地为训练的模型计算匹配分数,以及
至少部分地基于为使用所述生成的基因组训练的所述模型所生成的匹配分数来生成所生成的基因组的匹配分数;
第三组件,被配置为从所生成的基因组中识别具有超过匹配阈值的匹配分数的多个基因组;和
第四组件,被配置为针对每个识别的基因组,使所述识别的基因组突变,
其中所述组件中的至少一个包括存储在存储器中以供所述系统执行的计算机可执行指令。
2.根据权利要求1所述的系统,还包括:
第五组件,被配置为对于包括第一组特征的第一基因组,至少部分地通过以下方式从所述第一组特征中识别相关的特征:
对于所述第一组特征中的每个特征,
将与所述特征关联的特征生成器应用于数据的训练组,以生成所述特征的特征向量,
对于至少一对特征向量,
计算所述一对特征向量中每个特征向量之间的距离,
确定计算的距离小于距离阈值,
响应于确定所述计算的距离小于距离阈值,从所述第一基因组中去除与所述一对特征向量对中的至少一个特征向量相对应的特征,
其中,对于多个患者中的每个患者,每个特征向量包括通过将第一特征生成器应用于代表所述患者的生理数据的至少一个表示而生成的单个值。
3.根据权利要求2所述的系统,其中,从所述第一基因组中去除与第一对特征向量中的至少一个特征向量相对应的至少一个特征包括:
随机选择所述第一对特征向量的一个特征向量,
从所述第一基因组的特征中识别与随机选择的特征向量相对应的特征;以及
从所述第一个基因组中去除所识别的特征。
4.根据权利要求1所述的系统,还包括:
第五组件,被配置为对于包括第一组特征的所述第一基因组,生成包括用于所述第一组特征的每个特征的顶点的图;
第六组件,被配置为生成顶点之间的边,所述顶点的对应特征具有超过相关阈值的相关值,或者具有小于距离阈值的距离值;和
第七组件,被配置为从图中去除顶点,直到图中没有连接的顶点为止。
5.根据权利要求1所述的系统,还包括:
机器,被配置为从至少一个患者接收生理信号数据;
第五组件,被配置为对于每个患者,
将训练的模型中的至少一个应用于由机器为患者接收的所述生理信号数据的至少一部分,并且
至少部分地基于将所述训练模型中的至少一个应用至所接收的生理信号的至少一部分,为所述患者生成预测。
6.一种由具有存储器和处理器的计算系统执行的用于发掘机器学习基因组的方法,所述方法包括:
由所述处理器生成多个基因组,其中每个基因组识别至少一种特征和用于至少一种机器学习算法的至少一个参数;
对于每个生成的基因组,
使用所述生成的基因组训练至少一个模型,以及
至少部分地基于训练的至少一个模型来生成所述基因组的匹配分数;
从所述生成的基因组中识别至少一个具有超过匹配阈值的匹配分数的基因组;以及
突变每个识别的基因组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于生命分析有限公司,未经生命分析有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880060638.0/1.html,转载请声明来源钻瓜专利网。





