[发明专利]基于组合的研究建议系统和方法在审

专利信息
申请号: 201680025643.9 申请日: 2016-03-03
公开(公告)号: CN107980162A 公开(公告)日: 2018-05-01
发明(设计)人: C·司徒 申请(专利权)人: 南托米克斯有限责任公司
主分类号: G16H50/20 分类号: G16H50/20;G06F19/24;G06F19/18
代理公司: 余姚德盛专利代理事务所(普通合伙)33239 代理人: 郑洪成
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 组合 研究 建议 系统 方法
【说明书】:

本申请要求于2015年3月3日提交的美国临时申请62/127546的优先权。该文献和所有其他参考文献全文参考。

技术领域

本发明的领域是基于组合的机器学习技术。

背景技术

背景描述包括可能有助于理解本发明主题的信息。不是承认本文提供的任何信息是现有技术或与当前要求保护的发明主题相关,或者任何具体或隐含参考的出版物是现有技术。

基于计算机的机器学习技术在过去几年中一直在增长,与“大数据”的兴趣并行,数据集远远超过了人类吸收的能力。机器学习算法允许研究人员在合理的时间内筛选数据集,以找到模式或建立能够进行预测的数字模型。通常,研究人员使用特定类型的算法来回答具体问题。这种方法对于特定任务非常有用,其中分析数据集的性质与算法固有的潜在数学假设吻合良好。例如,可以容易地分类为两类的大数据集可能由基于几何假设专门用于分类设计的支持向量机(SVM)来最好地分析。虽然特定的分析任务可以受益于特定的算法,但是将这样的算法应用于具有不太干净或与算法的基础数学假设较不一致的数据的更通用的项目可能是有问题的。

在更一般数据上使用特定算法的一个问题是算法的基础数学假设可能不利地影响将算法应用于数据而产生的结论。换句话说,即使应用于相同的数据集,来自不同类型的算法的结果将彼此不同。因此,算法的假设影响输出,如果数据的性质缺乏与算法的基本假设的理想对准,则可以导致研究者做出不确定或不太可信的结论。在这种情况下,研究人员需要技术来减轻由算法假设引起的不确定结论的风险。

即使假设研究人员能够减轻算法假设所带来的风险,研究可能遇到一个或多个首要问题,特别是在面对许多不同主题的许多数据集时,面临着有限的资源(例如,资金、时间、计算能力等)来研究的许多可能的方向。考虑一个研究人员可以访问与许多不同药物研究相关的数百种不同临床数据集的情况。假设研究人员的任务是根据可用数据确定哪种药物应该成为继续研究的目标。寻找推荐的行动方案可能是一个相当乏味的项目。研究人员可以检查每个药物研究的每个数据集,以确定哪种类型的机器学习算法最适合每个数据集。研究人员可以使用每个数据集来训练与数据集相对应的所选择的特定机器学习算法。因此,研究人员可以将所得到的训练模型的预测精度相互比较,并选择具有最准确的训练模型的药物。

不幸的是,每个训练的算法仍然受到与其自身假设相关的风险的影响。虽然研究人员尝试将最合适的算法与数据集进行匹配,但这种匹配很少是理想的,即使是无意的,仍然受到研究者的偏见的影响。另外,在训练的算法被过度训练的情况下,在单个数据集上训练的算法的准确性,即使是交叉折叠验证也是不能被依赖的。例如,一个训练的算法对于训练数据可能具有100%的准确度,但仍然可能无法准确反映现实。在有大量数据集和可能的重点方向的情况下,可以深入了解哪个方向将提供最大的潜在学习增益。更好的方法将减轻与算法假设相关的风险,同时也可以在选择算法使用时消除研究人员的可能偏差,并进一步考虑可能被过度训练的算法。

已经提出了一些努力来确定哪个模型可能提供关于特定主题的最佳信息。例如,Cesano等人2013年11月21日提交的U.S.专利申请2014/0199273,发明名称为“Methods for Diagnosis,Prognosis,and Methods of Treatment”讨论在医疗保健环境中预测或预后中使用的模型的选择。虽然Cesano讨论了从多个模型中选择一个模型,但Cesano无法提供洞察力如何利用模型来超越预测输出。

使用基于计算机的分子结构模型而不是预测模型似乎进一步取得进展,如Ramnarayan的美国专利申请2012/0010866to titled所述,发明名称为“Use of Computationally Derived Protein Structures of Genetic Polymorphisms in Pharmacogenomics for Drug Design and Clinical Applications”,2011年4月26日提交。Ramnarayan讨论产生蛋白质结构变体的3-D模型,并确定哪些药物可能令人满意地与变体对接。然后,这些模型可以用于根据药物模型停靠在蛋白质上的情况对潜在的候选药物进行排名。然而,Ramnarayan仍然关注3D模型本身及其使用,而不是创建可用于确定在哪里分配研究资源的预测结果模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南托米克斯有限责任公司,未经南托米克斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201680025643.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top