[发明专利]构建基于PU学习的模型的方法、装置及预测方法、装置在审
| 申请号: | 201910333907.2 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN110084374A | 公开(公告)日: | 2019-08-02 |
| 发明(设计)人: | 涂威威;王海 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 候选模型 样本数据 构建 评估结果 预设 评估 标签 学习 机器学习技术 模型训练过程 标记样本 模型构建 目标模型 评估条件 业务经验 预设条件 正样本 预测 门槛 | ||
本发明公开了构建基于PU学习的模型的方法、装置及预测方法、装置,涉及机器学习技术领域,主要目的在于解决解决现有PU学习的模型训练过程中,需要操作人员具备一定的业务经验所导致的模型构建的难度较大、门槛较高的问题。本发明主要的技术方案为:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;基于所述样本数据集训练得到多个候选模型;基于所述样本数据集构造评估集;根据所述评估集,以及预设评估条件分别对每个候选模型进行评估,得到对应每个候选模型的评估结果;选择评估结果符合预设条件的候选模型;根据预设的集成方法对所选择的模型进行集成,得到目标模型。本发明用于对PU学习的模型进行构建。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种构建基于PU学习的模型的方法、装置以及利用该模型进行预测的方法、装置。
背景技术
随着技术的不断进步,人工智能技术也逐步发展。其中,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。
目前,在现实应用中,数据的获取是相对容易的,而对数据的标记则需要花费较高的人力、物力等资源,因此往往在某个数据集中会存在少量已标记的数据,记作正样本,以及大量未标记的数据。对于这种情况,一般会选择使用PU学习(Positive and unlabeledlearning,简称PU Learning)进行模型的训练。例如,在致病基因检测中,当已经识别出了一些致病基因后,可以将这部分基因视作正样本P,那么负样本则为非致病基因,但是我们并不能确定某一个基因到底是不是非致病基因,因为这个基因可能也是致病基因,只是我们还未发现而已,那么我们则可将这部分基因视作无标记样本U,由此我们的目标可以在P+U数据集上进行训练模型,使得训练后得到的模型能够识别出致病基因。
然而,在实际应用中,在通过PU学习来训练模型的过程中,往往是将未标记样本当做“负样本”进行模型的训练。而事实上,例如在银行卡漏点检测、商品或服务的推荐,以及图像或文本的分类等诸多领域中,有标记的数据仅为一小部分,大部分的数据仍属于未标记的数据。即在数据集中仅有少量的正样本,而其他均为未标记样本。在基于PU学习的模型训练过程中,针对不同的场景,PU学习模型的算法及超参数的选择是不同的,即在训练基于PU学习的模型时,操作人员需要具备针对不同场景的业务经验才能训练出较为适合的模型,从而导致现有的PU学习的模型在构建过程中,构建模型的门槛较高。
发明内容
鉴于上述问题,本发明提出了一种构建基于PU学习的模型的方法及装置,主要目的在于解决现有PU学习的模型训练过程中,需要操作人员具备一定的业务经验所导致的模型构建的难度较大、门槛较高的问题,从而降低构建模型的门槛。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种构建基于PU学习的模型方法,具体包括:
获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
基于所述样本数据集训练得到多个候选模型;
基于所述样本数据集构造评估集;
根据所述评估集,以及预设评估条件分别对每个候选模型进行评估,得到对应每个候选模型的评估结果;
选择评估结果符合预设条件的候选模型;
根据预设的集成方法对所选择的模型进行集成,得到目标模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910333907.2/2.html,转载请声明来源钻瓜专利网。





