[发明专利]构建基于PU学习的模型的方法、装置及预测方法、装置在审
| 申请号: | 201910333907.2 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN110084374A | 公开(公告)日: | 2019-08-02 |
| 发明(设计)人: | 涂威威;王海 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 候选模型 样本数据 构建 评估结果 预设 评估 标签 学习 机器学习技术 模型训练过程 标记样本 模型构建 目标模型 评估条件 业务经验 预设条件 正样本 预测 门槛 | ||
1.一种构建基于PU学习的模型的方法,包括:
获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
基于所述样本数据集训练得到多个候选模型;
基于所述样本数据集构造评估集;
根据所述评估集,以及预设评估条件分别对每个候选模型进行评估,得到对应每个候选模型的评估结果;
选择评估结果符合预设条件的候选模型;
根据预设的集成方法对所选择的模型进行集成,得到目标模型。
2.如权利要求1所述的方法,其中,基于所述样本数据集训练得到多个候选模型包括:
基于所述样本数据集构建多个训练集;
从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择,训练得到多个候选模型;其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型。
3.如权利要求2所述的方法,其中,所述基于所述样本数据集构建多个训练集包括:
基于所述样本数据集中的至少部分正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集;
或者,
基于所述样本数据集中的至少部分正样本数据构建多个正样本训练子集,对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集,将每个正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。
4.如权利要求1所述的方法,其中,所述基于所述样本数据集构造评估集包括:
对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集。
5.如权利要求1所述的方法,其中,
所述基于所述样本数据集构造评估集包括:基于所述样本数据集构建多个评估集,其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据;
所述根据所述评估集,以及预设评估条件分别对每个候选模型进行评估,得到对应每个候选模型的评估结果,包括:对于每个候选模型,根据所述多个评估集和预设评估条件分别对该候选模型进行评估,得到多个评估结果,融合所述多个评估结果得到该候选模型对应的最终评估结果。
6.一种利用机器学习模型执行预测任务的方法,其中,该方法包括:
根据如权利要求1-5中任一项所述的方法,得到目标模型;
获取相应的预测样本数据;
利用所述目标模型对所述预测样本数据执行相应的预测任务。
7.一种构建基于PU学习的模型的装置,包括:
获取单元,用于获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
训练单元,用于基于所述样本数据集训练得到多个候选模型;
评估集构造单元,用于基于所述样本数据集构造评估集;
评估单元,用于根据所述评估集,以及预设评估条件分别对每个候选模型进行评估,得到对应每个候选模型的评估结果;
选择单元,用于选择评估结果符合预设条件的候选模型;
集成单元,用于根据预设的集成方法对所选择的模型进行集成,得到目标模型。
8.一种利用机器学习模型执行预测任务的装置,其中,该装置包括:
如权利要求7所述的装置,用于得到目标模型;
预测数据获取单元,用于获取相应的预测样本数据;
执行单元,用于利用所述目标模型对所述预测样本数据执行相应的预测任务。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现权利要求1-6中任意一项所述的方法。
10.一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910333907.2/1.html,转载请声明来源钻瓜专利网。





