[发明专利]对象类别的预测方法及装置有效
申请号: | 201710179031.1 | 申请日: | 2017-03-23 |
公开(公告)号: | CN108629358B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 秦志伟;卓呈祥;谭伟 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对象 类别 预测 方法 装置 | ||
本申请实施例提供一种对象类别的预测方法及装置,该方法包括:获得给定对象集合中各对象的特征数据及对象间关系数据;根据特征数据及对象间关系数据,获得各对象的预测标签;根据已知类别对象的原始标签及预测标签,获得第一已知类别对象集的标签变异矩阵;对未知类别对象集进行n次抽样,得到n个抽样集,分别将每个抽样集的信息与给定对象集合中已知类别对象的信息进行组合,得到n个组合数据集;针对每个组合数据集,对组合数据集及标签变异矩阵进行处理,得到n个分类预测模型及n个更新后的标签变异矩阵;根据给定对象集合中任一未知类别对象Ai的特征数据、n个分类预测模型及n个更新后的标签变异矩阵,获得未知类别对象Ai的类别预测结果。
技术领域
本申请实施例涉及数据处理技术领域,特别涉及一种对象类别的预测方法及装置。
背景技术
机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析及计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,该算法是一类从数据中自动分析获得规律,并利用该规律对未知数据进行预测的算法。目前,在机器学习领域,主要包括三类不同的学习方法,分别为监督学习、无监督学习及半监督学习。
现有技术中,在使用机器学习的学习方法在对不带标签的样本进行类别预测时,存在预测结果准确率低的问题。因此如何基于机器学习的学习方法对类别进行精确地预测,已成为本领域技术人员亟待解决的问题。
发明内容
为了解决上述问题,本申请实施例提供一种对象类别的预测方法及装置。
具体地,本申请实施例是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种对象类别的预测方法,用于对给定对象集合中的未知类别对象进行类别预测,所述方法包括:
针对所述给定对象集合,获得所述给定对象集合中各对象的特征数据、以及对象间关系数据;其中,所述给定对象集合中包括已知类别对象及未知类别对象,且每个已知类别对象均具有用于表示类别的原始标签;
根据所述给定对象集合中各对象的特征数据及所述对象间关系数据,利用标签传递算法,获得所述给定对象集合中各对象的预测标签;
根据所述已知类别对象的原始标签及预测标签,获得第一已知类别对象集的标签变异矩阵,其中,所述第一已知类别对象集中包括所述给定对象集合中已知类别对象的部分或全部,所述标签变异矩阵用于表示所述第一已知类别对象集中各类别的原始标签变异到预测标签的概率;
对未知类别对象集进行n次抽样,得到n个抽样集,分别将每个抽样集的信息与所述给定对象集合中已知类别对象的信息进行组合,得到n个组合数据集;其中,所述未知类别对象集中包括所述给定对象集合中未知类别对象的全部,n为不小于1的预设数值,且当n>1时,n个抽样集彼此不相交;
针对每个组合数据集,使用耐标签噪音分类算法,对所述组合数据集及所述第一已知类别对象集的标签变异矩阵进行处理,得到n个分类预测模型及n个更新后的标签变异矩阵;
根据所述给定对象集合中任一未知类别对象Ai的特征数据、所述n个分类预测模型及所述n个更新后的标签变异矩阵,获得所述未知类别对象Ai的类别预测结果。
本申请实施例中,所述根据所述给定对象集合中各对象的特征数据及所述对象间关系数据,利用标签传递算法,获得所述给定对象集合中各对象的预测标签,包括:
将所述给定对象集合中各对象的特征数据表示为特征行向量;
根据所述特征行向量及所述对象间关系数据,计算所述给定对象集合中所有存在直接关系的两个特征行向量的余弦相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710179031.1/2.html,转载请声明来源钻瓜专利网。