[发明专利]一种基于离散度平衡的度量学习方法在审
申请号: | 201710006218.1 | 申请日: | 2017-01-05 |
公开(公告)号: | CN108280457A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 钱冬云;金慧峰;叶聪相;陈贤敏 | 申请(专利权)人: | 浙江工贸职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京神州华茂知识产权有限公司 11358 | 代理人: | 吴照幸 |
地址: | 325000 浙江省温州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离散度 度量 矩阵 距离度量 数据集中 样本数据 优化模型 最大边界 归一化 最大化 构建 平衡 标签属性 标签信息 实验验证 学习算法 样本类别 样本特征 约束条件 分类 求解 映射 迭代 学习 样本 采集 重心 | ||
本发明公开了一种基于离散度平衡的度量学习方法,包括:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,得到度量学习优化模型;(5)利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用距离度量矩阵进行分类实验验证。本发明利用几何均值和最大边界理论,较好的度量了不平衡数据集中样本间的距离。
技术领域
本发明涉及数据挖掘与人工智能技术,具体是一种基于离散度平衡的度量学习方法,可恰当的度量不平衡数据间样本的相似度。
背景技术
随着信息时代的发展,度量学习算法已极为广泛的应用至生产生活的各个方面。度量学习能根据已有样本的属性,针对性的学习距离度量方法,从而恰当的度量不同样本间的距离,以衡量样本间的相似性。恰当的距离度量方法能充分提高样本分类、聚类等应用的精度。近些年,研究人员从不同的角度提出了不同的解决思路,并获得了许多良好的距离度量方法。
Xing.P针对样本间的度量学习,提出了一种凸优化模型,根据样本间的成对约束,使得同类间样本距离较小的同时,最大化不同类间样本的距离,在保证所获得距离度量矩阵为半正定矩阵的情况下,获得最优的距离度量。LMNN(大间隔最近邻居分类算法)是一种局部优化方法,其旨在使样本的k个近邻尽可能为同一类的样本,且尽可能的分离不同类的样本,并通过迭代求得最优解。ITML(基于信息论的距离度量学习)将信息论相关理论引入度量学习,并获得一个Bregman优化问题。ITML旨在最小化两个高斯分布间的KL散度,并在约束条件的作用下获得距离度量。研究人员针对样本的分布属性、标签信息等,提出了许多恰当的度量学习方法。然而,很多算法并不能很好的处理不平衡数据集。由于不平衡数据集中,不同类样本的数量差异较大,使得传统度量学习方法更倾向于样本数量大的类而忽略样本数量较小的类,造成距离度量不能准确的反应不同类间样本的相似性,而影响分类、聚类等应用的精度。
发明内容
本发明的目的在于提供一种基于离散度平衡的度量学习方法,能很好的处理不平衡数据集,平衡的分离来自不同类的样本数据的同时,使来自不同类样本距离之和尽可能大。
为实现上述目的,本发明提供如下技术方案:
一种基于离散度平衡的度量学习方法,包括以下步骤:
(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;
(2)将归一化离散度与几何均值结合,最大化几何均值的过程中使得不同类间散度尽可能的一致,并使用log函数进一步平衡各类间离散度,以避免不同类在度量空间中过于紧凑的现象;
(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题,增强了本发明度量学习方法的判别能力;
(4)构建本发明提出的度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;
(5)根据本发明的度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,求得本发明所提出的度量学习的距离度量矩阵;
(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验,对待分类样本进行分类实验,验证度量学习的性能。
作为本发明进一步的方案:所述的步骤(1),具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工贸职业技术学院,未经浙江工贸职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710006218.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于锅炉内壁相贯线焊缝的识别方法
- 下一篇:群体关系类型识别方法及装置