[发明专利]一种结合限制数据的特征权值量化方法无效

专利信息
申请号: 201310507228.5 申请日: 2013-10-24
公开(公告)号: CN103544135A 公开(公告)日: 2014-01-29
发明(设计)人: 刘铭;陈蕾;吴冲;刘秉权;刘远超 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F17/15 分类号: G06F17/15;G06F17/16
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 杨立超
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 限制 数据 特征 量化 方法
【权利要求书】:

1.一种结合限制数据的特征权值量化方法,其特征在于所述方法按以下步骤进行:

步骤一、合并“限制数据”和“非限制数据”进行特征权值量化:通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0,而使相似度大于0.5的数据对其相似度趋于1;

步骤二、特征权值量化函数中结合参数“分布系数”:用must-link关系将限制数据划分为多个等价类,每个等价类内包含的任一点对均满足must-link关系;满足must-link关系的点对为用户指定的位于同一类别内的数据,即相似的数据,这些数据位于数据空间中相对密集的区域内,可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布;

步骤三、特征权值量化函数中结合参数“置信度”:为每个等价类内的数据点对提供置信度,以确定其满足用户指定的限制关系的可信性,并融合此置信度进行特征权值量化;“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性,以边连接某一等价类内满足must-link关系的点对,并通过点对间的距离计算该点对的“置信度”,置信度的计算过程是基于以下三种情况进行的:

步骤三(1)、Tb中不存在不一致的点对,则该等价类中的任意点对间的置信度均为1;

步骤三(2)、Tb中存在不一致的点对,设其为(p,q),则对于等价类中的其它点对,设其为(i,j),通过i和j与p和q之间的距离来计算点对(i,j)的置信度;

步骤三(3)、对于不一致的点对,其置信度显然为0.5,即其满足must-link关系和can’t-link关系的可能性均为50%。

2.如权利要求1所述的一种结合限制数据的特征权值量化方法,其特征在于步骤一的具体实现过程为:本发明以向量空间模型组织待聚类数据,利用公式计算输入数据之间的相似度,其中p与q为输入数据,由上式得到相似度计算函数并通过参数β使该函数均匀分布于0~1之间;

依据那些能够缩小MCS中点对间的相似度、而增大NCS中点对间的相似度的特征,对限制数据的划分能力较强的想法,以此为依据即可得到下述的特征权值量化公式,当此公式达到最小值时对应的特征权值为最优的特征权值;该公式为:

FW=Σ(i,j)MCSΣ(k,l)NCSρkl(w)×logρkl(w)+(1-ρij(w))×log(1-ρij(w))]]>

使用随机梯度下降算法优化特征的权值wk,即可得权值更新幅度△wk:

Δwk=FWwk=Σ(i,j)MCSΣ(k,l)NCS(ρkl(w)×logρkl(w)+(1-ρij(w))×log(1-ρij(w)))wkρkl(w)wk×logρkl(w)+ρkl(w)×1ρkl(w)ρkl(w)wk-=Σ(i,j)MCSΣ(k,l)NCSρij(w)wk×log(1-ρij(w))-(1-ρij(w))×1(1-ρij(w))×ρij(w)wk;]]>其中,为:

ρij(w)wk=11+βdij(w)wk=-(1+β×dij(w))-2×β×dij(w)wk=-2×(1+β×dij(w))-2×β×wk×(xik-xjk)2;]]>

利用下列三个公式:Δwk=FWwk=Σ(i,j)MCSΣ(k,l)NCS(ρkl(w)×logρkl(w)+(1-ρij(w))×log(1-ρij(w)))wkρkl(w)wk×logρkl(w)+ρkl(w)×1ρkl(w)ρkl(w)wk-=Σ(i,j)MCSΣ(k,l)NCSρij(w)wk×log(1-ρij(w))-(1-ρij(w))×1(1-ρij(w))×ρij(w)wk]]>ρij(w)wk=11+βdij(w)wk=-(1+β×dij(w))-2×β×dij(w)wk=-2×(1+β×dij(w))-2×β×wk×(xik-xjk)2]]>可得t+1时刻的特征权值wk(t+1):

wk(t+1)=wk(t)-12πδ(t)×(e-Δwk(t)2δ(t)2)×(Δwk(t));]]>其中,以高斯函数控制梯度下降的步长,δ(t)为线性时间衰减函数,以使下降的步长逐渐减小;

将非限制数据和限制数据结合在一起即可进行特征权值量化:

其中,

μ为用户指定的参数,代表限制数据相对于非限制数据的重要程度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310507228.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top