[发明专利]一种结合限制数据的特征权值量化方法无效
| 申请号: | 201310507228.5 | 申请日: | 2013-10-24 |
| 公开(公告)号: | CN103544135A | 公开(公告)日: | 2014-01-29 |
| 发明(设计)人: | 刘铭;陈蕾;吴冲;刘秉权;刘远超 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F17/15 | 分类号: | G06F17/15;G06F17/16 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 限制 数据 特征 量化 方法 | ||
技术领域
本发明涉及一种结合限制数据的特征权值量化方法。
背景技术
随着网络技术的迅猛发展,人们接触的信息量与日俱增,用户急需一种有效的信息分析工具以协助其日常工作。聚类即是一种有效的信息分析工具,其通过凝聚相似数据能够缩小用户的查找范围并加快用户寻找相关信息的速度。
聚类中最基本的要素就是数据间的相似度度量函数,有效的相似度度量函数显然能够帮助聚类算法获得良好的聚类结果。目前大多数聚类算法以向量空间模型组织数据,并通过计算不同数据间特征向量的夹角或距离来反映数据之间的相似度,例如欧式距离、余弦相似度。此类相似度计算方法视所有特征对数据相似性的描述能力或对数据的划分能力是相同的,使类别最终呈现超球体分布。然而,现实中不同特征对数据的划分能力显然是不同的,因此有必要分析不同特征对相似度计算的贡献能力来为特征赋予不同的权值。
传统的聚类技术是一种无监督的学习方法,在算法运行前不需要获取任何先验知识。然而,现实应用中,用户对于输入数据可能存在某些限制,而聚类结果显然要满足用户对于输入数据的限制。目前最常使用的限制信息是must-link和can’t-link点对限制信息。如果用户指定输入数据中的任两个数据位于同一类别内,则说明这两个数据或点对满足must-link关系,而can’t-link关系正好相反。此类限制信息可以结合到特征权值量化中去,通过对那些能够有效划分限制数据的特征赋予较大的权值,显然可以获得更为准确的相似度计算结果。然而传统的基于限制数据的特征权值量化方法均无法处理以下两种情况:1.用户指定的限制数据的数量通常远少于全部的输入数据,这使得限制数据经常是从整个特征空间中非均匀抽取的;2.传统的特征权值量化方法认为用户提供的限制数据是准确无矛盾的,然而现实应用中用户提供的限制数据中某些满足must-link关系的数据对或按传递规则推导出的满足此关系的数据对可能同时满足can’t-link关系。
当存在第一个问题时,非均匀分布的限制数据会使特征权值量化的结果出现“过适应”现象,即错误的将那些能够有效划分密集的限制数据的特征赋予较大的权值,而忽略了分布稀疏的限制数据对特征权值量化结果的影响。针对此问题,本发明实现参数“分布系数”来平衡限制数据的分布,降低密集分布的限制数据对特征权值量化结果的影响,同时提高稀疏分布的限制数据的作用,以防止出现“过适应”现象。
当存在第二个问题时,传统的特征权值量化方法均无法对其进行处理。针对此问题,本发明实现参数“置信度”来衡量限制数据的不一致性,并对不一致的限制数据赋予较小的权值来降低其在特征权值量化中的作用。
发明内容
本发明是要解决现有的基于限制数据的特征权值量化方法无法处理限制数据分布不均衡和限制数据存在不一致性的问题,而提出一种结合限制数据的特征权值量化方法。
本发明所述的一种结合限制数据的特征权值量化方法,按以下步骤进行:
步骤一、合并“限制数据”和“非限制数据”进行特征权值量化:通过优化特征的权值以使相似度小于0.5的数据对其相似度趋近于0,而使相似度大于0.5的数据对其相似度趋于1;
步骤二、特征权值量化函数中结合参数“分布系数”:用must-link关系将限制数据划分为多个等价类,每个等价类内包含的任一点对均满足must-link关系;满足must-link关系的点对为用户指定的位于同一类别内的数据,即相似的数据,因此这些数据位于数据空间中相对密集的区域内,可使每个密集分布的区域在权值量化函数中拥有同样的重要性以平衡限制数据的非均匀分布;
步骤三、特征权值量化函数中结合参数“置信度”:为每个等价类内的数据点对提供置信度,以确定其满足用户指定的限制关系的可信性,并融合此置信度进行特征权值量化;“置信度”代表某一点对同时满足must-link关系和can’t-link关系的可能性,以边连接某一等价类(例如Tb)内满足must-link关系的点对,并通过点对间的距离计算该点对的“置信度”,置信度的计算过程是基于以下三种情况进行的:
步骤三(1)、Tb中不存在不一致的点对,则该等价类中的任意点对间的置信度均为1;
步骤三(2)、Tb中存在不一致的点对,设其为(p,q),则对于等价类中的其它点对,设其为(i,j),通过i和j与p和q之间的距离来计算点对(i,j)的置信度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310507228.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





