[发明专利]一种基于快速搜索与密度峰值聚类的服务商聚类方法有效
| 申请号: | 202011202303.3 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN112395475B | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 黄双喜;杨思维 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06Q30/02 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
| 地址: | 100084*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 快速 搜索 密度 峰值 服务商 方法 | ||
本发明涉及数据挖掘技术领域,尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。本方法根据服务商特征数据维度多,空间形状复杂的特点,选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进,实现对服务商的聚类。本方法克服了现有技术对数据量有限、更新较慢数据聚类的不足,尽可能的去除了服务商聚类过程中的主观因素印象,方法设计合理、快速准确,通过该方法获得的服务商聚类,具有较高的准确性和客观性,可以帮助企业用户清楚认识不同服务商的类型和特征,为进一步制定针对不同类型服务商的经营策略,完善企业间合作机制提供了良好支撑。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于快速搜索与密度峰值聚类的服务商聚类方法。
背景技术
随着现代社会中科学技术的发展,企业的经营与生存环境发生了重大变化。企业已不能再仅仅依靠自有的产品、技术、人才以及资源组织形式获取竞争的主导地位,取而代之的是进行跨企业协作,依靠与产业链上下游服务商的协作,共同分享市场机会,共同承担市场风险。如何明晰现有服务商的整体分布特征,在此基础上将服务商进行聚类,针对不同类型服务商采取不同的合作策略,进而实现服务商选择的最优化,是摆在所有企业面前的问题。
服务商聚类是指基于服务商特征数据,将服务商的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。由人为直接评估服务商进行聚类判断的方法由于主观因素过强,缺少科学性,学术界一般采用定量的聚类算法完成聚类过程。常用的聚类算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。
发明内容
本发明的目的是提出一种基于快速搜索与密度峰值聚类的服务商聚类方法,根据服务商特征数据维度多,空间形状复杂的特点,选取基于密度的方法中的快速搜索与发现密度峰值聚类算法并进行改进,实现对服务商的聚类。
本发明提出的基于快速搜索与密度峰值聚类的服务商聚类方法,包括以下步骤:
(1)分别采集历史、专家评定以及和邮件调查方式收集的服务商特征数据,形成服务商特征数据集其中,xi为服务商特征数据集中企业i的数据元素,N为服务商的数量,xim为数据元素xi中包含的数据项,M为数据元素xi中包含的数据项数量;
(2)对服务商特征数据集S0进行预处理,即对S0中数据元素xi的数据项xim的异常值进行检测,对不完整的数据元素xi补充缺失值,使S0的数据格式统一;
(3)利用线性归一化方法,对服务商特征数据集S0进行归一化处理,得到归一化后的服务商特征数据集S;
(4)利用余弦距离计算方法,分别计算步骤(3)的服务商特征数据集S中任意两个服务商特征数据元素xi与xj之间的余弦距离dij:
其中,xim是数据元素xim中的数据项、xjm是数据元素xj中的数据项;
(5)利用高斯核密度原理,得到步骤(3)的服务商特征数据集S的高斯核密度函数K(dc)的曲线:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202303.3/2.html,转载请声明来源钻瓜专利网。





