[发明专利]一种基于密度峰值检测的Mashup服务聚类方法有效

专利信息
申请号: 202010127369.4 申请日: 2020-02-28
公开(公告)号: CN111475610B 公开(公告)日: 2022-06-17
发明(设计)人: 陆佳炜;吴涵;马超治;徐俊;程振波;肖刚 申请(专利权)人: 浙江工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 密度 峰值 检测 mashup 服务 方法
【说明书】:

一种基于密度峰值检测的Mahsup服务聚类方法,所述方法包括以下步骤:第一步、对于所有参与聚类的Mashup服务的特征向量,进行局部密度、向量间距离和较高密度最近距离计算;第二步、基于第一步计算的密度信息,从所有Mashup服务特征向量中,筛选出聚类中心的候选点;第三步、对第二步所得的聚类中心候选点,进一步筛选出最为合适的K个初始聚类中心,进行K‑means聚类。本发明能够有效提升Mashup服务聚类精度,缩小服务搜索空间。

技术领域

本发明涉及Mashup服务聚类领域,具体涉及一种基于密度峰值检测的 Mahsup服务聚类方法。

背景技术

Mashup技术是一种便捷高效的Web应用开发技术,它可以通过混搭多种不同功能的Web API,从而快速的构建出满足用户需求的Mashup服务。在Mashup 技术的支持下,软件开发人员通常可以参考功能相近的Mashup服务,进而完成Mashup服务的构建工作。然而,随着互联网上Mashup服务数量及种类的急剧增长,如何从这些海量的服务集合中快速、精准的发现满足最具参考价值的 Mashup服务,成为一个具有挑战性的问题。

大量研究工作表明,如果预先将Mashup服务进行精准聚类可以有效缩小服务的搜索空间,提升服务定位精度。例如,Chen等人就利用Web服务描述语言 (WSDL)文档,来提取服务功能特征,并结合服务标签进行聚类。可是由于目前大多数的Mashup服务仅采用自然语言的方式对服务进行描述,缺乏规范性的 WSDL文档,这极大的增加了提取服务功能特征的难度。所以现有的许多研究开始基于LDA模型对Mashup服务进行面向功能主题的聚类,或者利用TF-IDF、 Word2Vec等模型对服务描述文本构造特征向量完成聚类。例如,Shi等人通过结合Word2Vec和LDA,设计出一种增强LDA模型,用于生成高质量的词向量模型, 从而改进Mashup服务聚类性能。Gao等人将每个Mashup服务描述文本转化为 TF-IDF向量进行表示,再通过K-means算法对这些TF-IDF向量进行聚类。然而,对于现有的研究工作,多数聚类方案都是将K-means算法或其改进算法作为 Mashup服务聚类的实现,但是并未对K-means初始中心选择问题提出一种成熟有效的解决方法,而初始中心选择的好坏与否又将直接影响最终的K-means聚类效果。因此,解决这一问题也可以作为提升Mashup服务聚类精度的重要方向。

为此,Rodriguez等人于2014年提出了一种密度峰值聚类(DPC)算法,用于解决聚类中心的选择问题,其核心思想在于通过统计每个数据点在截断距离 dc范围内的数据点个数来求得局部密度ρ,进而结合数据点与较高密度点的最近距离δ这个属性来绘制出决策图,最后使用决策图快速的确定聚类中心。DPC 算法的思想虽然简明高效,但是在实际应用中还是存在一些问题:(1)聚类效果十分依赖于截断距离的选取;(2)数据量大时,可能无法轻易的从决策图中挑出合适的聚类中心点。因此,若能对此类问题进行改进,并应用于Mashup服务聚类场景中,也将有助于提升聚类的整体性能。

发明内容

为了能够有效提升Mashup服务聚类精度,缩小服务搜索空间。本发明提出了一种基于密度峰值检测的Mahsup服务聚类方法。该方法首先将Mashup服务的特征向量作为聚类的基本单元。在此基础上,引入DPC算法,并对传统DPC 中密度的计算方式进行了重新定义,使得密度分布更加合理,进一步,方法对每个聚类单元的密度信息进行了综合评估计算,选出最为合适的K个初始聚类中心,作为K-means算法输入,进而完成聚类。

为了解决上述技术问题本发明所采用的技术方案是:

一种基于密度峰值检测的Mahsup服务聚类方法,包括以下步骤:

第一步、对于所有参与聚类的Mashup服务的特征向量,进行局部密度、向量间距离和较高密度最近距离计算,过程如下:

步骤(1.1)遍历每个Mashup服务特征向量,计算当前向量的局部密度ρy,计算公式如下所示:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010127369.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top