[发明专利]一种Web服务聚类的方法有效

专利信息
申请号: 201010613232.6 申请日: 2010-12-30
公开(公告)号: CN102043863A 公开(公告)日: 2011-05-04
发明(设计)人: 吴健;马莹;王飞 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州裕阳专利事务所(普通合伙) 33221 代理人: 江助菊
地址: 310027 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种Web服务聚类的方法,包括Web服务库,主控装置,标签库,该方法包括以下步骤:步骤一:使用VSM方法将Web服务转化为向量集合;步骤二:根据应用需求,确定Web服务的权重;步骤三:使用LSH方法对Web服务向量集合进行聚类。本发明的方法相对于现有技术的有益效果是:1、针对WSDL文档进行聚类,保持了与现有协议与技术的兼容性;2、比之Kmeans等方法,具有极高的效率;且Web服务向量空间维度越高,本发明的高效性越明显;3、Web服务聚类结果既可以用于Web服务发现,也可以用于Web服务组合,普适性较强,使本发明具有很强的向后兼容性。
搜索关键词: 一种 web 服务 方法
【主权项】:
1.一种Web服务聚类的方法,包括Web服务库(1):为存储WDSL文档的数据库,用于给现有Web建立索引,支持数据存取和写入;主控装置(2):它包括用户交互装置——为与用户IO交互的各种驱动;计算处理装置——包括内存,外存,CPU;用于获取Web服务的向量模型、运算聚类结果;数据库交互装置——包括数据库驱动及xml解析器,用户终端,输入输出设备及显示器,用于数据库通信、及用户对于某些场景或参数的选择;标签库(3):用于存储以序号表示的不同的权重组合、类别标签、及以索引形式存储的Web服务库中的Web服务,并存储相应的哈希值,支持数据读出及写入;其特征在于包括以下步骤:步骤一:使用VSM方法将Web服务转化为向量集合a.主控装置(2)从Web服务库(1)中读取当前所有Web服务的WDSL文档数据,若用户给定限制条件,则获取符合条件的Web服务;b.主控装置(2)获取Web服务后,使用VSM方法将Web服务集合转化为向量空间集合;所述VSM方法,是将每个所述WSDL文档中的“Web服务基本信息的描述”、“功能操作”、“输入参数”、“输出参数”以及“Qos”分割成一组关键词,表示为< Des, Oper, Input, Output, Qos >五个属性,每一个关键词代表一个维度,统计关键词在文档中的出现频率,并计算每一维向量在每个文档下的权重,进而将代表Web服务的WSDL文档转化为向量;每一维向量在每个文档下的权重为:其中表示第k个词在WSDL文档i中的权重,表示第k个词在文档i中出现的次数,N表示集合中的全部文档数量,表示包含第k个词的文档数量,继而采用公式值规范化,将每一维向量的权重值规范在 [0,1]之间取值,而||即为第k维向量的长度,其中,t为空间向量维数,即为t维空间向量中第k个位置的值;步骤二:根据应用需求,确定Web服务的权重主控装置(2)向用户发起询问,询问用户是否自行标定Web服务上述五个属性< Des, Oper, Input, Output, Qos >的权重值<Des,Oper,Input,Output,Qos >系数、和,其中++++=1,若是,则由用户输入权重值,否则,使用该场景下的默认权重值系数,即=====0.2;步骤三:使用LSH方法对Web服务向量集合进行聚类a. 主控装置(2)获取从上述步骤二中得到的标定好权重的向量集合,通过使用LSH方法顺序处理各Web服务,计算每个Web服务对应的N个哈希值, 其中,向量代表一个Web服务空间向量,是一个向量,其维度与相同,且服从高斯分布,b是一个范围在[0,w]的随机实数,w表示一个哈希桶的长度,为经验值,由操作者给定,通常情况下,在Web服务集合数量不超过10000的情况下,w值取[4,6]效果较好;在w值给定的情况下,反复随机选取向量和随机实数b,获取构建哈希函数的变量,得到N个哈希函数,形成哈希函数族;b. 对N个哈希值都相同的Web服务进行处理,计算Web服务之间的距离,对于N个哈希值都相同的Web服务,将大多数距离相近的点标定为同一类,c. 判定上一步所述的距离相近的点中是否存在奇异点,若Web服务不为奇异点,则对该Web服务进行标定处理:若标签库中已有大量数据,则将N个哈希值合并成一个序列,并在标签库(3)中查询给定的权重值组合下该序列所对应的标签,若不存在该标签,则由主控装置(2)向用户发起询问,用户以文字形式为每个类别写入标签,若用户不想手工处理,则可由主控装置(2)标定随机数字标签;主控装置(2)将Web服务以索引形式写入标签库(3)中对应权重值及类别标签下,并标定这些Web服务已经处理;若Web服务为奇异点,则对该Web服务不做处理;d. 主控装置(2)对所述奇异点进行处理,将其邻近的若干个已写入标签库(3)中Web服务进行投票,将该Web服务以索引形式写入到标签库(3)中出现最频繁的与该Web服务对应的权重值组合及类别标签下,并标定该Web服务已被处理;e. 主控装置(2)向用户发起询问,是否继续进行新一轮聚类,若是,则返回步骤三a.继续进行,反之,则结束整个流程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010613232.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top