[发明专利]基于融合标签和文档的网络主题模型的Web服务聚类方法在审
| 申请号: | 202010723704.7 | 申请日: | 2020-07-24 |
| 公开(公告)号: | CN111914918A | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 邓丽平;赵偲;郑文 | 申请(专利权)人: | 太原理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;H04L29/08 |
| 代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 王军 |
| 地址: | 030024 *** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 融合 标签 文档 网络 主题 模型 web 服务 方法 | ||
本发明涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法,首次提出利用图的思想解决Web服务聚类问题,本方法先构建Web服务网络,然后对网络进行图聚类,不仅利用了Web服务文档的文本属性,同时结合了Web服务之间的结构信息,对Web服务之间的关系进行全面的刻画;Web服务网络构建是核心,本方法考虑Web服务标签信息这一重要特征,不仅有效克服Web服务描述文档较短、信息稀疏这一弱点,还使得标签信息在Web服务之间的关系刻画过程中发挥重要作用;对Web服务描述文本和标签分别构建网络,然后将这两种模态的网络进行加权融合,形成Web服务网络;经过在真实数据集上进行了大量的实验验证,本方效果优于其它聚类方法,并且准确率和召回率达到了0.7以上。
技术领域
本发明涉及Web服务技术领域,更具体地说,涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法。
背景技术
Web服务是一种依赖互联网的应用系统,它为互联网用户提供各种数据计算和资源共享服务。随着Web 2.0、移动互联网、物联网与云计算等技术的迅猛发展,大量基于SOA(Service Oriented Architecture,面向服务架构)的互联网应用被创建,而Web服务逐渐成为实现SOA架构的主流技术,互联网上的Web服务呈现出快速增长的趋势。据统计,目前最大、最活跃的Web服务发布和共享平台Programmable Web上每天都会产生数十个新的被称为API(Application Programming Interface)的Web服务。其中,从2011年6月至2018年3月,网站中的服务数量从3261个增加到19000多个,增幅高达500%。在此背景下,有效地管理Web服务资源和合适Web服务发现已经成为当今人们面临的一个重要挑战,其中,如何辅助用户有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一。
目前,Web服务聚类作为一种解决服务发现问题的方法被广泛关注,很多研究表明,Web服务聚类将极大地提高Web服务搜索引擎检索相关服务的能力。传统Web服务聚类研究的一个重要限制是,研究人员只关注于利用Web服务的WSDL(Web Services DescriptionLanguage,Web服务描述语言)文档信息(例如:服务名称、内容、类型、消息、端口),而传统服务聚类方法数据源的单一性限制了聚类的准确性。针对传统Web服务聚类方法的不足,一些学者基于Web服务信息考虑了一些辅助信息,如利用多重融合信息、描述文本、标签、标签共享信息等来提高服务聚类的性能。标签(Tag)作为资源管理和检索的有效方式成为近些年的热点研究对象,有学者提出基于LDA模型(Latent Dirichlet Allocation)利用标签信息和WSDL文档信息来提高服务聚类性能。尽管该方法的服务聚类效果比传统聚类方法有所提高,但只考虑到标签的语义信息,没有考虑到标签和文档的网络结构信息,不能全面地提高服务聚类的有效性。针对这些方法的不足,本文首先考虑标签信息提高描述文档的有效性,通过主题模型挖掘潜在主题及语义,将服务内容从高维词向量空间映射到低维主题向量空间,实现服务文档的降维。其次,基于主题分布向量构建Web服务网络聚类,可以避免直接构建网络时,因服务规模太大而影响服务聚类效果的问题。
发明内容
针对现有技术中存在的不足,本发明提供一种基于融合标签和文档的网络主题模型的Web服务聚类方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于融合标签和文档的网络主题模型的Web服务聚类方法,包括:
步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;
步骤2,对Web服务描述文本信息进行数据清洗;
步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;
步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010723704.7/2.html,转载请声明来源钻瓜专利网。





