[发明专利]基于融合标签和文档的网络主题模型的Web服务聚类方法在审

申请号：	202010723704.7	申请日：	2020-07-24
公开（公告）号：	CN111914918A	公开（公告）日：	2020-11-10
发明（设计）人：	邓丽平;赵偲;郑文	申请（专利权）人：	太原理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35;H04L29/08
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	王军
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于融合标签文档网络主题模型 web 服务方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于融合标签和文档的网络主题模型的Web服务聚类方法，其特征在于，包括：

步骤1，从Web服务数据中提取Web服务的描述文本信息和标签信息；

步骤2，对Web服务描述文本信息进行数据清洗；

步骤3，用LDA主题模型训练，得到描述文本信息和标签信息的主题概率分布；

步骤4，通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络；

步骤5，重复步骤(3)和步骤(4)，得出两种多层Web服务相似网络，将两种Web服务相似网络根据其权重融合为一个Web服务网络；

步骤6，用谱聚类方法对Web服务网络进行聚类。

2.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法，其特征在于，对Web服务描述文本信息进行数据清洗的步骤中，将描述文本信息集D＝{d₁，d₂，...，d_M}和标签信息集T＝{t₁，t₂，...，t_M}进行数据清洗，数据清洗的方式至少包括：去掉StopWord、去除Punctuation，词形还原。

3.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法，其特征在于，在使用LDA主题模型训练的步骤中，LDA主题模型的输入分别是每个Web服务的文档信息和标签信息，得到文档-主题概率分布θ_d和标签-主题概率分布θ_t如公式(1)和公式(2)所示：

θ_d＝[θ_d，k]_M×K (1)

θ_t＝[θ_t，k]_M×K (2)

具体计算如公式(3)和公式(4)所示：

其中，表示文档描述文本d_i中出现主题k的次数，表示文档标签t_i中出现主题k的次数，α_k是主题的Dirichlet先验。

4.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法，其特征在于，步骤S4中，构建表征Web服务相似网络时，计算两个表征Web服务相似网络的邻接矩阵，如公式(5)和公式(6)所示：

其中，为θ_d转置，为θ_t转置。

5.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法，其特征在于，在将Web服务相似网络按照权重叠加融合，生成Web服务网络的步骤中，生成的Web服务网络如公式(7)所示：

其中，L为相似网络层数，γ为两种网络融合权重系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010723704.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种复合隔膜及其制备方法和电池
下一篇：一种复合电解质隔膜及其制备方法和电池

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于融合标签和文档的网络主题模型的Web服务聚类方法在审

专利文献下载