[发明专利]一种基于功能隐含关系及聚类的Mashup推荐方法在审

专利信息
申请号: 201710618983.9 申请日: 2017-07-26
公开(公告)号: CN107423396A 公开(公告)日: 2017-12-01
发明(设计)人: 郑子彬;牛向东 申请(专利权)人: 中山大学
主分类号: G06F17/30 分类号: G06F17/30;H04L29/08
代理公司: 广东广信君达律师事务所44329 代理人: 杨晓松
地址: 510275 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 功能 隐含 关系 mashup 推荐 方法
【说明书】:

技术领域

发明涉及Mashup优化的技术领域,尤其涉及到一种基于功能隐含关系及聚类的Mashup推荐方法。

背景技术

随着Web 2.0技术的发展,Mashup如雨后春笋一般快速增长。Mashup一词最早出现在流行音乐领域,表示将不同音轨、不同流派的音乐合成一首新歌,在网络应用方面,根据维基百科定义:它是一种网络聚合应用,把来自两个或多个外部资源的数据或功能整合起来创建一项新服务的网页或Web应用程序。Mashup从多个分散站点获取信息源,组合成一种新型网络应用模式,它利用的外部数据源格式多种多样,兼容性惊人。

Mashup大量运用Web2.0技术,简单的聚合原理和图形化界面的开发工具,产生了一种新的应用软件开发模式,这种模式简化了开发的难度,使得不具备精深专业知识的人员也可参与到他们感兴趣的服务创建中来,通过获取几个API的服务,比较轻松地组合成一个新的应用,并且也可以API的形式发布对外提供服务,如今每天都有大量Mashup涌现。一些在线的社会平台,如Yahoo Pipes,Microsoft Popfly,ProgramableWeb允许用户发布各种API,并允许对API、Mashup标注,Mashup已成为社会标注的Web资源。

大量API的产生在为人们提供便捷服务的同时也带来了巨大的选择问题,例如截至2014年10月ProgramableWeb上就已有8000多个API可供使用,11000多个Mashup应用。面对如此大量的API人们可能很难从中选择适合自己的应用功能的API。并且据统计发现大量的Mashup使用的API很少,并且大量的API也仅仅在极少数的Mashup中被使用,这一方面使得大量API本身的价值未能更好得利用,另一方面Mashup本身也有更多的改进空间可以挖掘以完善本身的功能。

面对数量庞大种类繁多的大量API,根据Mashup的功能定位找到合适的API成为一个急需解决的问题,而推荐系统是解决这一问题的有效手段。推荐系统大致分为两类,一类为基于记忆的推荐系统,一类为基于模型的推荐系统。基于记忆的推荐系统通常有两种做法:一种是基于用户推荐,即根据待推荐用户的相似用户的物品记录为其推荐物品;另一种是基于物品的推荐,即根据相似物品的记录推荐给可能需要的用户。这种方法的优点是算法简单易实现,并且对于给定推荐结果易做出解释;缺点是记录稀疏性较大难以获得较好的推荐结果,数据规模大时计算复杂度会很高。而基于模型的推荐系统认为记录本身符合某种数学规律,通过训练能与记录较好拟合的模型来预测用户可能需要的物品推荐。这种方法的优点是能够较好地处理数据稀疏的问题,做出的推荐相对准确;缺点是推荐一般是不可解释的,并且一旦有新的用户或物品加入就需要重新训练模型。

发明内容

本发明的目的在于克服现有技术的不足,提供一种能减轻数据集稀疏性、容易发现适合完善Mashup功能的API的基于功能隐含关系及聚类的Mashup推荐方法。

为实现上述目的,本发明所提供的技术方案如下:

对Mashup及API进行聚类,聚类采用功能相近的原则,通过融合描述信息、标签及调用信息计算API相似性,通过融合描述信息、标签信息计算Mashup相似性;其中,API相似度计算时加入调用的信息来表征功能互补的特征,以此作为相似度的补充,是考虑到有些API虽然功能上不相似但是有可能功能上相互为补充而经常被共同调用的情况;当得出各API、Mashup之间的不同特征相似性后,通过调整不同的权重获得最终的相似度,并依此等价为两个API或Mashup间的距离,相似度越大相当于距离越近;具体步骤如下:

S1、从Mashup在线平台爬取带有API和Mashup描述、标签及API调用信息的数据;

S2、对步骤S1爬取到的描述信息进行预处理;预处理包括1.分词(句子分成词);2.移除停用词(如am、is等);3.处理词干(如去前缀、后缀、复数转原型等);

S3、进行API及Mashup相似性计算:

S31、分别对各API之间的描述信息相似性、API标签相似性、API互补功能相似性以及Mashup之间描述信息相似性、Mashup标签相似性进行计算;其中,在计算API之间的描述信息相似性和Mashup之间描述信息相似性过程中,处理API和Mashup描述信息时考虑到需要把握文字语义,本方案采用LDA算法来处理描述信息的文档;

S32、将步骤S31得到的API和Mashup不同特征相似性对应进行加权结合获得API之间及Mashup之间的相似性;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710618983.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top