[发明专利]基于Stack Overflow网站获取Web API知识的系统和方法有效
申请号: | 202010301685.9 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111538807B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曹健;王乃轩;钱诗友 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F18/241;G06F18/2413 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 stack overflow 网站 获取 web api 知识 系统 方法 | ||
本发明提供了一种基于Stack Overflow网站获取Web API知识的系统和方法,从Stack Overflow网站公开的数据转储中下载数据文件,筛选最相关数据标识为正样本,其余数据标识为无标记样本,利用半监督学习从无标记样本中筛选出正样本;将问题分为不同类别,对问题主体进行分句切分,使用深度学习模型对切分后的句子进行分类,根据分类结果,统计每个问题在不同类别上的句子数量,形成训练集进行训练预测模型,通过预测模型预测问题类别,得到每个问题的所属类别;针对每个问题的所属类别和每个问题的发布时间,采用时间序列分析预测对Web API的性能进行衡量预测,形成关于Web API见解。
技术领域
本发明涉及网络服务与数据挖掘领域,具体地,涉及一种基于Stack Overflow网站获取Web API知识的系统和方法。
背景技术
近年来,互联网上Web服务发展迅速,Web API已成为Web服务的主要类型。对于公司或组织来说,将其某些功能、资源或数据打包成服务并以Web API的形式发布在互联网上是一种必要的策略。这种现象已经导致Web API的数量及其提供的功能呈指数增长,例如,在最大的Web API共享网站ProgrammableWeb(https://www.programmableweb.com)上,已经发布了20,000多个Web API,分为480多个类别。
当开发人员想要使用某个Web API时,他必须考虑许多因素,例如功能、质量和可用性等。因此,选择一个满足其需求的Web API是一项艰巨的任务。Web API的提供者经常发布许多文档来帮助开发人员了解Web API的功能以及如何使用它。但是,这些信息往往不够,因为开发人员希望获得有关Web API实际性能的知识,尤其是与实际应用中遇到的问题有关的知识。
有一些技术论坛可以供开发人员分享他们的工作经验,由于Web API的广泛应用,开发人员也在这些论坛上讨论与Web API相关的问题。Stack Overflow网站(https://stackoverflow.com/)是最大的在线技术论坛之一,可供开发人员以问答形式学习和共享他们的编程知识。每天有200万以上的开发人员通过提出和回答数千个问题来为该论坛做出积极贡献。挖掘这些问题和答案将有助于我们获得有关Web API的知识。截至目前,还没有关于如何从Stack Overflow网站获取对Web API的知识的研究。
与本申请相关的现有技术专利文献CN109933660B,公开了一种面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法,构建API与知识项的API-KI库;API-KI库包含API与讲义段的API-段对、API与问答帖的API-QA对,并进行提取;对自然语言形式的提问进行分析,获取与问题对应的潜在API;使用相关性鉴别模型TDML对相关的API-KI对进行鉴别;将潜在API与相关的API-KI对匹配生成候选列表,并根据排序策略对候选列表进行降序排列,最后返回排序后的API-KI列表作为问题的解答。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于Stack Overflow网站获取Web API知识的系统和方法。
根据本发明提供的一种基于Stack Overflow网站获取Web API知识的系统,包括:
数据收集和过滤模块:从Stack Overflow网站公开的数据转储中下载数据文件,所述数据文件中包括设定特定时间段内Stack Overflow网站上发布的问题和答案,通过特定词搜索对问题和答案进行搜索,形成第一收集数据,从第一收集数据中选择最相关数据标识为正样本,其余数据标识为无标记样本,利用半监督学习从无标记样本中筛选出正样本,将所有正样本数据作为第二收集数据;
问题类别分类模块:将数据文件中的问题分为不同类别,对问题主体进行分句切分,使用深度学习模型对切分后的句子进行分类,根据分类结果,统计每个问题在不同类别上的句子数量,形成训练集进行训练预测模型,通过预测模型预测问题类别,得到每个问题的所属类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010301685.9/2.html,转载请声明来源钻瓜专利网。