[发明专利]基于Stack Overflow网站获取Web API知识的系统和方法有效
申请号: | 202010301685.9 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111538807B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 曹健;王乃轩;钱诗友 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F18/241;G06F18/2413 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 stack overflow 网站 获取 web api 知识 系统 方法 | ||
1.一种基于Stack Overflow网站获取Web API知识的系统,其特征在于,包括:
数据收集和过滤模块:从Stack Overflow网站公开的数据转储中下载数据文件,所述数据文件中包括设定特定时间段内Stack Overflow网站上发布的问题和答案,通过特定词搜索对问题和答案进行搜索,形成第一收集数据,从第一收集数据中选择最相关数据标识为正样本,其余数据标识为无标记样本,利用半监督学习从无标记样本中筛选出正样本,将所有正样本数据作为第二收集数据;
问题类别分类模块:将数据文件中的问题分为不同类别,对问题主体进行分句切分,使用深度学习模型对切分后的句子进行分类,根据分类结果,统计每个问题在不同类别上的句子数量,形成训练集进行训练预测模型,通过预测模型预测问题类别,得到每个问题的所属类别;
性能衡量与预测模块:针对每个问题的所属类别和每个问题的发布时间,采用时间序列分析预测对Web API的性能进行衡量预测,形成关于Web API见解。
2.根据权利要求1所述的基于Stack Overflow网站获取Web API知识的系统,其特征在于,所述数据收集和过滤模块包括:
第一阶段处理模块:采集形成第一收集数据,在形成第一收集数据中区分正样本集合P和无标记样本集合U,设定负样本集合RN,将正样本集合P中的数据视为正类,将无标记样本集合U中的数据视为负类,训练朴素贝叶斯分类器,对负类中的样本进行分类,若分类结果为负,则将所述样本加入到负样本集合RN,否则,则不加入到负样本集合RN;
第二阶段处理模块:迭代地将从U=RN中抽取负样本加入到RN中,直到U-RN中不再有负样本,将P中的数据视为正类,将RN中的数据视为负类,迭代地训练半监督的学习分类器,对U-RN中的样本进行分类,如果分类结果为负,则加入到RN中,直到U-RN为空或分类结果都为正迭代终止,将得到的所有正样本数据作为第二收集数据。
3.根据权利要求1所述的基于Stack Overflow网站获取Web API知识的系统,其特征在于,所述问题类别分类模块包括:
分类分句模块:将文本问题分成三种类别,去除文本中的无关信息,得到问题主体,对问题主体进行分句,使用深度学习模型对切分后的句子进行分类;
类别划分模块:标注训练集和测试集对深度学习模型进行训练,在得到每个句子的分类结果之后,得出每个问题的一维向量,通过邻近算法KNN判断问题类别。
4.根据权利要求1所述的基于Stack Overflow网站获取Web API知识的系统,其特征在于,所述性能衡量与预测模块包括:
历史时间预测模块:针对每个问题的所属类别和每个问题的发布时间,得到历史时间单元内特定类别的问题数量,形成历史数据,提取历史数据中的趋势特征,对未来若干时间单元内的数据进行预测;
多个时间预测模块:提取同一个Web API知识在不同类别中的问题数量,共享多个相关任务特征,采用多输入多输出的多任务学习模型,提升预测精度。
5.根据权利要求1所述的基于Stack Overflow网站获取Web API知识的系统,其特征在于,所述不同类别为三种类别,其中第一类别是由于开发人员缺乏技能或者相关的技术文档导致的问题,第二类别由于代码中的错误或者程序中的异常返回值等现象导致的问题,不能归属为第一类别和第二类别的问题则归入第三类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010301685.9/1.html,转载请声明来源钻瓜专利网。