[发明专利]开源社区中开发者行为的异常检测方法、系统及介质有效
| 申请号: | 202010124140.5 | 申请日: | 2020-02-27 | 
| 公开(公告)号: | CN111459797B | 公开(公告)日: | 2023-04-28 | 
| 发明(设计)人: | 曹健;童兰轩;钱诗友 | 申请(专利权)人: | 上海交通大学 | 
| 主分类号: | G06F11/36 | 分类号: | G06F11/36 | 
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 | 
| 地址: | 200240 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 社区 开发者 行为 异常 检测 方法 系统 介质 | ||
本发明提供了一种开源社区中开发者行为的异常检测方法、系统及介质,包括:构建序列步骤:根据开发者行为构建不同的行为次数时间序列;行为数据离散化步骤:对行为次数时间序列进行划分成区间内差异低于预设范围,区间之间差异高于预设范围的不同类别,并达到预设类别数量;行为频繁序列挖掘步骤:在其他人员的行为序列和待检测者的历史行为序列上均进行行为频繁序列挖掘;行为异常性判断步骤:判断开发者的行为是否存在异常。本发明提高了开源项目的确定性,减少了项目进度风险;本发明可以追溯历史数据,对过去异常数据进行标识。
技术领域
本发明涉及行为异常检测技术领域,具体地,涉及一种开源社区中开发者行为的异常检测方法、系统及介质。
背景技术
开源软件已经成为了目前的软件开发的主流方式。开发者在这些开源社区中以各种方式作出贡献,推动着开源软件的发展。与此同时,许多开发者参与的积极性并不稳定,开发者的开发行为常常出现一些异常现象。这些异常带来了开源项目的不确定性,往往导致项目进度风险;另一方面有些异常也意味着对项目及时调整的机会,因此需要及时检测开发者的开发行为异常。在开源社区中开发者的行为具有多种类型,同时,也缺乏对过去异常数据的标识。目前还没有针对开源社区中开发者的多维度开发行为进行无监督的异常识别方法。
专利文献CN105677572B(申请号:201610077926.X)公开了一种基于自组织映射模型的云软件性能异常错误诊断方法,包括:追踪记录待检测的软件在云环境中运行时的系统调用信息;分析出现性能异常的虚拟机上软件运行时系统调用序列,划分每个进程对应的系统调用序列;根据划分得到的进程系统调用序列建立检测模型,并对可疑进程进行异常检测;计算出现异常的进程中最相关的系统调用,排序后输出。本发明能够准确完整地记录软件运行时的行为,能够自动化建模并且检测出异常的系统运行过程,能够更准确地定位异常运行过程相关的系统调用。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种开源社区中开发者行为的异常检测方法、系统及介质。
根据本发明提供的开源社区中开发者行为的异常检测方法,包括:
构建序列步骤:根据开发者行为构建不同的行为次数时间序列;
行为数据离散化步骤:对行为次数时间序列进行划分成区间内差异低于预设范围,区间之间差异高于预设范围的不同类别,并达到预设类别数量;
行为频繁序列挖掘步骤:在其他人员的行为序列和待检测者的历史行为序列上均进行行为频繁序列挖掘;
行为异常性判断步骤:判断开发者的行为是否存在异常。
优选地,所述行为次数时间序列包括:
次数序列:由一段时间内的行为总数量表示,所有类型的行为次数序列记为X,某类型的行为j的次数序列记为Cj;
趋势序列:由相邻两端时间内的行为总数变化量表示,所有类型的行为趋势序列记为X’,行为j的趋势序列记为Cj’;
比例序列:由一段时间内某一行为的次数占这段时间内行为总数的占比表示,行为j的比例序列记为Pj。
优选地,所述行为数据离散化步骤包括:
步骤A1:将每一个不同值的数据放入一个类别;
步骤A2:找到一组差异最小的相邻类别,将这两个类别合并;
步骤A3:返回步骤2继续执行,当数据分成预设类别数量时终止。
优选地,所述行为频繁序列挖掘步骤包括:
步骤B1:寻找置信度为s下的m项频繁项或长度为m的频繁序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010124140.5/2.html,转载请声明来源钻瓜专利网。





