[发明专利]一种基于混合分类技术的大众贡献审阅自动标注方法有效
申请号: | 201710484791.3 | 申请日: | 2017-06-23 |
公开(公告)号: | CN107291902B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 余跃;李志星;尹刚;王涛;王怀民;范强;李立 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F11/36;G06F8/71;G06F8/30 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陆薇薇 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 分类 技术 大众 贡献 审阅 自动 标注 方法 | ||
本发明公开了一种基于混合分类技术的大众贡献审阅自动标注方法,其涉及软件协同开发领域。该方法包括:首先对GitHub平台数据进行采集,所收集的数据主要包括大众合并请求和其他开发者对这些大众合并请求的审阅评论;然后选取GitHub经典的项目进行人工分析,结合领域相关研究定义完善的类别体系;然后随机采样一部分pull‑request和其对应的所有审阅评论,利用在线标记平台通过多人协同的方式进行人工标注;最后利用人工标记的数据集训练基于混合分类技术的标注模型,再利用训练所得模型对未标记审阅评论进行自动化标注。本发明能够提升人工代码审查的自动化水平,降低人工成本,提高大众贡献汇聚效率。
技术领域
本发明涉及软件协同开发领域,尤其涉及一种基于混合分类技术的大众贡献审阅自动标注方法。
背景技术
开源软件技术经过数十年的蓬勃发展,已经在全球性软件工程领域占据了主导地位,其应用范围已经覆盖了操作系统、云计算、物联网、大数据等互联网时代所有的关键领域。开源软件极大地加速了企业的创新速度、降低了运维成本、缩短了新产品的上市时间。开源软件技术已成为软件持续创新的重要动力。
随着Web 2.0的兴起,开源社区逐渐地吸纳了一些社交网络的相关技术,开源软件创作活动的开放性与协作性进一步加强,逐渐形成了基于大众参与的社交化编程模式(Social Coding)。在社交化的开源社区中(如Github、Trustie),所有参与者都处于一个完全开放的开发环境,参与者们互相之间能及时地了解到其他人的动态,社区内任何一个公开项目的发展轨迹对所有开发者都是可见的。GitHub社区从2008年上线,其用户数每年以指数级增长。截止到2016年4月,GitHub托管了超过3500万个开源软件代码库,吸引了超过1400万个软件开发者。无论是项目数量还是参与人数,GitHub都远远超过了传统的开源社区,甚至传统社区的总和。大规模的用户和外围贡献者成为了开源生态的新兴主体,展现出了前所未有的生产力。开源运动进入到了前所未有的火热时期,大众化协同开发已是开源软件创新的源动力。
在软件协同开发方面,尤其是代码管理方面,版本控制系统无疑起到了至关重要的作用。以Git为代表的新一代分布式版本控制系统一经问世就被广泛地应用,这些工具实现了真正意义上的分布式协同开发,提高了开发效率。基于Git,GitHub开创了一种全新的围绕合并请求(即Pull-Request)的分布式协同开发模式。这种全新的软件协同开发模型大大降低了外围开发者进入项目的门槛,任何开发者都可以自由地向任何一个感兴趣的软件项目贡献代码,因此Pull-request在GitHub社区得到了广泛的应用。自2010年Pull-request开发技术被提出后,短短六年时间内GitHub社区已经产生了6600多万的Pull-request,并且近些年的增长趋势越来越迅猛,可以看出Pull-based开发模式在协同开发社区中被广泛使用。
GitHub社区在Pull-based的开发模式下集成了轻量级的代码审阅流程。在GitHub上,基于Pull-request的贡献具体过程如图1所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710484791.3/2.html,转载请声明来源钻瓜专利网。