[发明专利]基于半监督学习的软件工程知识库的自动化构建实现方法有效

专利信息
申请号: 201710120880.X 申请日: 2017-03-02
公开(公告)号: CN106875014B 公开(公告)日: 2021-06-15
发明(设计)人: 董翔;沈备军;陈凯 申请(专利权)人: 上海交通大学
主分类号: G06N5/02 分类号: G06N5/02;G06F16/21
代理公司: 上海交达专利事务所 31201 代理人: 王毓理;王锡麟
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 监督 学习 软件工程 知识库 自动化 构建 实现 方法
【说明书】:

一种基于半监督学习的软件工程知识库的自动化构建实现方法,解决软件工程领域知识库现阶段较为匮乏、概念数目难以达到大规模程度、概念间的关系较为稀疏、同时需要投入大量人工精力的问题,本发明通过:一、根据标签传播,采用维基百科和StackOverflow数据源扩充软件工程领域的概念集合;二、构建对软件工程领域概念进行上下位关系抽取的机器学习特征;三、分别采用模版匹配和规则匹配的方法自动化标注关系抽取的正例和反例训练数据;四、根据迭代的半监督的学习方法进行概念间关系的抽取工作,并结合评估规则优化每次迭代的抽取结果;五、采用RDF语言对知识库进行标准化构建得以实现。

技术领域

本发明涉及的是一种软件工程领域的技术,具体是一种基于半监督学习的软件工程知识库的自动化构建实现方法。

背景技术

当今社会是以语义万维网(Semantic Web)作为未来发展主要方向的时代,构造能让计算机理解和处理的Web信息成为现阶段非常重要的工作。而知识库(Knowledge Base)作为具有概念、实体、关系所组成的知识集合,使其在信息检索,知识问答等蓬勃发展的环境下,具有越来越重要的应用价值和工业价值。而软件工程领域知识库作为知识库中的一个重要分支,同样凸显着难以替代的作用。尤其是在:缺陷预测、语义关联性计算、文本正确性分析、软件文档相关性监测、软件质量度量等领域的研究,大都基于软件工程领域知识库展开。因此,软件工程领域知识库的质量,很大程度上决定并影响研究的质量与效果。因此,构建高质量、大规模的软件工程领域知识库具有非常重要的意义。

由于现阶段大规模的软件工程知识库尚无完备的构建方法和构建成果,获取软件工程知识库主要通过以下两种方法:

通过一般领域的开源知识库获得软件工程领域知识。

该方法主要通过开源的且为一般领域的知识库,例如:WordNet、YAGO、DBpedia、WikiTaxonomy等知识库,或者通过著名知识搜索计算平台如Google知识图谱、WolframAlpha、Data.gov等平台获取。首先,获得其中一个一般领域的知识库或知识平台,然后通过人工验证、类别验证(根据知识库中标注的类别,选取相关类别抽取知识集)的方式,将其中关于软件工程领域的知识分离出来构造集合,并进行结构化的构建,以此来作为软件领域的知识库。但由于一般领域知识库中关于软件工程领域知识不够全面,同时人工验证和类别验证的准确度不高,得到的软件工程领域知识库存在关系稀疏、构建质量低的问题,同时会投入极大的人工成本。

通过现阶段已有的软件工程领域知识库获得。

该方法是直接使用现阶段已构建的软件工程领域知识库。其相关可供使用的知识库有:Kavi Mahesh等人发布的LOaD-IT,这个知识库致力于帮助软件工程师更快阅读文档而构建,其中的概念的语义关系非常稀疏,难以运用到软件工程的其它领域。Mr.IzzeddinA.O.Abuhassan等人构造的关于软件工程编程语言方面的知识库,该知识库没有涉及到全部的软件工程领域范围。Lexical Views,该知识库通过运用自然语言处理技术从软件工程领域抽取出部分的概念,其概念大多为软件工程中术语,并将其组织成类似于WordNet的树状结构,构建成知识库。上海交通大学的Software.Zhishi.Schema,该知识库主要抽取StackOverflow中的标签作为知识库的概念集合,并抽取标签之间的关系构建知识库,其构建结果局限于StackOverflow的标签范围之内。上述研究成果都具有各自的局限性,其主要特点是缺乏包含较为全面的、大规模的软件工程领域概念,并且其中语义关系的丰富性(如上下位关系的数目与深度),都有待进一步的提高。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710120880.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top