[发明专利]基于半监督学习的软件工程知识库的自动化构建实现方法有效
| 申请号: | 201710120880.X | 申请日: | 2017-03-02 |
| 公开(公告)号: | CN106875014B | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 董翔;沈备军;陈凯 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F16/21 |
| 代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种基于半监督学习的软件工程知识库的自动化构建实现方法,解决软件工程领域知识库现阶段较为匮乏、概念数目难以达到大规模程度、概念间的关系较为稀疏、同时需要投入大量人工精力的问题,本发明通过:一、根据标签传播,采用维基百科和StackOverflow数据源扩充软件工程领域的概念集合;二、构建对软件工程领域概念进行上下位关系抽取的机器学习特征;三、分别采用模版匹配和规则匹配的方法自动化标注关系抽取的正例和反例训练数据;四、根据迭代的半监督的学习方法进行概念间关系的抽取工作,并结合评估规则优化每次迭代的抽取结果;五、采用RDF语言对知识库进行标准化构建得以实现。 | ||
| 搜索关键词: | 基于 监督 学习 软件工程 知识库 自动化 构建 实现 方法 | ||
【主权项】:
一种基于半监督学习的软件工程知识库的自动化构建实现方法,其特征在于,包括以下步骤:步骤一、以StackOverflow上提供的软件工程领域标签作为种子词汇,并获得维基百科提供的概念数据集,通过种子词汇标签迭代传播,扩充维基百科上全部软件工程领域概念并得到包含维基结构的软件工程领域知识集合;步骤二、结合语义及概念在维基百科中的结构特征,对软件工程领域概念构建上下位关系的机器学习特征;步骤三、根据机器学习特征,分别采用模版匹配和规则匹配的方法对软件工程领域知识集合中的正例数据和反例数据进行标注,得到基于模板匹配和规则匹配的数据标注;步骤四、采用半监督的学习方法从包含维基结构的软件工程领域知识集合中进行迭代的关系抽取工作,并建立迭代结果的评估规则以进行优化;步骤五、对步骤四构建得到的知识库进行RDF标准化,完成最终大规模软件工程领域知识库的构建。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710120880.X/,转载请声明来源钻瓜专利网。





