[发明专利]融合先验知识和上下文相关度的知识库抽取方法在审

专利信息
申请号: 201910428092.6 申请日: 2019-05-22
公开(公告)号: CN110147401A 公开(公告)日: 2019-08-20
发明(设计)人: 孔芳;李明扬;周国栋 申请(专利权)人: 苏州大学
主分类号: G06F16/25 分类号: G06F16/25;G06F16/28
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 曹成俊
地址: 215137 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识库 抽取 上下文相关 先验知识 候选实体 候选集 融合 语料 大型网络 维基百科 维基页面 先验概率 噪声干扰 资源消耗 锚文本 维基页 语料库 再利用 链接 统计
【说明书】:

发明公开了一种融合先验知识和上下文相关度的知识库抽取方法。本发明提出了一种融合先验知识和上下文相关度的知识库抽取方法,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention‑entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率本发明的有益效果:先利用候选实体的先验知识抽取知识库,再利用候选实体的锚文本所对应的维基页面的上下文相关度来进一步抽取知识库,最终得到与实验语料领域相关的知识库,最大限度的减少知识库带来的噪声干扰与资源消耗。

技术领域

本发明涉及知识库抽取方法领域,具体涉及一种融合先验知识和上下文相关度的知识库抽取方法。

背景技术

知识库是基于知识的系统,知识库中知识根据它们的应用领域特征、背景特征、使用特征等而被组织成便于使用的、有结构的组织形式。知识库可用于自然语言处理的诸多任务中(例如关系抽取、事件抽取、阅读理解、问答等),同时也是实体链接不可或缺的核心部件。常见的知识库包括Wikipedia、DBpedia、YAGO、Freebase等,本发明是对Wikipedia知识库进行抽取从而服务于实体链接任务。

知识库抽取的研究历史悠久。Alani H等人[1]于2003年首先将知识抽取工具与本体相结合,实现持续的知识支持和指导信息抽取,并直接从Web上的非结构化文本中构建所需的知识库。Wang J H等人[2]于2008年为每个条目设计多个模板和与每个模板相关的多个属性的知识库结构,最后根据设计的结构自动构建维基百科问答系统知识库。Shin J等人[3]于2015年提出DeepDive系统构建知识库,同时采用抽样和变分技术动态的扩充知识库。Lehmann J等人[4]于2015年从维基百科中提取结构化、多语言的知识,并使用语义网和链接数据技术构建出DBpedia知识库。Rebele T等人[5]于2016年将来自维基百科的10种不同语言的信息整合成一个连贯的整体,再将空间和时间的信息附加到各自的实例上,最后构建出允许用户在空间和时间上查询数据的YAGO知识库。

目前,实体链接任务所使用的知识库几乎都是Wikipedia_2014,服务于实体链接的知识库抽取的研究甚少,考虑到Wikipedia_2014知识库繁冗的信息会造成高价运行成本和负面噪音,所以本发明针对于实体链接任务进行知识库抽取具有很重要的研究价值。

传统技术存在以下技术问题:

知识库作为实体链接任务不可或缺的核心部件,知识库的质量直接决定了实体链接的性能。近年来,国内外的实体链接任务几乎都是使用Wikipedia_2014知识库,还未有人针对于实体链接任务进行知识库的抽取,从而进一步服务于实体链接任务。

由于Wikipedia_2014知识库结构工整、完备性较高,所以成为实体链接任务的首选知识库。但是完整的Wikipedia_2014知识库存在数据繁冗、多领域信息混杂等问题,导致知识库中掺杂了大量的噪声,影响实体链接任务的性能,同时极大地增加了系统不必要的资源消耗与训练时间。

相关文献:

[1]Alani H,Kim S,Millard D E,et al.Automatic ontology-based knowledgeextraction from web documents[J].IEEE Intelligent Systems,2003,18(1):14-21.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910428092.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top