[发明专利]融合先验知识和上下文相关度的知识库抽取方法在审
| 申请号: | 201910428092.6 | 申请日: | 2019-05-22 |
| 公开(公告)号: | CN110147401A | 公开(公告)日: | 2019-08-20 |
| 发明(设计)人: | 孔芳;李明扬;周国栋 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 曹成俊 |
| 地址: | 215137 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
本发明公开了一种融合先验知识和上下文相关度的知识库抽取方法。本发明提出了一种融合先验知识和上下文相关度的知识库抽取方法,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中 |
||
| 搜索关键词: | 知识库 抽取 上下文相关 先验知识 候选实体 候选集 融合 语料 大型网络 维基百科 维基页面 先验概率 噪声干扰 资源消耗 锚文本 维基页 语料库 再利用 链接 统计 | ||
【主权项】:
1.一种融合先验知识和上下文相关度的知识库抽取方法,其特征在于,包括:多知识库生成候选集:为了获取适用于实体链接任务的知识库(即:抽取与语料相关领域的维基页面),通过统计维基百科(Wikipedia)、大型网络语料库Crosswikis(Spitkovsky and Chang)和Yago知识库(Hoffart et al.)中<mention‑entity>共现的次数来生成每个mention的候选集以及mention与每个候选entity之间的先验概率
若在上述3种不同的资源中得到了相同<mention‑entity>的不同共现次数,则取共现次数最大的值;先验概率
的计算公式为:
其中,m表示mention,m表示mention,ei表示mention的第i个候选实体;按先验知识比例抽取:候选集中候选实体会按照先验概率进行排序,候选实体集中的候选实体以三元组的形式存储:<Wiki_id,Prior probability,Wiki_name>;抽取出由第一步骤生成的mention候选集中的候选实体,同时将选出的候选实体所对应的维基百科页面放入抽取的知识库中;按抽取实体的锚文本扩充:在按比例抽取出候选实体以及将候选实体所对应的维基页面存入知识库的基础上,将利用知识库结构中“Other”部分的锚文本对抽取的知识库进行扩充;每个维基页面的“Other”部分的锚文本都可以发散性的指向相关的页面,而被指向的页面同理也能指向更深一层的文章,使用了锚文本指向的第一层页面信息;按上下文相关度比例抽取:在以上步骤得到按先验知识比例抽取的知识库的基础上,使用实体链接模型进行性能评测,分别得到Wikipedia_2014和Wikipedia_2018性能最好的抽取比例;每个维基百科页面中的“Description”部分都是对“title”(知识库中的entity)进行下定义式的详细描述,将使用mention所在的上下文分别与由第二步骤抽取出的候选实体的“Description”部分进行相似度计算,从而进一步筛选候选实体;为了能更好的评测出mention所在的上下文和候选实体的“Description”部分的相似度,从语义的角度出发,使用以下无监督策略来计算相关度:ELMo+Euclidean distance;ELMo(Embeddings from Language Models)是深层的双向语言模型(Deep BidirectionalLanguage Model)的多层内部状态(internalstate)表示的组合,是基于大量无标签文本训练完成的;ELMo不仅能够学习到词汇用法的复杂性,还能够学习不同上下文情况下的词汇多义性;对于某一个词语tk,一个L层的双向语言模型能够由2L+1个向量表示,计算公式为:
其中,
是词语tk的词向量,
使用预先训练好的ELMo模型来对每篇锚文本对应的维基百科的“Description”部分放入同一个语义空间中进行嵌入式表征,再分别对每个“Description”的嵌入式表征进行平均池化(Average Pooling),最后进行相似度计算;在经过进一步筛选候选实体之后,会候选实体重复进行锚文本扩充,最终得到服务于实体链接任务的知识库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910428092.6/,转载请声明来源钻瓜专利网。





