[发明专利]一种基于上下文相关性的抽象概念实例化方法有效
申请号: | 201910974114.9 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110874395B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 王振杰;王元斌;刘俊涛;张毅;王军伟;高子文 | 申请(专利权)人: | 中国船舶重工集团公司第七0九研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/211;G06F40/289;G06K9/62 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430000 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 相关性 抽象 概念 实例 方法 | ||
本发明公开了一种基于上下文相关性的抽象概念实例化方法,在上下文语境约束下将一个抽象概念映射为一个具体实例集合,包括:输入数据集、抽象概念及上下文语境描述;从数据集中抽取实例的并列关系集合,根据百科分类结构构建分类关系树;依据给定抽象概念获取高可信度的种子实例;以种子实例为核心,依据候选实例之间的类别相似性和关联相似性构建候选实例的相似网络;基于实例相似网络,利用带有偏好的随机游走算法计算候选实例属于抽象概念的概率;基于新闻语料库,利用文档模型计算约束语境与实例的相关性;输出实例化结果集。该发明可自动地计算在不同约束语境下抽象概念指代的实例集合,为实例搜索、推理等提供准确的概念指代集合。
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种基于上下文相关性的抽象概念实例化方法。
背景技术
在不同的语境中,概念往往指代不同的实例集合。在具体应用中,需要获取抽象概念所指代的实例集合。例如搜索引擎中,将用户输入的抽象概念转化为具体实例,能够反映用户意图,提高搜索效果。
目前,基于上下文相关性的抽象概念实例化方法中主要存在以下问题,(1)大多数方法采用百科开放分类标签作为候选实体选取的依据,但百科分类标签中存在错误和不完整的情况;(2)百科分类知识主要面向通用开放领域,在垂直行业中仍然存在大量实例缺失的情况,仅依赖百科知识难以获取给定概念下的完整候选实例集合。在实际工程应用中,上述的错误与不完整问题将传导到下游,导致下游任务的失败。因此,在标签错误和不完整及实例缺失的前提下实现基于上下文相关性的抽象概念实例化方法具有现实意义和工业实用价值。
发明内容
传统的抽象概念实例化方法假定所使用分类知识是完整且正确的。但在实际工程应用中,分类知识往往不能满足上述要求。为了解决上述技术问题,本发明实现了百科分类知识和非结构化文本中实例间的关联关系的综合利用,即通过文本中存在的大量并列关系以弥补分类知识的错误和不完整问题,以提高基于上下文抽象概念实例化的准确率和覆盖率。本发明要解决的技术问题是:利用百科标签集和新闻语料库,提供一种基于上下文语境的抽象实例化方法。
为了实现上述目的,本发明提供了一种基于上下文相关性的抽象概念实例化方法,包括步骤如下:
(1)输入数据集、抽象概念及上下文语境描述,所述数据集为包含多个实例的文本语料集合,所述抽象概念是传统逻辑用以指称现实中没有一个或一类具体事物与之相适应(即其外延不是一个或一类事物),而仅以依存于某个或某类事物的性质和事物与事物之间的关系为其反映对象的概念;上下文语境是指需借助于上下文和背景知识才能正确理解句子的描述;
(2)数据预处理:从所述数据集中抽取实例的并列关系集合,根据百科分类结构构建分类关系树;
(3)种子实例抽取:依据给定的抽象概念从输入数据集的文本语料中获取高可信度的种子实例;
(4)实例相似网络构建:以种子实例为核心,根据并列关系集合计算候选实例之间的类别相似权重,根据分类关系树计算候选实例和种子实例之间的关联相似权重,并依据候选实例之间的类别相似性和关联相似性构建候选实例相似网络;
(5)候选实例类别预测:基于实例相似网络,利用带有偏好的随机游走算法计算候选实例属于给定抽象概念的概率;
(6)实例相关性度量:基于获取的新闻语料库,利用文档模型计算约束语境与实例的相关性;
(7)输出实例化结果集:根据步骤(5)中候选实例属于抽象概念的概率以及步骤(6)中候选实例属于抽象概念的概率,计算抽象概念实例化概率,并根据所述抽象概念实例化概率输出实例化结果集。
所述步骤(2)中数据预处理,其过程如下:
(2-1)文本语料预处理:对输入数据集提取具有排比关系的实例(例如顿号、“和”、“与”分割的实例),构建实例的并列关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七0九研究所,未经中国船舶重工集团公司第七0九研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910974114.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牛仔风格面料的制作工艺
- 下一篇:结构化日志数据的加工方法和装置