[发明专利]实体关系抽取的方法及装置有效

专利信息
申请号: 201610997671.9 申请日: 2016-11-11
公开(公告)号: CN106844413B 公开(公告)日: 2020-12-08
发明(设计)人: 吴刚 申请(专利权)人: 南京柯基数据科技有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/28;G06F40/295
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 臧静
地址: 211100 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 关系 抽取 方法 装置
【权利要求书】:

1.一种实体关系抽取的方法,包括:

确定给定文本的目标实体关系词,所述给定文本包括与预定实体相关的信息,所述目标实体关系词表示除所述预定实体之外的实体与所述预定实体之间为目标实体关系的词;

识别所述给定文本中的除所述预定实体之外的实体,并存储形成实体库;

基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量,所述预定特征包括如下特征中的至少一者:各个实体所在句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征;

所述各个实体与各个实体所在句子中的各词之间的关系特征包括如下特征中的至少一者:各个实体与各个实体所在句子中其他词的位置关系、所述目标实体关系词在句子中的位置、各个实体在句子中的位置;

从所述特征向量中筛选出目标特征向量,所述目标特征向量指示了所述目标特征向量对应的实体所在的句子记录了所述目标特征向量对应的实体与预设实体之间存在所述目标实体关系;

抽取与所述目标特征向量对应的实体;

在所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量之前,还包括:

基于所述目标实体关系词生成触发词词库,所述触发词词库包括所述目标实体关系词以及所述目标实体关系词的近义词和/或同义词;

其中,所述抽取与所述目标特征向量对应的实体,包括:

在所述目标特征向量对应的实体所在句子中对所述目标特征向量对应的实体进行标记;

从所述给定文本中抽取包括所述标记的句子,构成待抽取文本;

抽取所述待抽取文本中被标记的实体;

所述抽取所述待抽取文本中被标记的实体,包括:

提取所述待抽取文本中每个句子对应的目标文本模式,所述目标文本模式包括所述每个句子中包括的所述触发词词库中的词、所述每个句子中被标记的实体以及所述每个句子中被标记的实体与所述每个句子中的预定实体指代词之间的连接词在所述每个句子中的排列顺序形成的文本模式,所述预设实体指代词表示在句子中含义指代所述预设实体的词;

将所述待抽取文本中每个句子的文本模式与规则库中预设文本模式进行匹配,所述预设文本模式包括所述触发词词库中的词、所述实体库中实体以及所述实体库中实体与所述预定实体指代词之间的连接词以预定语序排列形成的文本模式;

当所述目标文本模式中存在与所述预设文本模式匹配的文本模式时,抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体;

在所述抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体之前,还包括:

当所述目标文本模式中存在不与所述预设文本模式匹配的文本模式时,判断所述目标文本模式与所述预设文本模式的匹配度是否达到预设值;

当所述匹配度未达到所述预设值时,根据预设条件判断是否需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式;

当需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式时,提取所述目标文本模式中不与所述预设文本模式匹配的至少一个文本模式,作为新文本模式;

将所述新文本模式添加至所述规则库中形成新规则库;

将所述目标文本模式与所述新规则库中文本模式进行匹配;

当所述目标文本模式与所述新规则库中文本模式的匹配度达到所述预设值时,抽取所述目标文本模式中与所述新规则库中文本模式匹配的文本模式对应的句子中被标记的实体。

2.根据权利要求1所述的方法,所述各个实体与各个实体所在句子中的各词之间的关系特征包括:所述各个实体与所述各个实体所在句子中包括的触发词之间的关系特征,所述触发词为所述触发词词库中的词。

3.根据权利要求1所述的方法,所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量之前,还包括:

利用所述实体库及所述触发词词库过滤所述给定文本,形成包含所述触发词词库中的触发词和所述实体库中的实体的句子构成的候选文本;

所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量包括:

基于所述预定特征根据所述候选文本中的句子来构建所述候选文本中的句子中的实体的特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柯基数据科技有限公司,未经南京柯基数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610997671.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top