[发明专利]一种事件抽取方法和装置在审

专利信息
申请号: 202010338139.2 申请日: 2020-04-26
公开(公告)号: CN111581346A 公开(公告)日: 2020-08-25
发明(设计)人: 徐猛 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/951;G06F40/211;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 王康;龙洪
地址: 200232 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 事件 抽取 方法 装置
【说明书】:

本申请实施例公开了一种事件抽取方法和装置,该方法包括:获得语句的向量化语义表示W1;通过条件随机场CRF对向量化语义表示W1进行论元识别,并根据向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;论元标记包括:一个或多个序列BIO标注;对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的触发词‑论元对;获取全部正确的触发词‑论元对,以实现事件的抽取。通过该实施例方案,获取了更加有用的信息,具有较强的实际应用价值;避免了因使用自然语言处理工具而导致的误差累积的问题;完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强通用性。

技术领域

本文涉及事件数据处理技术,尤指一种事件抽取方法和装置。

背景技术

互联网上每天都会产生大量的新闻数据,描述许多已经发生的事件。但由于事件种类繁多,无法快速而且准确地分辨事件的类型以及事件的各个因素,如时间、地点、参与人等信息。

对发生的公共事件或者特定行业内所发生的事件进行区分和主体识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策、降低风险,具有重要的实际应用价值和研究意义。

现有的识别方法:[1]基于图神经网络的模型;[2]基于深度学习、注意力机制、序列标注的模型等。

现有方法存在以下缺点:

1、现有方法有的只进行事件类型检测即事件触发词,并没有进行事件主体(或称实体)抽取,任务单一,不具备较强的实际应用价值。有的方法虽然进行了事件触发词识别和论元识别,但是依赖了人工事先标记好的实体,但是这在实际应用中并不存在。

2、现有进行事件检测的方法大都辅助使用已有的自然语言处理工具,但是在实际应用中并不能通过这些工具预先处理好。现有方法大都使用特定的自然语言处理工具如Jieba,ltp,standfordNLP等首先对句子进行分词,建立依存树,然后再将这些特征输入模型。缺点在于:首先处理繁琐,其次这些工具在处理的过程中本身具有一定的误差,因此在后续建模分析的过程中会存在误差累积的问题。

3、现有方法大都将触发词当做单个token来进行识别,这种方法对于英文这类语言还是比较适合的,因为英语中每个单词都有确定的意思。但是像中文这种语言则不同,每个字并不能表达很确切的意思,比如“小明在这场事故中不小心受了伤,很严重”这句话中,“受了伤”才能表达明确的意思,而其中的任何一个字:”受”、”了”、”伤”均不能表达该含义。

发明内容

本申请实施例提供了一种事件抽取方法和装置,能够获取更加有用的信息,具有较强的实际应用价值;在数据处理和建模的过程中操作简单,避免了因使用自然语言处理工具而导致的误差累积的问题;通过划分span的方式完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强的通用性。

本申请实施例提供了一种事件抽取方法,所述方法可以包括:

获得语句的向量化语义表示W1;

通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注;

对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对;

获取全部正确的(触发词-论元)对,以实现事件的抽取。

在本申请的示例性实施例中,所述获得语句的向量化语义表示W1可以包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010338139.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top