[发明专利]基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质在审
申请号: | 202111528511.7 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114239566A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 王志宏;杨莹;王永剑 | 申请(专利权)人: | 公安部第三研究所 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 增强 实现 中文 事件 精准 检测 方法 装置 处理器 及其 计算机 可读 存储 介质 | ||
本发明涉及一种基于信息增强实现两步中文事件精准检测的方法,其中,该方法包括:输入包含中文的事件句和事件句文档进行分词处理;对事件句中的每一个字符进行多粒度事件信息混合表示的处理;将每一个字符的最终表征用于构建残差型门限空洞卷积网络;采用首尾双指针的标注策略对所有中文事件中的触发词进行识别处理;利用所述的事件句和事件句文档构建包含实体‑主体‑候选触发词的交互图模型;使用Softmax层预测事件触发词的事件类别分布特征,并通过概率分布计算出各个触发词所属的事件类别。本发明还涉及一种相应的装置、处理器及其存储介质。采用了本发明的该基于信息增强实现两步中文事件精准检测的方法,显著地提高了事件触发词分类的准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及事件抽取和检测技术领域,具体是指一种 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质。
背景技术
事件抽取是信息抽取领域非常重要的研究任务之一。事件抽取的目标是从自然语言文本 中将事件信息以结构化的形式呈现出来。事件抽取作为事件挖掘领域的关键技术,在事件检 索、自动问答、事件追踪等方面均有广泛应用。事件抽取又分为事件检测和事件论元抽取两 个环节。事件检测是指从文本中发现事件并识别事件的类别,事件论元抽取是指对确定事件 类型的事件构成要素进行抽取。本发明重点关注中文事件抽取中的事件检测子任务。
事件检测任务包括触发词识别和触发词分类两个阶段任务。传统事件检测会采用一个统 一的模型一次性处理两个阶段任务,将模型输入的事件表示一次性用到了两个子过程中,同 时在一定程度上也减少了错误传递,也取得了较好的事件检测效果。但是对于事件检测的两 个阶段任务来说,所需要的上下文等语义信息存在一定的差异性,且两个阶段任务的目标也 存在一定的差异性。具体来说:
对于中文事件触发词识别来说,其主要目标是从事件句中识别出(标注出)合适的候选 词语,然后根据上下文信息判断是否为触发词即可。本阶段所需要的语义信息相对较少,甚 至仅标注事件句中的核心动词或名词作为事件触发词也能获得较好的识别准确率。也就是说, 事件触发词识别阶段的重点是能够利用一定的语义信息标注出适当的词语作为候选触发词。 由于中文存在分词错误等,中文事件触发词存在完全匹配型触发词(Exact)、部分词型触发 词(Part)和跨词型触发词(Cross)等多种类型,使得中文事件检测面临着触发词不匹配的 问题。在之前的研究中,研究者们一般采用BIO或BIOES的标注策略来解决中文事件触发词 不匹配的问题,识别效果依然不理想。
对于中文事件触发词分类任务来说,需要将触发词识别阶段中识别出的候选触发词分类 到正确的事件类型。因此,事件触发词分类阶段的重点是能够寻找到丰富的事件句表征以及 候选触发词的表征以实现触发词事件类型的正确分类。事件触发词分类任务面临着诸多问题, 其中触发词的歧义问题和多触发词问题最具挑战。在之前的事件检测研究中,研究者们常在 联合模型中采用丰富的上下文信息表示(字符表示、词表示、位置表示等)和事件句结构图 表示(句法结构图、依存图、字词图等)来提高模型的表征能力。然而这对于事件触发词歧 义区分和多触发词处理的能力仍然是有限的。这是因为之前的事件检测任务是一次性完成触 发词识别和触发词分类,在构建事件句的上下文信息或结构图信息的时候,仅能考虑事件句 中的所有词语间的关联,触发词识别过程中的很多中间信息不能利用,例如:候选触发词之 间的关联、候选触发词与事件关键信息之间的关联、候选触发词与事件主题的关联等。这些 过程信息对于解决中文事件触发词歧义以及事件多触发词等问题大有裨益。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够针对性的利用有效且合理 的事件信息以解决事件检测中的触发词不匹配、多触发词和触发词歧义的问题的基于信息增 强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于信息增强实现两步中文事件精准检测的方法、装置、 处理器及其计算机可读存储介质如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111528511.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种一次性快速支气管镜用活检钳
- 下一篇:一种元数据管理方法、装置及电子设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置