[发明专利]新闻数据的事件关联图谱构建方法及装置有效
申请号: | 202110354241.6 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113282703B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 张正义;傅晓航 | 申请(专利权)人: | 中科雨辰科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 北京律和信知识产权代理事务所(普通合伙) 11446 | 代理人: | 武玉琴;谢清萍 |
地址: | 100093 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 数据 事件 关联 图谱 构建 方法 装置 | ||
本申请提供一种新闻数据的事件关联图谱构建方法包括:从新闻数据中抽取候选元事件及其事件类型和事件要素;根据所述候选元事件的事件类型和事件要素,基于实体知识图谱中的实体链指对所述候选元事件进行事件共指;基于共现关系抽取所述共指事件之间的关联关系;根据所述共指事件及其之间的关联关系进行事件融合从而构建事件关联图谱。在事件共指中融合了实体知识图谱中的实体链指相似度计算和地点相似度计算,从而提高事件共指中相似度计算的精确率。
技术领域
本申请涉及计算机技术领域,具体地涉及一种新闻数据的事件关联图谱构建方法、事件关联图谱构建装置、电子设备及计算机存储介质。
背景技术
事件关联图谱构建技术是一类实现从粗糙的非结构数据到批量生成结构化事件数据的技术,相关的研究和实际应用经过了从零散信息的人工整合到大规模数据的自动萃取集成的发展过程。
从粒度的角度划分,事件关联图谱中的事件可以分为元事件和主题事件。其中,元事件通常是句子级的,表示一个动作的发生或一个状态的变化。主题事件是由元事件融合构成的,表示一类核心事件或活动及与之相关的一组事件,并存储于事件库中。
如图1所示,事件关联图谱的构建过程大致可以划分为以下步骤:元事件抽取、元事件关联和事件融合。其中,元事件抽取是指从异源的新闻数据中抽取出关注的候选元事件,并将其转换为结构化的事件数据;元事件关联旨在发掘抽取出的候选事件之间的关系,降低事件数据的冗余度,提高准确率等;事件融合是从元事件获取主题事件的过程。
元事件关联又包括元事件共指和元事件关系抽取两部分。通过进行元事件关联可以实现从候选元事件层到元事件层的过程。事件共指是事件关联图谱构建过程中的一个重要环节。其目标在于,将抽取的候选事件中,实际描述的是同一事件的所有候选事件指向这一个事件。通过事件共指,一方面可以将去除大量的冗余事件,使具有关联关系的事件库(即事件知识图谱)更加简洁清晰,同时避免在后续的事件关联过程中,出现某一事件与自身关联的错误;另一方面,可以通过整合多个候选事件中的要素,利用一个候选事件中的要素对另一个候选事件进行补充,从而形成更加完整的事件。
事件共指的关键在于计算事件中实体内容之间的相似度。两个候选事件中实体的相似度越高,则这两个候选事件就越有可能是共指事件。目前,事件中实体内容的相似度计算通常仅考虑实体内容在字面上的相似度,即实体描述之间的编辑距离相似度。由于,相似度计算中考虑的因素较为单一,导致了相似度计算结果误差较大,从而出现错误的事件共指结果,继而影响整个事件库的建立。
事件关系抽取是在提取出的候选元事件集中,挖掘几个候选元事件之间存在的关联关系,例如顺承、并列、因果等关系,如图2所示。目前,事件关系抽取的方法主要有两类:基于共享要素的事件关联和基于事件序列的事件关联。其中,在基于共享要素的关联方法中,如果两个元事件中包含了诸多相同的事件要素,则认为这两个元事件是相关联的。这种方法通常选定一个范围的时间窗,选取这个特定时间窗口的所有元数据,以共享实体要素或关系要素为关联纽带,实现元事件之间的关联。在基于事件序列的事件关联中,将具有逻辑关联的事件按照时间序列进行串联,从而可以反映事件的演化过程,通过因果推断的方式判断序列中的事件之间的特定关联关系。
现有的事件关系抽取方法存在诸多弊端。例如,基于事件要素的关系抽取以事件中的实体作为纽带,实现事件之间的关联。这种方式对要素的重合度要求较高。当两个元事件中的要素之间不存在重合时,这两个元事件就会被认为无关,从而造成一定程度上的遗漏。基于事件序列的关系抽取可以有效地抽取出顺承、并列、因果等逻辑关系,但是难以发现新的其他类型的关系。
发明内容
基于此,为了解决现有事件共指过程中,相似度计算考虑的因素较为单一,从而导致的相似度计算结果误差大的问题,本申请提供了一种新闻数据的事件关联图谱构建方法。
根据本申请的第一方面,提供一种新闻数据的事件关联图谱构建方法,包括:
从新闻数据中抽取候选元事件及其事件类型和事件要素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科雨辰科技有限公司,未经中科雨辰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110354241.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置