[发明专利]一种长文本事件抽取方法、装置、计算机设备及存储介质有效
申请号: | 202111065602.1 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113535963B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 谢翀;罗伟杰;陈永红;黄开梅 | 申请(专利权)人: | 深圳前海环融联易信息科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/289;G06N3/04 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 事件 抽取 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种长文本事件抽取方法、装置、计算机设备及存储介质,该方法包括:获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;利用深度学习模型分类预测所述截断文本对应的多个事件类型;结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。本发明通过对长文本进行事件分类、事件角色抽取以及事件组合,提高了对于长文本的事件抽取效率和抽取精度。
技术领域
本发明涉及计算机技术领域,特别涉及一种长文本事件抽取方法、装置、计算机设备及存储介质。
背景技术
当前,各大新闻媒体、公众号、推文博主等每天都会产生大量的资讯信息,包括但不限于新闻报道,评论预测,分析解读等。这些文本往往篇幅很长,同时内容复杂,观点不一,而服务公司往往需要监控这些文本信息以及时获得行业动态和事件信息等。传统的事件抽取方法主要需要通过领域专家的规范制定以及大量的人工筛选校验,这种方法工作量大,效率和准确性都较低,因此本发明基于深度学习技术,能够实现全自动化的事件抽取,大幅提升效率,并且在准确性上超过人工校验。
目前已有的长文本的事件抽取方法对于事件的定义一般较为简单。如一些金融类的舆情分析平台主要针对金融文本进行主要事件角色抽取,通过关键词等形式进行展示,同时会对整篇文本的情感倾向进行评估,这一类平台主要应用了简单的事件分类及NER(Named Entity Recognition,即命名实体识别技术)对长文本进行事件抽取。事件分类技术是对原始文本打上分类标签,同一篇文本有可能存在多个标签;命名实体识别技术是对原始文本中可能存在的一些关键词信息进行识别抽取,例如公司、时间等。
第二种较为相似的方法是针对较短文本的关系抽取。主要针对的是文章标题、概要、总结等,同时更关注于文本中的主体、客体及它们之间的关系。这类方法主要应用了关系抽取的技术,在大方向上有两种实现方式,第一种使用命名实体技术将文本中的主体识别出来,再通过其他模型将客体及它们之间的关系进行联合抽取;第二种使用命名实体技术同时将文本中的主体和客体抽取出来,如果存在多个主体或客体,需要通过二分类模型将不同的主体客体进行配对分组。
针对上述提到的第一种现有方法,首先是现有现有方法的事件抽取的信息较少,如在“公式上市”类型的长文本中,已有方法主要关注具体的上市公司和时间即可,其余像“融资规模”,“上市市值”,“融资轮数”等重要信息并未被抽取或展示。其次现有方法仅在情感分类层面给予用户提醒,在重要性,时效性,权威性等方面并没有相关提示。
针对上述提到的第二种关系抽取方法,仅仅抽取主体、客体及关联关系也是较为简单的。其次方法的应用面较窄,由于抽取信息简单的限制,这种方法一般只用于短文本的信息抽取,这大大影响了落地的应用范围。同时,关系抽取方法要求主体客体必须同时存在,现实中的文本经常缺失主体或者客体,如“A公司上市”,就只有主体“A公司”,并不存在相应的客体,无法应用此方法,因此第二种关系抽取方法有很大的局限性。
发明内容
本发明实施例提供了一种长文本事件抽取方法、装置、计算机设备及存储介质,旨在提高对于长文本的事件抽取效率和精度。
第一方面,本发明实施例提供了一种长文本事件抽取方法,包括:
获取待抽取事件的长文本中的触发词,并根据所述触发词对长文本进行文本截断,得到截断文本;
利用深度学习模型分类预测所述截断文本对应的多个事件类型;
结合机器阅读理解技术和指针网络模型,对每一所述事件类型抽取对应的事件角色信息;
基于序列生成算法,将所有的所述事件角色信息组合为一目标事件,并将所述目标事件作为事件抽取结果输出。
第二方面,本发明实施例提供了一种长文本事件抽取装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111065602.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于杠杆结构的面内敏感轴微机械陀螺
- 下一篇:一种C型钢裁剪处检测处理仪