[发明专利]事件语句处理方法、装置、计算机设备和可读存储介质有效
申请号: | 201910948382.3 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110674303B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 徐猛;付骁弈 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 孔默 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 语句 处理 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明实施例提供了一种事件语句处理方法、装置、计算机设备和可读存储介质,涉及数据处理技术领域。首先对事件语句中的每个单词进行映射,得到事件语句对应的向量化语句,对向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,得到深层向量化语句,再将深层向量化语句与向量化语句进行拼接,得到拼接后的语句向量,对语句向量进行编码,得到事件语句的编码特征,并利用训练得到的事件检测模型,对事件语句的编码特征进行解码,得到事件语句的事件主体,同时对事件语句的编码特征进行事件类型的检测,得到事件语句的事件类型,进而实现了同时对事件语句事件类型的检测以及对事件语句事件主体的抽取。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种事件语句处理方法、装置、计算机设备和可读存储介质。
背景技术
互联网上每天都会产生大量的数据,描述许多已经发生的事件。对发生的公共事件或者特定行业内所发生的事件进行区分和主体识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策,降低风险,具有重要的实际应用价值和研究意义。目前,现有大多的方法都只进行事件类型的检测,并没有进行事件主体抽取,任务单一,不具备较强的实际应用价值。
发明内容
基于上述研究,本发明提供了一种事件语句处理方法、装置、计算机设备和可读存储介质。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种事件语句处理方法,包括:
对事件语句中的每个单词进行映射,得到所述事件语句对应的向量化语句;
对所述向量化语句进行线性变换,并将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句;
将所述深层向量化语句与所述向量化语句进行拼接,得到拼接后的语句向量;
对所述语句向量进行编码,以得到所述事件语句的编码特征;
利用训练得到的事件检测模型,对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体,并对所述事件语句的编码特征进行事件类型的检测,得到所述事件语句的事件类型。
在可选的实施方式中,所述将线性变换后的向量化语句映射到多个语义空间进行处理,以得到深层向量化语句的步骤包括:
使用多头自注意力机制,将线性变换后的向量化语句复制到多个语义空间;
针对于每个所述语义空间,在该语义空间中,随机初始化得到一目标向量化语句,将该语义空间中的线性变换后的向量化语句与所述目标向量化语句进行第一矩阵运算,得到第一语义矩阵;
将所述第一语义矩阵与该语义空间中的线性变换后的向量化语句进行第二矩阵运算,得到第二语义矩阵;
将每个所述语义空间的第二语义矩阵进行拼接,得到所述深层向量化语句。
在可选的实施方式中,所述对所述语句向量进行编码,以得到所述事件语句的编码特征的步骤包括:
根据双向长短期记忆网络对所述语句向量进行编码,得到第一方向和第二方向的输出;
将所述第一方向和第二方向的输出进行拼接,得到所述事件语句的编码特征。
在可选的实施方式中,所述事件检测模型包括单向长短期记忆网络;
所述对所述事件语句的编码特征进行解码,得到所述事件语句的事件主体的步骤包括:
利用所述单向长短期记忆网络对所述事件语句的编码特征进行解码,得到所述事件语句中每一个单词属于事件主体的概率;
根据所述事件语句中每一个单词属于事件主体的概率,得到所述事件语句的事件主体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910948382.3/2.html,转载请声明来源钻瓜专利网。