[发明专利]一种基于多层注意力的通信领域过程类事件语义消岐方法在审
申请号: | 202210161844.9 | 申请日: | 2022-02-22 |
公开(公告)号: | CN114692643A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王颜颜;李飞;范文斌;周源;张雨晴;冯影;方烨锟 | 申请(专利权)人: | 科大国创云网科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥昊晟德专利代理事务所(普通合伙) 34153 | 代理人: | 何梓秋 |
地址: | 230000 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 注意力 通信 领域 过程 事件 语义 方法 | ||
本发明公开了一种基于多层注意力的通信领域过程类事件语义消岐方法,属于自然语言处理技术领域,包括:S1:事件属性分解;S2:特征表示;S3:事件表示聚合;S4:事件消岐。本发明将通信领域过程类事件按照不同属性分为文本、事件元素、触发词,对每一种属性进行基于词汇注意力的语义聚合,然后再通过属性级注意力将不同属性特征的语义实现汇聚,完成对事件的语义表征,最后通过两个事件的语义表征计算事件相似度,从而判断事件之间的关系标签,实现事件消岐;可以在小数据量下实现对文本语义的快速捕捉与微调,在通信领域过程类数据共指消岐实验中准确率较高。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多层注意力的通信领域过程类事件语义消岐方法。
背景技术
通信领域事件消岐任务是通过计算事件相似度获得事件之间的相似概率,从而判断两个事件是否相似,实现通信领域事件故障排查以及提供故障恢复方案,此外,对通信领域自动问答、知识图谱构建都具有重要意义。计算两段文本相似度简单的方法是将每一段文本看成是字符的集合,统计两段文本中相同词语的数量计算文本相似度,这种方法简单易于实现,但是只考虑了词汇本身的比较,忽略了词汇之间存在的语义相关性,比如同义词,而且计算准确率低下。
目前比较流行的方法是通过语料获取文本词汇之间的语义关系用于计算文本相似度,包括基于词袋的方法和基于神经网络的方法。基于词典的方法一定程度上考虑到了词汇的语义信息,但是存在数据稀疏,运算量大等问题,不适用于大量文本数据。词嵌入方法通过事件中文本词汇的组合合成事件语义,但是忽略了不同文本词汇对构建事件语义的重要性。为此,提出一种基于多层注意力的通信领域过程类事件语义消岐方法。
发明内容
本发明所要解决的技术问题在于:如何解决现有技术中存在的数据稀疏、运算量大、不适用于大量文本数据以及忽略了不同文本词汇对构建事件语义的重要性的问题,提供了一种基于多层注意力的通信领域过程类事件语义消岐方法;通过计算事件相似度实现通信领域过程类事件共指消岐,解决通信领域数据稀疏下的语义歧义问题,提升文本事件相似度检测准确率。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:事件属性分解
将每一个事件分为三类属性,包括事件文本、事件触发词、事件元素;
S2:特征表示
对事件文本和事件元素基于词汇注意力机制进行表示,事件触发词直接使用词嵌入表示;
S3:事件表示聚合
将事件的三个特征通过异质注意力机制进一步整合,获得事件表示向量;
S4:事件消岐
不同事件的表示向量点乘计算事件相似度,根据获取的相似性预测概率得到不同事件的关系标签,从而实现事件语义消歧。
更进一步地,在所述步骤S1中,事件文本是一段短文本序列,记为TexA;事件触发词包括触发类型、触发位置以及触发词汇,记为TriA;事件元素包括元素类型、元素位置以及元素名称,记为ArgA,其中下标A表示事件EventA。
更进一步地,在所述步骤S2中,事件文本通过第一多层注意力模型进行表示,第一多层注意力模型包括三层,分别为故障文本初始嵌入层、第一上下文语义表示层、第一基于注意力机制的文本信息聚合网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大国创云网科技有限公司,未经科大国创云网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210161844.9/2.html,转载请声明来源钻瓜专利网。