[发明专利]一种基于多层次图池化的文本情感分析方法有效
申请号: | 202110689751.9 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113254648B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 黄斐然;贝元琛;刘冠 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 图池化 文本 情感 分析 方法 | ||
1.一种基于多层次图池化的文本情感分析方法,其特征在于,包括下述步骤:
对目标文本进行预处理,所述预处理包括:去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示;
文本建图:设定固定长度的滑动窗口在文本词序列上滑动,计算词节点与词节点之间的共现点互信息,将词节点之间的共现点互信息作为词节点之间的边权,在两词之间进行连边,为每个文本单独建图;
建立多层次图池化模型,所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层;
所述门控图神经网络层与第一图自注意力池化层连接,所述第一图自注意力池化层与图卷积层连接,所述图卷积层与第二图自注意力池化层连接;
所述门控图神经网络层传递低阶的节点信息;
所述门控图神经网络层传递低阶的节点信息,具体步骤包括:
所述门控图神经网络层设有重置门和更新门,所述重置门在一次信息传递中的计算公式为:
其中,为当前的中心节点特征向量,为中心节点的各个邻居节点的特征向量,为经过重置门后的特征信息,
所述更新门在一次信息传递中的计算公式为:
其中,为当前的中心节点经过以上重置门和更新门的节点信息传递和聚合后得到的特征向量,和为可训练权重矩阵;
每一次参数更新时,每个节点接收相邻节点的信息,又向相邻节点发送信息,基于GRU在文本序列中的信息传递实现信息在文本图中的传递,输出更新后的文本图向量表示;
所述第一图自注意力池化层进行初步图池化操作,采用Readout函数提取低阶特征;所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算;所述第二图自注意力池化层再进行图池化操作,通过计算图中各节点的注意力分数对图结构进行剪枝更新,采用Readout函数提取文本图的高阶特征表示;
特征融合:对得到的各层次文本图向量表示,通过特征融合函数得到多层次的最终向量表示;
情感类别输出:将多层次的最终向量表示作为输入,经过线性全连接层和softmax分类层得到情感类别概率分布,选取最大概率值所对应的情感类别作为文本最终的情感类别输出。
2.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述去除噪声信息采用正则表达式过滤噪声信息;
所述分词处理的具体步骤包括:对噪声信息去除后的文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表;
所述去除停用词的具体步骤包括:对分词后对应的词列表,通过停用词表进行停用词处理,得到停用词去除后的词列表;
所述训练数值向量化的文本表示的具体步骤包括:采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量,在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。
3.根据权利要求1所述的基于多层次图池化的文本情感分析方法,其特征在于,所述计算词节点与词节点之间的共现点互信息,具体计算公式为:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110689751.9/1.html,转载请声明来源钻瓜专利网。