[发明专利]基于图卷积网络的文本情感分析方法、系统和电子装置在审
| 申请号: | 202010856600.3 | 申请日: | 2020-08-24 |
| 公开(公告)号: | CN112035661A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 邹月娴;蒲璐汶 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/04 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 518055 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图卷 网络 文本 情感 分析 方法 系统 电子 装置 | ||
1.一种基于图卷积网络的文本情感分析方法,其特征在于,包括:
对输入的文本序列进行分词;
按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;
提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合,获得每个词嵌入的上下文语义特征;
根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;
以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点位置的依存向量;
将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。
2.根据权利要求1所述的方法,其特征在于,所述按照所述文本序列顺序将每个所述分词转化为对应的词嵌入,包括:
按照所述文本序列顺序将每个所述分词中离散的高频词转为低维连续向量,将所述每个分词中离散的低频词转为特殊符号对应的低维连续向量,所述低维连续向量为每个所述分词对应的词嵌入;词嵌入层使用Glove向量进行初始化,维度为300。
3.根据权利要求1所述的方法,其特征在于,所述提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合,获得每个词嵌入的上下文语义特征,包括:
将每个所述词嵌入顺序输入双向LSTM网络;
其中,所述双向LSTM网络中的正向LSTM网络提取每个词嵌入正向的语义特征;
所述双向LSTM网络中的反向LSTM网络提取每个词嵌入反方向的语义特征;
将相同位置上的所述每个词嵌入的正向语义特征和反向语义特征组合,输出每个所述词嵌入的上下文语义特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树,包括:
根据每个所述词嵌入的上下文语义特征,通过多层感知机逐个计算任意两个词嵌入之间的语义关系值,得到连接矩阵;
以每个所述词嵌入为节点,根据所述连接矩阵的每一个语义关系值解析两个节点之间的关系,确定在依存句法树中对应的两个节点之间是否连线,根据连线连接所有节点,得到所述文本序列的依存句法树。
5.根据权利要求1所述的方法,其特征在于,以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点位置的依存向量,包括:
以所述依存句法树为图输入一个图卷积网络,所述图卷积网络以所述每个词嵌入的上下文语义特征作为所述依存句法树每个节点初始状态,以所述依存句法树中的ROOT节点为结束标识,对所述依存句法树进行图卷积运算,输出所述依存句法树ROOT节点位置的依存向量。
6.根据权利要求1-5之一所述的方法,其特征在于,所述方法还包括训练步骤:
将训练集的文本序列进行分词,将各个分词结果序列与其句子整体对应的情感极性类别配对,组成文本序列,情感极性类别对的形式;
以训练集的文本序列为输入,以对应的情感极性类别为输出,使用分类的交叉熵作为损失函数,优化器使用Adam,进行整体训练,获得训练好的基于图卷积网络的文本情感分析模型。
7.根据权利要求6所述的方法,其特征在于,在所述进行整体训练之前还包括:
对图卷积网络单独进行训练,获得训练好的图卷积网络;
使用Glove向量来初始化词嵌入层,所述嵌入层维度为300。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010856600.3/1.html,转载请声明来源钻瓜专利网。





