[发明专利]基于图卷积网络的社交网络文本情感细粒度分类方法有效
| 申请号: | 201910728633.7 | 申请日: | 2019-08-08 |
| 公开(公告)号: | CN110472003B | 公开(公告)日: | 2022-02-22 |
| 发明(设计)人: | 张林峰;韩东红;赖裕妮;刘晓倩;王旭;赵帅 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06Q50/00 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图卷 网络 社交 文本 情感 细粒度 分类 方法 | ||
1.一种基于图卷积网络的社交网络文本情感细粒度分类方法,其特征在于:包括以下步骤:
步骤1:对给定的社交网络文本进行预处理,清除文本中不必要内容,对语句进行划分转化;
步骤1.1:给定社交网络文本,清除文本中所有与情感表达无关的内容;
步骤1.2:将步骤1.1的结果,采用分词工具实现汉语句子切分,将句子切成词;
步骤1.3:使用LTP Python获得每个社交网络文本的依赖解析树;
步骤1.4:将预处理后的每个社交网络文本标记为X={x1,x2,……,xn},其中的xi∈R300是嵌入向量,代表一个单词;
步骤2:将BI-LSTM神经网络算法应用于进行预处理之后的社交网络文本词序列后,可以得到前向和后向矢量序列,将这两个向量连接起来得到单词序列的基本表示;
所述BI-LSTM神经网络算法的输出向量和依赖解析树将作为GCN网络的输入;
步骤3:建立GCN神经网络,在边集中增加自环和对边,根据步骤1生成的依赖解析树,为每个社交网络文本创建稀疏邻接矩阵;
步骤4:用基于百分位数的池化方法表示元素升序排序集合后的最低p%的值,将向量Z的第p个百分位数表示为一个函数fp(Z),其中p值的范围为0-100;
步骤5:使用正交化约束来控制梯度的消失和爆炸问题,在损失函数中添加一个正则化项,loss=loss(y,fw(x))+λ∑i‖WiTWi-I‖2,其中λ是惩罚系数,Wi是权重矩阵,I是单位矩阵,在LSTM和GCN神经网络中使用正交矩阵来初始化权值矩阵,在随机初始化的矩阵M上使用奇异值分解SVD,得到M=USVT,其中U和V是正交矩阵,S是对角谱矩阵,U或V用于初始化权重矩阵Wi,即W:=U;
步骤6:通过softmax函数得到情感类型对应的概率,将待检测的数据集划分为训练集以及测试集,使用训练集对基于GCN的神经网络模型进行训练,并将测试集输入至训练完成的基于GCN的神经网络模型,得到输出结果,即得到文本的细粒度情感分类。
2.根据权利要求1所述的基于图卷积网络的社交网络文本情感细粒度分类方法,其特征在于:所述步骤3的具体步骤为:
步骤3.1:对于每个社交网络文本,建立一个图G=(V,E),其中V是由一个社交网络文本的所有单词组成的顶点集,E是包含两个单词之间所有依赖关系的边集;
步骤3.2:在边集中增加自环和对边,数字“0”、“1”、“2”、“3”分别用于标记无关系、自循环关系、从头到尾和从尾到头的依赖关系类型,根据步骤1生成的依赖解析树为每个社交网络文本创建稀疏邻接矩阵;
步骤3.3:GCN网络用hv=ReLU(∑u∈N(v)W xu+b),表示;其中,ReLU为线性整流函数,W是矩阵权重,b是偏置量,N(v)表示v的邻接词集,xu=L={l1,l2,…,ln},代表输入特征;如果邻接矩阵中的元素不是“0”,则将它们视为相邻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910728633.7/1.html,转载请声明来源钻瓜专利网。





