[发明专利]基于图卷积网络的社交网络文本情感细粒度分类方法有效

专利信息
申请号: 201910728633.7 申请日: 2019-08-08
公开(公告)号: CN110472003B 公开(公告)日: 2022-02-22
发明(设计)人: 张林峰;韩东红;赖裕妮;刘晓倩;王旭;赵帅 申请(专利权)人: 东北大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F16/35;G06Q50/00
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李在川
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 图卷 网络 社交 文本 情感 细粒度 分类 方法
【权利要求书】:

1.一种基于图卷积网络的社交网络文本情感细粒度分类方法,其特征在于:包括以下步骤:

步骤1:对给定的社交网络文本进行预处理,清除文本中不必要内容,对语句进行划分转化;

步骤1.1:给定社交网络文本,清除文本中所有与情感表达无关的内容;

步骤1.2:将步骤1.1的结果,采用分词工具实现汉语句子切分,将句子切成词;

步骤1.3:使用LTP Python获得每个社交网络文本的依赖解析树;

步骤1.4:将预处理后的每个社交网络文本标记为X={x1,x2,……,xn},其中的xi∈R300是嵌入向量,代表一个单词;

步骤2:将BI-LSTM神经网络算法应用于进行预处理之后的社交网络文本词序列后,可以得到前向和后向矢量序列,将这两个向量连接起来得到单词序列的基本表示;

所述BI-LSTM神经网络算法的输出向量和依赖解析树将作为GCN网络的输入;

步骤3:建立GCN神经网络,在边集中增加自环和对边,根据步骤1生成的依赖解析树,为每个社交网络文本创建稀疏邻接矩阵;

步骤4:用基于百分位数的池化方法表示元素升序排序集合后的最低p%的值,将向量Z的第p个百分位数表示为一个函数fp(Z),其中p值的范围为0-100;

步骤5:使用正交化约束来控制梯度的消失和爆炸问题,在损失函数中添加一个正则化项,loss=loss(y,fw(x))+λ∑i‖WiTWi-I‖2,其中λ是惩罚系数,Wi是权重矩阵,I是单位矩阵,在LSTM和GCN神经网络中使用正交矩阵来初始化权值矩阵,在随机初始化的矩阵M上使用奇异值分解SVD,得到M=USVT,其中U和V是正交矩阵,S是对角谱矩阵,U或V用于初始化权重矩阵Wi,即W:=U;

步骤6:通过softmax函数得到情感类型对应的概率,将待检测的数据集划分为训练集以及测试集,使用训练集对基于GCN的神经网络模型进行训练,并将测试集输入至训练完成的基于GCN的神经网络模型,得到输出结果,即得到文本的细粒度情感分类。

2.根据权利要求1所述的基于图卷积网络的社交网络文本情感细粒度分类方法,其特征在于:所述步骤3的具体步骤为:

步骤3.1:对于每个社交网络文本,建立一个图G=(V,E),其中V是由一个社交网络文本的所有单词组成的顶点集,E是包含两个单词之间所有依赖关系的边集;

步骤3.2:在边集中增加自环和对边,数字“0”、“1”、“2”、“3”分别用于标记无关系、自循环关系、从头到尾和从尾到头的依赖关系类型,根据步骤1生成的依赖解析树为每个社交网络文本创建稀疏邻接矩阵;

步骤3.3:GCN网络用hv=ReLU(∑u∈N(v)W xu+b),表示;其中,ReLU为线性整流函数,W是矩阵权重,b是偏置量,N(v)表示v的邻接词集,xu=L={l1,l2,…,ln},代表输入特征;如果邻接矩阵中的元素不是“0”,则将它们视为相邻。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910728633.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top