[发明专利]基于图卷积网络的社交网络文本情感细粒度分类方法有效

申请号：	201910728633.7	申请日：	2019-08-08
公开（公告）号：	CN110472003B	公开（公告）日：	2022-02-22
发明（设计）人：	张林峰;韩东红;赖裕妮;刘晓倩;王旭;赵帅	申请（专利权）人：	东北大学
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33;G06F16/35;G06Q50/00
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	李在川
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于图卷网络社交文本情感细粒度分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图卷积网络的社交网络文本情感细粒度分类方法，其特征在于：包括以下步骤：

步骤1：对给定的社交网络文本进行预处理，清除文本中不必要内容，对语句进行划分转化；

步骤1.1：给定社交网络文本，清除文本中所有与情感表达无关的内容；

步骤1.2：将步骤1.1的结果，采用分词工具实现汉语句子切分，将句子切成词；

步骤1.3：使用LTP Python获得每个社交网络文本的依赖解析树；

步骤1.4：将预处理后的每个社交网络文本标记为X＝{x₁,x₂,……,x_n}，其中的x_i∈R³⁰⁰是嵌入向量，代表一个单词；

步骤2：将BI-LSTM神经网络算法应用于进行预处理之后的社交网络文本词序列后，可以得到前向和后向矢量序列，将这两个向量连接起来得到单词序列的基本表示；

所述BI-LSTM神经网络算法的输出向量和依赖解析树将作为GCN网络的输入；

步骤3：建立GCN神经网络，在边集中增加自环和对边，根据步骤1生成的依赖解析树，为每个社交网络文本创建稀疏邻接矩阵；

步骤4：用基于百分位数的池化方法表示元素升序排序集合后的最低p％的值，将向量Z的第p个百分位数表示为一个函数f_p(Z)，其中p值的范围为0-100；

步骤5：使用正交化约束来控制梯度的消失和爆炸问题，在损失函数中添加一个正则化项，loss＝loss(y,f_w(x))+λ∑_i‖W_i^TW_i-I‖²,其中λ是惩罚系数，W_i是权重矩阵，I是单位矩阵，在LSTM和GCN神经网络中使用正交矩阵来初始化权值矩阵，在随机初始化的矩阵M上使用奇异值分解SVD，得到M＝USV^T，其中U和V是正交矩阵，S是对角谱矩阵，U或V用于初始化权重矩阵W_i，即W:＝U；

步骤6：通过softmax函数得到情感类型对应的概率，将待检测的数据集划分为训练集以及测试集，使用训练集对基于GCN的神经网络模型进行训练，并将测试集输入至训练完成的基于GCN的神经网络模型，得到输出结果，即得到文本的细粒度情感分类。

2.根据权利要求1所述的基于图卷积网络的社交网络文本情感细粒度分类方法，其特征在于：所述步骤3的具体步骤为：

步骤3.1：对于每个社交网络文本，建立一个图G＝(V，E)，其中V是由一个社交网络文本的所有单词组成的顶点集，E是包含两个单词之间所有依赖关系的边集；

步骤3.2：在边集中增加自环和对边，数字“0”、“1”、“2”、“3”分别用于标记无关系、自循环关系、从头到尾和从尾到头的依赖关系类型，根据步骤1生成的依赖解析树为每个社交网络文本创建稀疏邻接矩阵；

步骤3.3：GCN网络用h_v＝ReLU(∑_u∈N(v)W x_u+b),表示；其中，ReLU为线性整流函数，W是矩阵权重，b是偏置量，N(v)表示v的邻接词集，x_u＝L＝{l₁,l₂,…,l_n}，代表输入特征；如果邻接矩阵中的元素不是“0”，则将它们视为相邻。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910728633.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种文本相似度获取方法和装置
下一篇：一种科技情报数据多级缓存管理的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于图卷积网络的社交网络文本情感细粒度分类方法有效

专利文献下载