[发明专利]一种基于字的中文观点要素情感分析方法有效

申请号：	201811045651.7	申请日：	2018-09-07
公开（公告）号：	CN109145304B	公开（公告）日：	2022-09-06
发明（设计）人：	叶宏彪;潘嵘	申请（专利权）人：	中山大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/289
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于中文观点要素情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于字的中文观点要素情感分析方法，其特征在于，包括以下步骤：

S1.选取数据集；

S2.数据清洗和提取；

由于原始数据是以xml格式保存的，所以首先要去除掉每条数据包含的xml格式标签，然后提取评论文字、观点要素文字以及情感极性，每条数据按照{″content″，″target″，″label″}的格式保存在txt文件中；过后，将数据集划分为训练集和测试集，将数据总数的20％划为测试集，其余为训练集；

S3.字嵌入；

数据清洗和抽取过后，开始利用训练集训练模型；每一轮训练要读取训练集中的一条样本；首先将这条样本的content、target切分成一个个由字组成的序列，在由中文语料库构成的中文字典中查找每个字的one-hot向量，然后与字嵌入矩阵E相乘，得到了每个字的字向量；E∈R^V×D，V是字典的大小，D是字向量的维度，R是实数集，字嵌入矩阵E的初始值E₀可随机初始化；

S4.训练初始化的模型；

模型的搭建框架基于Tensorflow或者Keras；模型的参数的集合为Θ，该集合包括字嵌入矩阵E、双向LSTM网络的参数[W_f，W_i，W_o，W_c，U_f，U_i，U_o，U_c，b_f，b_i，b_o，b_c]，注意力机制层的参数[W_a，b_a]，非线性变化层的参数[W_l，b_l]；及损失函数J；

其中g_i表示真实的情感极性标签，y_i表示情感极性属于第i种情感的概率，C表示情感分类数量，θ表示Θ中的一个参数；

利用反向传播的方法来计算梯度和更新参数Θ：

其中λ_l是学习率；以上，除Θ中的参数是随机初始化并且需要更新的以外，λ_r，λ_l以及最大训练次数均由训练前人为设定；模型训练结束后，更新的Θ被保存，对模型的观点要素情感分析效果，在测试集中采用正确率来度量：

其中T表示正确预测了情感极性的样本数，M为总样本数；

S5.测试；

测试过程首先利用网络爬虫爬取论坛上的若干条评论，对数据进行清洗和预处理，过滤掉不带观点要素和情感的评论，获得待分析的论坛评论；提取出评论文字和观点要素文字，划分成由字组成的序列，对照中文字典查找每个字的one-hot向量，用字嵌入技术分别获得评论和观点要素的字向量序列，输入到已经训练好的观点要素情感分析模型中，输出对应观点要素的情感极性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811045651.7/1.html，转载请声明来源钻瓜专利网。

上一篇：命名实体识别方法、装置、介质以及设备
下一篇：一种信息提取方法、装置及服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于字的中文观点要素情感分析方法有效

专利文献下载