[发明专利]一种文本情感分析处理方法和系统在审
申请号: | 201710313628.0 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107247702A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 黄文明;杜梦豪;孙晓洁;卫万成 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立,周玉婷 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 情感 分析 处理 方法 系统 | ||
1.一种文本情感分析处理方法,适于在计算设备中执行,其特征在于,包括如下步骤:
步骤S1:根据分词工具将采集的文本进行分词处理,得到文本分词;
步骤S2:根据词向量工具将得到的文本分词进行词向量训练,得到文本分词的二进制文件,所述二进制文件中包括文本分词的词向量;
步骤S3:根据依存句法分析方法从所述二进制文件中提取情感特征词组,并从情感特征词组中获取句法特征信息,并根据情感词典获取所述情感特征词组的情感特征信息;
步骤S4:将所述句法特征信息和情感特征信息进行特征融合,得到含有句法及情感信息的文本特征;
步骤S5:将所述二进制文件中的词向量与所述情感特征信息进行融合,得到含有情感信息的词向量;
步骤S6:建立卷积神经网络,通过卷积神经网络对所述含有情感信息的词向量进行提取,得到含有情感信息的语义特征;
步骤S7:通过卷积神经网络将所述含有句法及情感信息的文本特征与所述含有情感信息的语义特征进行融合,从而得到文本的语法信息、语义信息、句法信息和情感信息。
2.根据权利要求1所述一种文本情感分析处理方法,其特征在于,所述步骤S1前还包括步骤:对采集的文本进行归一化处理,将文本中的非文本符号删除,得到归一化处理后的文本;所述非文本符号包括语言标识、字母、数字和非文本表情符号。
3.根据权利要求2所述一种文本情感分析处理方法,其特征在于,所述步骤S1具体包括:采用分词工具HanLP对归一化处理后的文本进行分词处理,再根据停用词词表在分词处理得到的文本中进行停用词删除处理,得到删除停用词的文本分词。
4.根据权利要求1所述一种文本情感分析处理方法,其特征在于,所述步骤S2具体为:根据Word2vec模型框架将得到的文本分词进行词向量训练,得到文本分词的二进制文件,所述二进制文件中包括文本分词的词向量。
5.根据权利要求4所述一种文本情感分析处理方法,其特征在于,所述Word2vec模型框架包括Skip-gram模型,
所述Skip-gram模型用于计算文本分词的词向量的条件概率,得到最大后验概率的文本分词,将最大后验概率的文本分词进行词向量训练,得到文本分词的二进制文件,所述二进制文件中包括文本分词的词向量。
6.根据权利要求4所述一种文本情感分析处理方法,其特征在于,所述步骤S4具体包括:根据SOAD算法计算情感特征信息的情感值,将所述句法特征信息的向量词与所述情感值进行融合,得到含有句法及情感信息的文本特征。
7.根据权利要求1所述一种文本情感分析处理方法,其特征在于,所述步骤S6具体为:建立CNN卷积神经网络,所述CNN卷积神经网络包括输入层、卷积层和池化层,
所述输入层,用于将所述含有情感信息的词向量输入CNN卷积神经网络中;
所述卷积层,用于将输入的所述含有情感信息的词向量进行卷积处理,得到含有情感信息的语义特征;
所述池化层,用于获取所述含有情感信息的语义特征的特征值,对所述特征值进行降采样,得到具有相同维度的所述含有情感信息的语义特征。
8.根据权利要求7所述一种文本情感分析处理方法,其特征在于,所述步骤S7具体为:所述CNN卷积神经网络还包括全连接层,
所述全连接层,用于将所述含有句法及情感信息的文本特征与所述含有情感信息的语义特征进行全连接,得到文本的语法信息、语义信息、句法信息和情感信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710313628.0/1.html,转载请声明来源钻瓜专利网。