[发明专利]基于大数据和深度学习的情感分析方法、装置和存储介质有效
申请号: | 201711249308.X | 申请日: | 2017-12-01 |
公开(公告)号: | CN107862087B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张家栋;杨学平;宁伟 | 申请(专利权)人: | 深圳爱数云科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/30;G06F40/289;G06F40/247;G06F40/253 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 刘冀 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 深度 学习 情感 分析 方法 装置 存储 介质 | ||
1.一种情感分析方法,其特征在于,包括以下步骤:
S1对具有初步标注信息的情感数据进行预处理;
S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;
其中,S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤包括:
S21对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;
S22提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;
S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;
S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符,则将所述短语和所述短语的情感强度加入情感标注数据集;
对新词的辨识和判断采取下列步骤:
(a)通过对情感数据的文本信息进行分词后,对词语的词频阈值、是否在通用情感词库中、该词语的内部耦合度阈值分别进行判断,若这三个指标均满足设定新词的成词阈值,则认为该词语是新词;
(b)对得到的新词进行去噪处理;
(c)为去噪处理后的新词设立情感强度值,将新词、以及新词的情感强度值和/或新词所在的情感数据的极性加入情感标注数据集;
对表情符号的辨识和判断采取下列步骤:
(a)在文本信息中识别表情符号;
(b)根据表情符号和情感词的映射关系得到与该表情符号对应的情感词;
(c)根据该情感词的情感强度值确定表情符号的情感强度值;
(d)将所述表情符号和所述表情符号的情感强度加入情感标注数据集。
2.根据权利要求1所述的一种情感分析方法,其中,所述对具有初步标注信息的情感数据进行预处理的步骤包括:
S11收集具有初步标注信息的情感数据;
S12对所述情感数据进行去重处理;
S13将去重后的情感数据的初步标注信息映射成情感极性;
S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。
3.根据权利要求1所述的一种情感分析方法,在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致,则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括:
S25如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性不一致,则对所述短语的情感强度值进行校正后,再将所述短语和所述短语的情感强度值加入情感标注数据集。
4.根据权利要求1至3的任一项所述的一种情感分析方法,在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤后还包括:
S3利用所述情感标注数据集对所述情感数据的文本信息进行分析,学习词语义;
S4利用深度学习模型分析情感数据的文本信息的语言结构,学习语法关系;
S5利用不同粒度的情感数据对情感分析模型进行训练,得到统一的情感分析模型。
5.根据权利要求4所述的一种情感分析方法,其中,所述S3利用情感标注数据集对所述情感数据的文本信息进行分析,学习词语义包括:
S31根据句子中前面的词语的情感强度估计下个词语出现的概率,从而计算所述下个词语的浮点向量;
S32利用词语的浮点向量计算不同词语之间的相似度或者词语距离,从而对不同词语进行区分。
6.根据权利要求4所述的一种情感分析方法,所述S5利用不同粒度的情感数据对情感分析模型进行训练,得到统一的情感分析模型的步骤包括:
S51将不同粒度的情感数据作为训练数据交替输入所述情感分析模型,优化所述情感分析模型的参数;
S52如果所述情感分析模型对某种粒度的情感数据的情感极性预测准确率低,则动态增加该粒度的情感数据作为训练数据输入所述情感分析模型;
S53如果所述情感分析模型对各种粒度的情感数据的预测准确率高于阈值,训练终止,得到统一的情感分析模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱数云科技有限公司,未经深圳爱数云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711249308.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置