[发明专利]基于大数据和深度学习的情感分析方法、装置和存储介质有效
申请号: | 201711249308.X | 申请日: | 2017-12-01 |
公开(公告)号: | CN107862087B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张家栋;杨学平;宁伟 | 申请(专利权)人: | 深圳爱数云科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/30;G06F40/289;G06F40/247;G06F40/253 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 刘冀 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 深度 学习 情感 分析 方法 装置 存储 介质 | ||
本申请公开了一种基于大数据和深度学习的情感分析方法、装置和存储介质,其中情感分析方法包括:对具有初步标注信息的情感数据进行预处理;采用启发式扩展方式对情感数据进行标注;启发式扩展方式包括:对情感数据进行分词,提取情感词,为其分配情感强度值;提取修饰词,为修饰词分配修饰强度值;计算短语的情感强度;如果短语的情感强度所对应的情感极性与情感数据的情感极性一致,则将短语和情感强度值加入情感标注数据集。通过对收集到的情感数据进行启发式扩展,可以为后续的数据处理提供良好的原始数据,提高后续数据分析的针对性和准确性,使情感词库更加准确和完善。
技术领域
本发明涉及计算机情感分析领域,具体而言,特别涉及一种情感分析方法、情感分析装置、存储介质、计算机设备和程序产品。
背景技术
随着互联网、特别是移动互联网的迅速发展,各种新应用不断产生,例如新闻门户网站、电子商务网站、社交网络等。在这些应用上,普通大众可以表达对事物的主观倾向性观点,例如对新闻事件的评论,以及对所购买商品的喜好。目前,由用户生成的带有情感倾向性的文本数据以指数增长。通过挖掘这些海量数据,获取用户情感信息,对电子商务、商业智能、民意调查、舆情分析、情报分析、企业管理等至关重要,也为管理者提供强有力的决策支持。例如,商家可以通过这些信息获取消费者意见,更好地理解消费者的喜好与消费习惯,设计生产出更有针对性的产品;政府机构可以通过分析热点事件的舆情,为指定方针政策提供依据;而普通消费者则可以依据其他人的观点汇总作为其购买行为以及消费决策的重要参考。
由于训练情感分析模型需要大量的标注了情感倾向性(或者情感极性)的文本数据。现有方法试图通过收集少量的情感词典并且赋予不同的情感强度,然后基于这些情感词的情感强度,计算整个文本的情感倾向性,即正面、负面、或者中立。这种方法严重依赖情感词库,并且情感词的情感强度依赖于所处自然语言的语境。
现有的情感词库中并没有考虑修饰词对情感词语的修饰作用,例如,副词、否定词等。但是一般情况下动态情感词语会对形容词等情感词产生很大程度限定作用,甚至影响情感词的词性,如果不加以考虑,容易造成情感强度偏差,从而影响情感数据集的数据标注的准确性,进而影响对文本评论的结果。因此,现有的情感分析模型的准确率往往比较低。
发明内容
本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。
鉴于此,本发明提供了一种情感分析方法,包括以下步骤:
S1对具有初步标注信息的情感数据进行预处理;
S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;
其中,S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤包括:
S21对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;
S22提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;
S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;
S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符,则将所述短语和所述短语的情感强度加入情感标注数据集。
优选地,其中,所述对具有初步标注信息的情感数据进行预处理的步骤包括:
S11收集具有初步标注信息的情感数据;
S12对所述情感数据进行去重处理;
S13将去重后的情感数据的初步标注信息映射成情感极性;
S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳爱数云科技有限公司,未经深圳爱数云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711249308.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置