[发明专利]基于attention CNNs和CCR的文本情感分析方法有效
申请号: | 201710271861.7 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107092596B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 张祖凡;邹阳;甘臣权 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 attention cnns ccr 文本 情感 分析 方法 | ||
本发明公开了基于attention CNNs和CCR的文本情感分析方法,属于自然语言处理领域。该方法包括以下步骤:1、利用原始文本数据训练语义词向量和情感词向量并利用搜集的情感词典进行词典词向量构建;2、利用长短时记忆网络LSTM捕获单词的上下文语义用于歧义消除;3、利用卷积神经网络(结合不同滤波长度的卷积核提取文本的局部特征;4、再利用三种不同的注意力机制分别提取全局特征;5、对原始文本数据进行人工特征提取;6、利用局部特征,全局特征以及人工特征对多模一致回归目标函数进行训练;7、利用多模一致回归预测方法进行情感极性预测。本发明相对于采用单一词向量或仅提取文本局部特征等方法,能够进一步提高情感分类精度。
技术领域
本发明是一种对文本情感进行分析的方法,属于自然语言处理领域。
背景技术
随着推特(Twitter)、脸书(Facebook)、微博(Weibo)等社交平台和亚马逊(Amazon)、淘宝(Taobao)等电子商务平台的兴起,网络上评论性文本资源与日俱増。面对来自微博、论坛的大量非结构化的评论文本,迫切需要通过自然语言处理技术对文本中表达的情感倾向进行分析判断。例如,从评论中识别出商品属性的情感信息,可为商家和其他用户提供决策支持;在舆情监控中,政府可及时了解民众对突发事件、社会现象的态度,引导舆论趋势。传统情感分析绝大多数都是采用传统NLP特征与机器学习相结合的方式来构建模型。但传统NLP特征的设计往往需要专家的领域知识,人工成本较高,系统的泛化性和迁移性差。近两年兴起的深度学习方法能较好地弥补上述方法的缺陷,深度学习能够自动学习出描述数据本质的特征表达,从而避免了人工设计特征的缺陷。
目前,深度学习用于情感分析的技术包括词向量,卷积神经网络和循环神经网络等。每个词通过一组词向量表示,并且词向量与词向量之间存在特定关系。句子表示为词向量矩阵后,利用卷积神经网络Convolutional Neural Network(CNN)结构提取文本特征。但这种特征只能表示文本的局部信息缺乏全局特征,所提取的特征较为单一,不足以体现文本的情感极性。特征质量直接决定情感分类精度的高低,因此怎样提取出更合适的文本特征是一项非常重要的工作。其次传统词向量的学习是通过训练学习语言模型而得到的产物,词的分布式表达中仅包含了语义和语法信息,缺乏了情感信息,而在情感分析任务中,情感信息起着非常重要的作用。
发明内容
本发明提出一种基于attention CNNs结合注意力的卷积神经网络和CCR多模一致回归的文本情感分析方法,通过分析分词文本的情感极性,解决只提取分析文本的局部特征,从而导致缺乏全局特征,提取的特征单一,不足以体现文本的情感极性的问题。
为达到发明目的采取的具体技术方案为:
基于attention CNNs和CCR的文本情感分析方法:
步骤一、首先将原始文本数据分为训练样本及测试样本。然后对原始文本数据进行分词处理得到分词文本,利用分词文本进行语义词向量和情感词向量训练。利用已有情感词典进行词典词向量构建。
步骤二、利用语义词向量、情感词向量和词典词向量分别表示分词文本,得到三种类型初始输入词向量矩阵。利用长短时记忆网络LSTM捕获三种类型初始输入词向量矩阵中每一单词的上下文语义,融入上下文信息后得到三种类型输出词向量矩阵,输出词向量矩阵能够消除单词歧义。
所述三种类型初始输入词向量矩阵包括:初始输入词典词向量矩阵、初始输入语义词向量矩阵和初始输入情感词向量矩阵。所述三种类型输出词向量矩阵包括:输出词典词向量矩阵、输出语义词向量矩阵和输出情感词向量矩阵。
步骤三、利用卷积神经网络CNN并结合不同滤波长度的卷积核提取三种类型输出词向量矩阵的局部特征。
步骤四、利用三种不同的注意力机制,即长短时记忆网络注意力机制、注意力采样以及注意力向量分别提取输出语义词向量矩阵和输出情感词向量矩阵的全局特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710271861.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新的关键词提取技术
- 下一篇:一种目标对象的搜索、推荐方法和设备