[发明专利]一种属性情感词向量的深度学习方法有效
申请号: | 201710232001.2 | 申请日: | 2017-04-11 |
公开(公告)号: | CN107066445B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 兰曼;王飞翔 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙)31215 | 代理人: | 徐筱梅,张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 属性 情感 向量 深度 学习方法 | ||
技术领域
本发明涉及到互联网产品评论的情感分析,涉及采用深度学习技术获得产品属性情感词向量表达,涉及将属性和情感信息融入到传统语义词向量表达的方法。
背景技术
随着互联网和电子商务的快速发展,网上购物对人们消费模式产生巨大的影响。各种电商平台,如淘宝、京东、一号店等涵盖了成千上万种的产品。在没有接触实际产品的情况下选购产品,用户的产品评论信息具有很高的参考价值,但对成千上万条评论进行逐条浏览或者通过人工规则进行归纳都很费时费力,应用自然语言处理和机器学习的方法对产品评论进行深度自动挖掘,呈现简明直观的“大家印象”在很大程度上可以改善和提升用户体验。正是因为产品评论挖掘有着强大的现实应用意义和重要的科学研究价值,情感分析(sentiment analysis,SA)成为越来越多的研究者和工业界的兴趣焦点。传统的产品情感分析通常采用分步法:(1)第一步是属性抽取,即采用传统自然语言处理技术,从用户评论中抽取产品(服饰,数码,食品等)的属性描述(质量,颜色,分辨率,口感等)片段;(2)第二步是情感分析,即根据已构建好的情感词典和由专家人工设计的自然语言特征,采用机器学习算法构建情感分类(正面或负面)的模型系统进行预测。这种分步的策略面临三个主要问题:(1)产品属性的数量须提前确定,然而产品类型成千上万,属性描述更是千变万化,因而属性抽取系统的迁移性较差;(2)情感词典须预先人工设定,然而部分情感词的极性是可变的,固定情感词典无法正确判断基于不同属性上下文的情感词的正确极性;(3)传统情感分析中只有正面和负面情感极性,缺乏针对产品属性的细粒度情感分析。此外,分步法中产品属性抽取产生的误差,也会传播并叠加到后续情感分析中。
表1列出从天猫电商平台上采集到的手机产品的用户评论原始数据,其中用户评论中的黑体下划线文本与“大家印象”标签相对应。例如第一条用户评论中“双摄像头拍照效果确实不错”的内容与“像素很好”这个“大家印象”标签对应起来。
表1天猫电商平台上关于手机产品的用户评论与对应“大家印象”标签的示例表
发明内容
本发明的目的是针对现有技术的不足而提出的一种自动学习产品的属性情感词向量的方法,该方法采用深度学习技术,将产品的属性和情感信息融入到词向量特征的自动学习中,获得属性情感词向量(aspect-based sentiment word vector,ASWV)特征。该方法不需要采用传统自然语言处理技术进行产品属性词的抽取,避免了属性抽取的误差传播,也克服了情感词只能具有单一情感极性的束缚。
实现本发明目的的具体技术方案是:
一种属性情感词向量的深度学习方法,该方法包括如下步骤:
步骤一:将电子商务网站产品评论的“大家印象”标签作为属性情感标签自动标注产品评论数据集,初始化词向量;
步骤二:提出深度学习模型ASWV将评论中蕴含的属性情感信息融入到词向量的训练过程,获得属性情感词向量;
步骤三:如果未满足迭代停止条件,则将属性情感误差反向传播更新属性情感词向量;
步骤四:输出属性情感词向量,构建细粒度的产品评论情感分析系统。
所述步骤一中自动标注产品评论数据集,初始化词向量,包括如下步骤:
步骤a1:将淘宝和京东电子商务网站产品评论的“大家印象”标签作为属性情感标签,自动标注产品评论数据集;
步骤a2:在自动标注数据集上采用谷歌word2vec框架中的Skip-gram模型或者CBOW模型训练得到预训练的传统语义词向量字典;
步骤a3:通过查表,将产品评论句子中的词初始化为词向量。
所述步骤二中提出深度学习模型ASWV将评论中蕴含的属性情感信息融入到词向量的训练过程中,包括如下步骤:
步骤b1:采用传统神经网络语言模型(如word2vec框架中的Skip-gram模型或CBOW模型)训练蕴含语义信息的词向量表示;
步骤b2:采用深度学习模型(如CNN,RNN或LSTM模型)学习蕴含属性情感信息的词向量表示;
步骤b3:融合步骤b1学习的语义信息与步骤b2学习的属性情感信息,训练深度学习模型ASWV,获得属性情感词向量。
所述步骤三中反向传播更新属性情感词向量,包括如下步骤:
步骤c1:检查迭代停止条件,如果满足条件,跳到本方法的步骤四,否则将属性情感误差后向传播更新属性情感词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710232001.2/2.html,转载请声明来源钻瓜专利网。