[发明专利]基于弱监督深度学习的句子级情感分类方法在审
申请号: | 201710602699.2 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107451118A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 赵伟;管子玉;黄若谷;王泉;沈玉龙 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/08 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 王品华,朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 深度 学习 句子 情感 分类 方法 | ||
技术领域
本发明属于计算机处理技术领域,特别涉及一种句子级情感分类方法,可用于电子商务。
背景技术
随着电子商务的快速发展,人们习惯了在网上消费并且在商家的评论网站上面写下他们关于购物经验的评论,这些评论的内容对于未来的顾客做决定和商家提高他们的产品质量来说都是非常有价值的资源。然而,随着评论的数量快速增长,人们面临着一个严重的信息过载的问题。为了缓解这个问题,人们提出了许多意见挖掘技术,例如观点摘要,民意调查和比较分析。关键的挑战在于如何准确的预测评论句子的情感倾向。
所谓的情感分类是指对用户发出的主观性文本进行分析和挖掘,判断文本中所包含的情感信息。流行的情感分类方法一般归为两类:(1)基于词典的方法,(2)机器学习方法。基于词典的方法通常首先构造观点词的情感词典,例如喜欢或讨厌,然后在出现意见单词和现有的句法知识的基础上设计分类规则。抛开效率不谈,这种方法需要在词典构建和规则设计上面进行大量的工作。此外,基于词典的方法不能很好的处理隐含的意见,即客观的陈述例如“一周前我买了个床垫,今天塌陷了”,这也是一种很重要的意见形式。事实信息通常比主观感受更有帮助。基于词典的方法只能以特殊的方法处理隐含的意见。
最初的基于机器学习的情感分类工作应用了流行的机器学习算法,例如朴素贝叶斯。之后,为了获得更好的分类性能,在此方向的大多数研究都是围绕着特征工程开展,并且已经探索出了不同种的特征,例如N-Gram,Part-of-speech(POS)信息和句子关系等。但是特征工程也十分耗费人力成本,并要求设计者有丰富的领域知识,而且适合一个领域的特征集可能无法在其他领域获得最优的效果。
近年来,深度学习已经成为解决情感分类问题的一种有效的方法。深度神经网络本质上学习的是一个高层次的数据表示,从而避免了大量的繁琐工作,例如特征工程。然而,深度学习非常依赖大规模的训练数据,而标注很大数量的句子是非常繁琐的工作。幸运的是,大多数的商家评论网站允许顾客通过评论的星级来总结意见。评级反映的是顾客评论的总体倾向,而且已经被用作情感分析。然而,评论级别不一定能代表部分句子的情感,比如,有些五星级的评论里面就可能包含一些消极负面的句子,有些一星级的评论里面也能发现有积极正面的词汇。因此,将评级信息二值化作为句子标签会包含一些错误的标注,影响分类器的训练。这种二值化后的评级信息称为弱标注信息。
流行的情感分类方法一般都需要非常繁琐的工作,基于词典的方法不能很好的处理隐晦的意见,而一般的机器学习方法可能只适用于某一特定领域,扩展性不强。因此这两种方法都不能很好的预测句子的情感语义,得不到准确的分类结果。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于弱监督深度学习的句子级情感分类方法,以准确的预测句子的情感语义,获得准确的分类结果。
为实现上述目的,本发明的技术方案包括如下:
(1)设计能够利用大量弱标注的评论句子来进行句子情感分类的深度神经网络WDE-LSTM,其中:第一层为输入层,第二层为长短期记忆层,第三层为最大池化层,第四层为隐藏层,第五层为嵌入层,第六层为分类层;
(2)对设计好的深度神经网络模型WDE-LSTM进行训练:
2a)定义评级信息二值化后的句子为弱标注句子,并根据句子的情感语义人工标注了一些句子,再通过弱标注句子从输入层训练到嵌入层,实现对深度神经网络WDE-LSTM的粗调;
2b)用弱标注句子训练了一个能捕捉数据情感分布的嵌入层之后,在嵌入层上加入分类层,再用人工标注的句子从输入层训练到分类层,以实现对深度神经网络WDE-LSTM的精调,最终得到一个二分类模型,即分类的句子情感语义分为积极和消极两类;
(3)将步骤(2)训练好的深度神经网络模型,用20%的人工标注的句子生成的数据集作为测试集,把该测试集输入到二分类模型中,即从输入层输入直到分类层,分类层最后输出的结果即为句子的情感语义类别。
本发明与现有技术相比具有如下优点:
1.本发明使用了弱标注的句子而不全是人工标注的句子,与人工标注的句子不同的是,由于弱标注的句子中包含错误标记的句子,所以使用弱标注的句子训练好的深度神经网络模型的稳定性更强,准确率也更高;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710602699.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种板状工件上色装置
- 下一篇:一种涂布机料胶厚度调节装置