[发明专利]一种基于用户评分的情感词典构建方法有效
| 申请号: | 201910682361.1 | 申请日: | 2019-07-26 |
| 公开(公告)号: | CN110489522B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 杨胜刚;陈佐;李新;田浩;杨申燕;朱桑之;谷浩然;杨捷琳 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚;胡君 |
| 地址: | 410082 湖南省长沙市*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 用户 评分 情感 词典 构建 方法 | ||
本发明公开一种基于用户评分的情感词典构建方法,步骤包括:S1.选取指定互联网平台中目标用户的部分评论数据并设置情感标签以进行标记,得到标签数据;S2.将每个目标用户的评论数据中具有相同或相似评分的评论数据标记为具有情感相似关系,并按照情感相似关系将情感标签进行传播,得到扩充后的标签数据;S3.基于扩充后的标签数据进行情感信息提取,构建得到所需情感词典以用于对指定互联网平台中用户情感进行分类。本发明具有实现方法简单、对标签数据依赖性低、构建效率以及精度高等优点。
技术领域
本发明涉及互联网平台商品评论情感分类技术领域,尤其涉及一种基于用户评分的情感词典构建方法。
背景技术
随着网络技术的不断革新,越来越多的互联网产品成为人们日常生活的必须品,例如 Twitter、微博、亚马逊商城等,这些产品不仅服务用户,也是数据产生的良好平台,包括用户评论、用户评分、用户购买数据等各种各样的用户消费数据。用户在电商平台购物后的评价机制一般包含商品评论及商品评分,为了能更好的得到商品的用户满意度以判断商品的好坏,需要分析用户评论与评分。情感分析技术已经被应用到了学术和工业界的各个领域,对互联网平台产生的文本数据进行情感分析有利于了解商品真实的用户体验信息,帮助商家优化产品,还可以发掘出用户的偏好及性格相关特征等,而对该类评论情感分类仍然是一个挑战,因为评论无长度限制,评论中包含着大量噪声数据,长度不受限,且无任何情感标签等。
有监督的机器学习方法进行商品评论数据分类可以帮助人们自动的、快速的分辨出商品评论的好坏以得知商品的满意度,已被广泛的应用在商品评论数据的情感分类中,而虽然有监督的机器学习方法在商品评论分类上可以很好的完成任务,实施起来极其方便,但是该类方法进行文本情感分类时对标签数据的依赖性高,需要大量的、有标记的用户评论数据进行模型训练,而日常生活中生产的商品评论数据都是无标签的,为了使用有监督的机器学习方法进行商品评论的情感分类,则需要人工标记大量的商品评论数据,人工标记是极其耗时费力的,而且随着社会的发展,新兴商品会不断出现,不同的商品评论也会越来越多,人工标记数据的方式实际就难以实现。
除了机器学习文本情感分类方法之外,常用的文本情感分类方法还有字典法,通过情感词典结合一定的规则来进行文本情感分类。使用字典法进行文本情感分类,可以在减少人工标记数据量的情况下,更好的利用电商平台用户产生的文本数据。基于字典法进行文本情感分类时,目前通常是将现存情感词典作为有标记的训练语料,通过计算词语间的互信息生成新的情感词典,将新的情感词典用于评论数据的情感分类。由于词典法进行文本情感分类的好坏是取决于构建的情感词典,所以情感词典构建的方法决定了文本情感分类的性能,是完成分类任务的核心。情感词典构建的目的是生成一个带有情感极性值或者情感标签的情感词集合,常用的即是使用现存的情感词典与文本句法分析特征来进行情感词典构建,目前现存的、较为流行的情感词典有SentiWordNet、MPQA等,而上述现存的情感词典,它们可以在一定程度上实现未知文本的情感分析,但是这些词典仅仅只包含了一些共有情感信息,而对于不同来源的文本而言,它们都包含了很多自己所独有的情感词特征,这些情感词对于该文本的情感分析同样重要,而且在很多文本中,可能会出现部分文本中只包含特有情感词的情况,对于这些文本而言,现存的情感词典将无法完成文本情感分析的任务,因此构建情感词典是完全必要的,且通过构建情感词典,可以更好的去完成文本数据的情感分析任务。
目前构建情感词典的方法很多,常用的情感词典构建方法主要分为基于词典构建的方法和基于语料构建的方法两种,基于词典构建的方法实施起来相对简单,但由于该方法是基于共有词典的,这些词典只包含共有的情感词关系信息,一般只能构建共有的情感词典,可以进行简单文本情感分析任务,为了更好的完成文本情感分析任务,情感词典的构建方法一般使用基于语料库构建的方法,这也是目前主流的情感词典构建方法,但是基于语料库构建的方法仍然会存在生成的情感词典准确性较低,不能很好的提取部分情感词等问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910682361.1/2.html,转载请声明来源钻瓜专利网。





