[发明专利]一种基于评论情感分析的汽车销量预测方法在审
申请号: | 201711229414.1 | 申请日: | 2017-11-29 |
公开(公告)号: | CN108563647A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 周应华;商楠 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 汽车 评论数据 情感分析 预处理 准确度 标签分类 操作过程 模型建立 情感因素 销售数据 预测模型 预测数据 评论 操控 网站 融入 安全 服务 生产 | ||
本发明请求保护一种基于情感分析的汽车销量预测方法,在汽车评论网站获取评论数据对数据进行预处理,利用多标签分类方法将评论数据按照用户的使用体验分为安全,舒适,操控,动力,经济和服务六个方面;将各方面情感因素分别融入模型建立情感预测模型。对汽车销量进行预测,找出消费者更加注重汽车性能的哪一方面,对以后的生产作为指导。该方法操作过程:用户输入以往销售数据,将数据带入模型,得到下一季度的销量预测数据。本预测方法提高了预测准确度。
技术领域
本发明属于汽车销量分析预测领域,具体属于一种涉及评论情感分析的评论情感分析的汽车销量。
背景技术
汽车销量预测技术指的是根据以往的销售数据和其他数据对下个某个阶段的销量进行估计。现有的汽车销量预测技术主要是根据以往的销售数据,使用自回归模型或者灰色模型预测技术。基于这些预测方法的局限在于,深入在以往的销售数据忽略了用户的评论数据的影响。根据研究在线评论数据有助于提高销量预测模型的准确率。
基于汽车评论数据进行预测是当前研究的热门方向,但存在一些难点如在自然语言处理方面(现在的评论语言种类繁多,随意性大,网络用语较多)。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高预测的准确性的基于评论情感分析的汽车销量预测方法。本发明的技术方案如下:
一种基于评论情感分析的汽车销量预测方法,其包括如下步骤:
1)、对汽车评论数据进行包括统一格式并剔除重复词汇在内的预处理;
2)、利用中科院汉语语法系统对经过预处理后的汽车评论数据进行分词处理,去除停用词;
3)、利用多标签分类技术对对步骤2分词处理后的评论数据集进行多标签分类;
4)、使用互信息技术对情感值进行量化,求得评论文本集的情感值;
5)、将情感值融合进入回归模型预测下个阶段的汽车销量。
进一步的,所述步骤1)将汽车评论数据分为舒适、动力、操控、服务、经济和安全六个方面,首先求出一个评论词与类标签之间的关系,公式如下:
其中,n表示文档总数,表示词word不在文档Di中,x2表示某一个词word和汽车某一方面lj之间的相关性,表示不含有lj方面,即p(word,lj)表示词Word在文档Di中出现的次数且lij=1,lj表示汽车的某一方面性能,使用L={l1,l2,....,lj,…,l6}表示由6种标签构成的标记集合。具体为文档集合D所涉及的多个性能构成的方面集合,使用汽车的舒适性、动力性、操控性、服务性、经济性和安全性六个性能方面。j表示其中某一种性能(1≤j≤6),i表示第i篇文档。p(word)表示词word在文档Di中出现的次数,p(lj)文本集中lj出现的次数,表示词word不在文档Di出现的次数。
进一步的,所述步骤1)使用中科院计算所的汉语词法分析系统ICTCLAS3,首先将搜狗输入法中与汽车行业相关的细胞词库导入汉语词法分析系统,利用UltraEdit编辑器将非文本格式的词库解析出来,统一格式并剔除重复词汇。
进一步的,所述步骤2)将数词、代词、量词、拟声词、方位词、连词、叹词、后接成分和助词作为停用词。
进一步的,所述使用平均X2的聚合策略来度量X2的值,公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711229414.1/2.html,转载请声明来源钻瓜专利网。