[发明专利]一种采用机器学习的社交媒体情感分析方法在审
申请号: | 201611109300.9 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106776982A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 机器 学习 社交 媒体 情感 分析 方法 | ||
技术领域
本发明涉及自然语言处理领域,尤其是涉及了一种采用机器学习的社交媒体情感分析方法。
背景技术
社会媒体的情感分析是自然语言处理领域的重要研究方法。由于社交媒体是字符有限的,所以经常采用句子级分类来提取公众情绪。分类社交媒体是具有挑战性的,因为社交媒体的独特性质,它经常使用非正式和口语语言,包括俚语和表情符号。虽然有不同的方法来分类社交媒体,但没有达成一致的最佳解决方案。在社交媒体的自然语言处理中,工程语言特征和自动文本分类是两个重要的任务。
虽然在使用机器学习来进行情感分析的领域中已经开发出了功能技术,但是在本文中仍然存在三个问题。首先,在同一社交媒体分析环境中缺乏对各种机器学习方法的评估;第二,还没有人调查枪支暴力这个重要的社会问题,从而了解公众情绪;第三,使用机器学习技术来分析大型数据集一般仍然局限于计算机科学(CS)的学科。
本发明引入基于上述三个问题,采用一种采用机器学习的社交媒体情感分析方法,开发了一个框架来收集,预处理和分类社交媒体并进一步可视化的情绪。在对整个样本进行分类时,使用人工制作的黄金标准数据集。对多种机器学习方法进行评估,选择最大准确度的方法对整个社交媒体文本数据样本进行分类并通过显示系统可视化分类结果。
发明内容
针对上述提到的三个问题,本发明的目的在于提供一种采用机器学习的社交媒体情感分析方法,首先收集社交媒体文本原始数据并且以适当的格式将其预处理成修整的数据集,其被进一步分为训练和测试数据集;在机器学习阶段,利用八种机器学习方法(支持向量机(SVM),最大熵(ME),树,装袋树,提升树,随机森林(RF),神经网络(NN)和朴素贝叶斯(NB))来构建分类器;评估出更准确的分类器用于对社交媒体文本数据进行分类;最后使用多种可视化技术来总结结果。
为解决上述问题,本发明提供一种采用机器学习的社交媒体情感分析方法,其主要内容包括:
(一)数据收集;
(二)预处理;
(三)分类;
(四)总结;
(五)可视化。
其中,所述的数据收集,采用从第三方购买的社交媒体文本数据,常用的社交软件如,微博、朋友圈等;社交媒体文本数据是由预定义规则确定的历史消息,该规则利用基于时间段,关键字和地理位置的过滤器;数据都是JSON格式的,每个JSON文件以10分钟为一周期组织的,包含社交媒体文本数据和大量与之有关的信息。
其中,所述的预处理,从JSON格式的文件中提取与研究最相关的数据,将其转换为CSV格式,并利用R语言在RStudio中编写程序,以执行自然语言处理方面的所有任务。
其中,所述的分类,包括构建分类器和分类;从被预处理成修整的数据集中选取5000条社交媒体文本数据作为训练集,剩余的社交媒体文本数据用于分类。
进一步地,所述的构建分类器,包括特征提取、建模和评估;在特征提取阶段,会在N元语法特征的领域中考虑一元语法,二元语法和三元语法,而使用一元语法的特征提取单独处理句子中的每个单词是文本分类中最常用的方法,本专利采用一元语法特征用于文本分类;使用二元语法和三元语法特征分别提取两个和三个词的短语作为对比。
进一步地,所述的建模,包括输入训练数据集并利用机器学习方法(即支持向量机(SVM),朴素贝叶斯(NB),最大熵(ME),树,装袋树,提升树,随机森林(RF),神经网络(NN))来建立对应的8个预测模型;使用用于文本分类的机器学习库或某种R语言包开发预测模型;
随机森林是一种集成学习算法,RF控制要搜索的特征的数量,以寻求每个树的最佳分割,而不是每个二叉树完全成长;
装袋树也称为自助聚合,是一种在机器学习中使用的集成算法,以提高现有模型的准确性和稳定性;
提升树目的在于通过对错误分类的数据迭代地添加权重来在弱分类器上构建强分类器,从而减少对不正确分类的数据的预测模型的偏差;
支持向量机使用内核找到一个超平面,将数据分成具有最大边际的不同类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611109300.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于经验知识的智能检索方法
- 下一篇:搜索引擎优化装置和方法