[发明专利]一种采用机器学习的社交媒体情感分析方法在审
申请号: | 201611109300.9 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106776982A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 机器 学习 社交 媒体 情感 分析 方法 | ||
1.一种采用机器学习的社交媒体情感分析方法,其特征在于,主要包括数据收集(一);预处理(二);分类(三);总结(四);可视化(五)。
2.基于权利要求书1所述的数据收集(一),其特征在于,采用从第三方购买的社交媒体文本数据,常用的社交软件如,微博、朋友圈等;社交媒体文本数据是由预定义规则确定的历史消息,该规则利用基于时间段,关键字和地理位置的过滤器;数据都是JSON格式的,每个JSON文件以10分钟为一周期组织的,包含社交媒体文本数据和大量与之有关的信息。
3.基于权利要求书1所述的预处理(二),其特征在于,从JSON格式的文件中提取与研究最相关的数据,将其转换为CSV格式,并利用R语言在RStudio中编写程序,以执行自然语言处理方面的所有任务。
4.基于权利要求书1所述的分类(三),其特征在于,包括构建分类器和分类;从被预处理成修整的数据集中选取5000条社交媒体文本数据作为训练集,剩余的社交媒体文本数据用于分类。
5.基于权利要求书4所述的构建分类器,其特征在于,包括特征提取、建模和评估;在特征提取阶段,会在N元语法特征的领域中考虑一元语法,二元语法和三元语法,而使用一元语法的特征提取单独处理句子中的每个单词是文本分类中最常用的方法,本专利采用一元语法特征用于文本分类;使用二元语法和三元语法特征分别提取两个和三个词的短语作为对比。
6.基于权利要求书5所述的建模,其特征在于,包括输入训练数据集并利用机器学习方法(即支持向量机(SVM),朴素贝叶斯(NB),最大熵(ME),树,装袋树,提升树,随机森林(RF),神经网络(NN))来建立对应的8个预测模型;使用用于文本分类的机器学习库或某种R语言包开发预测模型;
随机森林是一种集成学习算法,RF控制要搜索的特征的数量,以寻求每个树的最佳分割,而不是每个二叉树完全成长;
装袋树也称为自助聚合,是一种在机器学习中使用的集成算法,以提高现有模型的准确性和稳定性;
提升树目的在于通过对错误分类的数据迭代地添加权重来在弱分类器上构建强分类器,从而减少对不正确分类的数据的预测模型的偏差;
支持向量机使用内核找到一个超平面,将数据分成具有最大边际的不同类别。
7.基于权利要求书5所述的评估,其特征在于,包括比较在不同训练数据大小和使用一元语法特征的不同算法情况下的模型性能,通过10折交叉验证方法得出不同情况下的精度输出结果;分析结果可知,除最大熵算法外,其他算法得到的模型性能随训练数据集增大而增强;除不能代表总体趋势的特殊情况外,增加N元语法特征并没有改善模型性能,因为针对这项研究而言,一元语法特征是最有效的而且可以覆盖更多的数据;因此基于该数据集表现性能排名前四的机器学习方法分别是随机森林(RF),装袋树,提升树和支持向量机(SVM)。
8.基于权利要求书5所述的分类,其特征在于,社交媒体文本数据经由分类器处理后,从中提取的公众情感将被分几个相互独立的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611109300.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于经验知识的智能检索方法
- 下一篇:搜索引擎优化装置和方法