[发明专利]一种社交媒体评论的情感分析方法、设备及其存储设备在审
申请号: | 201710756607.6 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107544961A | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 任伟;种胜 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司42238 | 代理人: | 龚春来 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 媒体 评论 情感 分析 方法 设备 及其 存储 | ||
技术领域
本发明涉及网络信息处理领域,具体涉及一种社交媒体评论的情感分析方法、设备及其存储设备。
背景技术
在新闻类社交媒体上,用户往往会就一些热门事件留下自己的评论,例如前段时间的“萨德”事件,目前的印度事件等。但用户的评论信息中可能会存在误导大众或具有威胁性的内容,类似的评论数据如果在社交媒体平台上长时间留存,可能造成不必要的舆论恐慌。因此,及时监控社交媒体平台上用户评论内容中具有威胁性或误导性的内容,并对这些内容进行快速、精确地处理就成为亟待解决的问题。
发明内容
为了解决上述问题,本发明提供了一种社交媒体评论的情感分析方法、设备及其存储设备,首先通过采用Python爬虫程序采集待处理数据信息,然后结合MySQL数据库对采集到的数据进行预处理,最后利用贝叶斯理论训练分类器,可以有效解决上述问题。
本发明提供的技术方案是:一种社交媒体评论的情感分析方法,所述方法包括步骤:用特定程序获取用户评论信息;使用数据库处理获取的用户评论信息并将该信息分为训练集和测试集;对所述训练集和测试集分别进行预处理并提取特征词;设置情感分类等级及阈值,使用贝叶斯方法结合训练集进行训练得到分类器;用所述分类器对测试集中进行分类并输出分类结果;删除分类结果中感情分类等级低于阈值的评论。一种存储设备,所述存储设备存储指令及数据用于实现所述一种社交媒体评论的情感分析方法。一种社交媒体评论的情感分析设备,所述设备包括处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现所述的一种社交媒体评论的情感分析方法。
本发明的有益效果是:本发明提供了一种社交媒体评论的情感分析方法、设备及其存储设备,能够及时发现社交平台中具有威胁性导向的用户评论。同时,还可以做到在发现后对威胁性用户评论进行快速、精确地处理,并定位威胁性评论的ID。
附图说明
图1是本发明实施例中社交媒体评论的情感分析方法的整体流程图;
图2是本发明训练集和测试集预处理并提取特征词流程图;
图3是本发明实施例的分类器训练流程示意图;
图4是本发明实施例的硬件设备工作示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述,下文中提到的具体技术细节,如:方法,设备等,仅为使读者更好的理解技术方案,并不代表本发明仅局限于以下技术细节。
本发明的实施例提供了一种社交媒体评论的情感分析方法、设备及其存储设备,通过将。请参阅图1,图1是本发明实施例中社交媒体评论的情感分析方法的整体流程图,所述方法由一种社交媒体评论的情感分析设备实现,具体步骤包括:
S101:用特定程序获取用户评论信息;所述特定程序为Python爬虫程序,所述特定程序获取社交媒体用于存储评论的服务器地址;设定新闻事件的热度排名阈值;根据所述热度排名阈值获取评论;按新闻主题分类存储获取的评论。
S102:使用数据库处理获取的用户评论信息并将该信息分为训练集和测试集所述数据库为MySQL数据库;所述MySQL数据库分为8个字段,分别为:评论获点赞数目记为numofzan、评论发表时间记为createtime、用户名记为username、用户ID记为userid、该评论被评论的数目记为replycount、评论内容记为commenttext、新闻主题ID记为group_id和评论的ID记为onlyid;所述onlyid是评论的唯一标识;使用SQL语句将获取的用户评论中的评论数据进行去重操作;去重后的评论数据记为comment_nonrepetitive;将所述comment_nonrepetitive分为训练集和测试集。
S103:对所述训练集和测试集分别进行预处理并提取特征词。
S104:设置情感分类等级及阈值,使用贝叶斯方法结合训练集进行训练得到分类器。
S105:用所述分类器对测试集中进行分类并输出分类结果。
S106:删除分类结果中感情分类等级低于阈值的评论。
参见图2,图2是本发明训练集和测试集预处理并提取特征词流程图,具体包括:
S201:去除训练集中每条评论的标记信息以及转发人的评论内容,只保留该ID所作的评论。
S202:将上述步骤处理后的评论记为comment_personal。
S203:保留每条评论数据的onlyid字段。
S204:基于Trie树结构实现高效的词图扫描。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710756607.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双速搅拌系统及其搅拌方法
- 下一篇:螺带混合机长体混料筒用易拆卸入料罩