[发明专利]一种基于组合优化决策树的网络伪舆情识别方法在审

申请号：	201710839631.6	申请日：	2017-09-18
公开（公告）号：	CN107742256A	公开（公告）日：	2018-02-27
发明（设计）人：	高万林;康博涵;贾敬敦;于丽娜;陶莎;仲贞	申请（专利权）人：	中国农业大学
主分类号：	G06Q50/00	分类号：	G06Q50/00;G06F17/30;G06K9/62
代理公司：	北京路浩知识产权代理有限公司11002	代理人：	王莹,李相雨
地址：	100193 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于组合优化决策树网络舆情识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种基于组合优化决策树的网络伪舆情识别方法。

背景技术

随着信息技术、移动互联、智能手机等技术的发展，网络成为大众舆情的主要载体并以前所未有的深度、广度和速度影响着人们生活的各个方面。网络舆情不仅是人们对某些事件、话题、观点的反应，同时也对人们的思想和行为有着巨大的影响和反作用。而伪舆情是指在诸如网络推手炒作或虚假信息刺激等手段的推动下，使民众产生的带有倾向性的多种评论、情绪、态度、意见的总和。伪舆情利用网络的影响力和人们的从众心理，掀起网络谣言，歪曲事实真相，混淆视听，对正常的网络生活造成了负面的影响，甚至造成社会恐慌和危机。因此如何尽早识别伪舆情，科学监督控制网络舆论健康发展是舆情管理面临的严峻问题。

国内外相关研究主要集中在网络舆情分析技术上，很少涉及虚假网络舆情分析和识别问题。对于网络舆情分析技术，现主要是基于内容的舆情分析方法，采用网络文本分析技术对网络论坛热点话题进行检测，这种方法需要借助于文字信息处理平台对文本内容进行分析，数据处理量大，处理效率低，不适合于对网络水军所引发的大规模虚假网络舆情的识别和监测。

发明内容

本发明提供一种克服现有技术中对网络舆情的分析识别处理效率低的网络伪舆情识别方法。

根据本发明的一个方面，提供一种基于组合优化决策树的网络伪舆情识别方法，所述方法包括：

S1，获取网络舆情事件的舆情属性集合，其中，所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个；

S2，将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值，输入至决策树模型中，获取所述网络舆情事件的识别结果。

优选地，步骤S2中所述决策树模型通过以下步骤获取：

S21，获取多个舆情样本事件，每个所述舆情样本事件包含所述舆情属性集合；

S22，将所述多个舆情样本事件随机分为训练集和测试集，所述训练集和所述测试集均包含至少一个所述舆情样本事件；

S23，根据所述训练集中的所有舆情样本事件的舆情属性集合，建立所述决策树模型。

优选地，步骤S23具体包括：

S231，利用基于边界点属性值合并和不一致度检验的离散化算法，将所述训练集中的所有舆情样本事件的连续舆情属性离散化为离散舆情属性；

S232，根据所述训练集中的所有舆情样本事件的离散舆情属性和定性舆情属性，利用输入输出关联法建立所述决策树模型。