[发明专利]一种基于组合优化决策树的网络伪舆情识别方法在审
| 申请号: | 201710839631.6 | 申请日: | 2017-09-18 |
| 公开(公告)号: | CN107742256A | 公开(公告)日: | 2018-02-27 |
| 发明(设计)人: | 高万林;康博涵;贾敬敦;于丽娜;陶莎;仲贞 | 申请(专利权)人: | 中国农业大学 |
| 主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹,李相雨 |
| 地址: | 100193 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 组合 优化 决策树 网络 舆情 识别 方法 | ||
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种基于组合优化决策树的网络伪舆情识别方法。
背景技术
随着信息技术、移动互联、智能手机等技术的发展,网络成为大众舆情的主要载体并以前所未有的深度、广度和速度影响着人们生活的各个方面。网络舆情不仅是人们对某些事件、话题、观点的反应,同时也对人们的思想和行为有着巨大的影响和反作用。而伪舆情是指在诸如网络推手炒作或虚假信息刺激等手段的推动下,使民众产生的带有倾向性的多种评论、情绪、态度、意见的总和。伪舆情利用网络的影响力和人们的从众心理,掀起网络谣言,歪曲事实真相,混淆视听,对正常的网络生活造成了负面的影响,甚至造成社会恐慌和危机。因此如何尽早识别伪舆情,科学监督控制网络舆论健康发展是舆情管理面临的严峻问题。
国内外相关研究主要集中在网络舆情分析技术上,很少涉及虚假网络舆情分析和识别问题。对于网络舆情分析技术,现主要是基于内容的舆情分析方法,采用网络文本分析技术对网络论坛热点话题进行检测,这种方法需要借助于文字信息处理平台对文本内容进行分析,数据处理量大,处理效率低,不适合于对网络水军所引发的大规模虚假网络舆情的识别和监测。
发明内容
本发明提供一种克服现有技术中对网络舆情的分析识别处理效率低的网络伪舆情识别方法。
根据本发明的一个方面,提供一种基于组合优化决策树的网络伪舆情识别方法,所述方法包括:
S1,获取网络舆情事件的舆情属性集合,其中,所述舆情属性集合包括首发媒介、转发媒介种类及个数、总发帖数、48小时发帖数、一周发帖数、持续时长、观点数、最大观点占比和转发数中的一个或多个;
S2,将所述舆情属性集合中的至少一种舆情属性对应的舆情属性值,输入至决策树模型中,获取所述网络舆情事件的识别结果。
优选地,步骤S2中所述决策树模型通过以下步骤获取:
S21,获取多个舆情样本事件,每个所述舆情样本事件包含所述舆情属性集合;
S22,将所述多个舆情样本事件随机分为训练集和测试集,所述训练集和所述测试集均包含至少一个所述舆情样本事件;
S23,根据所述训练集中的所有舆情样本事件的舆情属性集合,建立所述决策树模型。
优选地,步骤S23具体包括:
S231,利用基于边界点属性值合并和不一致度检验的离散化算法,将所述训练集中的所有舆情样本事件的连续舆情属性离散化为离散舆情属性;
S232,根据所述训练集中的所有舆情样本事件的离散舆情属性和定性舆情属性,利用输入输出关联法建立所述决策树模型。
优选地,步骤S231具体包括:
S2311,基于所述训练集中的所有舆情样本事件的每一个连续舆情属性,以所述每一个连续舆情属性的边界点的属性值为切点分割对应的连续舆情属性的属性值,获取所述每一个连续舆情属性的第一离散舆情属性区间集合;
S2312,合并所述每一个连续舆情属性的第一离散舆情属性区间集合中的临界点,获取所述每一个连续舆情属性的第二离散舆情属性区间集合;
S2313,合并所述每一个连续舆情属性的第二离散舆情属性区间集合中的少数点区间,获取所述每一个连续舆情属性的第三离散舆情属性区间集合;
S2314,若任一所述第三离散舆情属性区间集合的不一致度高于所述不一致度阈值,则调整所述任一所述第三离散舆情属性区间集合,直至调整后的第三离散舆情属性区间集合的不一致度低于所述不一致度阈值。
优选地,步骤S2314中所述调整所述第三离散舆情属性区间集合为:对所述少数点区间进行恢复。
优选地,步骤S232具体包括:
S2321,在所述训练集中的所有舆情样本事件中,获取每一舆情属性的归一化输入输出关联值;
S2322,选取所述归一化输入输出关联值较大的一个或多个所述舆情属性作为基本舆情属性集合,其余舆情属性作为备选舆情属性集合;
S2323、根据所述基本舆情属性集合和备选舆情属性集合,以所述归一化输入输出关联值为节点舆情属性选择标准,建立所述决策树模型。
优选地,步骤S2321中所述获取每一舆情属性的归一化输入输出关联值,具体包括:
当所述舆情属性为定量舆情属性时,获取所述定量舆情属性的归一化输入输出关联值的公式为,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710839631.6/2.html,转载请声明来源钻瓜专利网。





