[发明专利]一种基于社交网络分析的微博诈骗团体挖掘方法在审
| 申请号: | 201611203131.5 | 申请日: | 2016-12-23 |
| 公开(公告)号: | CN106599273A | 公开(公告)日: | 2017-04-26 |
| 发明(设计)人: | 贾志娟;张玉;周娜;孔珊;王宁 | 申请(专利权)人: | 贾志娟 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450044 河*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 社交 网络分析 诈骗 团体 挖掘 方法 | ||
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于社交网络分析的微博诈骗团体挖掘方法。
背景技术
近年来互联网技术在国内外得到迅猛的发展,微博作为一种重要的社交平台,
已经逐渐融入人们的日常生活中,给我们的生活和习惯带来了很大的改变。微博作为信息发布和传播的平台,得到了越来越多的关注。与传统的新闻媒体相对,微博提供的内容主题更广发,更新和传播的速度更快,信息的提供者更宽泛,网民们热衷于在微博上分享自己的心情,评论当前流行的元素,探讨当今的社会热点,并关注自己的喜好,这给微博的数据挖掘带来了相当大的价值,同时也使得诈骗团体的行动更加的便利。
社会网络以用户为基础,具有主体繁多、用户影响力差异显著、用户特征与信息资源复杂而且事件突发性强等特性。中国社会网络环境比较复杂,尤其是诈骗谣言等信息对社会的影响较大,引导不当极容易引发社会矛盾。微博的出现进一步推动了社会网络的发展。而且微博具有较为活跃的用户量,若仅仅依靠传统的统计方法无法高效的提取有价值的信息,这就急需一种更高效的能对海量文本数据进行分析和挖掘,社会网络分析和数据挖掘技术就应运而生。因此利用社会网分析和数据挖掘技术对微博中诈骗团体的语言行为进行研究是可行的而且是很有必要的。
针对此现象,国内外相关学者做了大量的研究。2014年,王文帅、杜然等提出一个面向大规模微博数据的话题挖掘方法,首先对大规模微博数据进行分析,基于BloomFilter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,然后提出改进的LAD主题模型SNLDA,采用吉布斯采样法进行模型推导,挖掘出微博话题。李桃陶等运用图数据挖掘技术和工具对微博用户关联关系进行处理,能够发现用户群体的特征,并能进行用户推荐、事件分析、产品推广和市场营销等。廉捷等分别从互联网数据采集与处理、社交网络数据实证分析、用户影响力与行为分析、用户个性化推荐算法以及机器学习的信息预测算法邓角度,对社交网络中的挖掘方法进行了研究。
由于微博正处在如日中天,影响力覆盖面不断扩大的状态,国内外文献都在探讨微博的正面作用,又或者在探讨微博环境下的商业问题,而对于微博上存在的道德示范及如何规约的文献并不多,尚未形成系统的学术研究专著,只能零散地在一些学术论文中出现一角。故本发明提出基于社交网络的微博诈骗团体挖掘方法。该方法运用社交网络分析与数据挖算法相结合来分析出微博中诈骗团体应该具备的特征,并挖掘出微博上潜在的诈骗团体,首先用爬虫技术进行数据采集,然后对数据进行清洗,用Python中的结巴分词对数据进行断词处理,之后用IF-IDF算法对这些词进行排序,挖掘出诈骗团体的社交网络特征和文本特征,最后根据不同团体之间的文本特征之间的相似度来挖掘出微博上的潜在诈骗团体。
发明内容
本发明的目的就是为了解决上述技术问题,而提供一种基于社交网络分析的微博诈骗团体挖掘方法。
本发明包括以下步骤:
①.微博数据采集;
②.对所采集数据进行处理;
③.诈骗团体社交网络分析特征获取和文本特征的挖掘;
④.对诈骗团体进行预测和评估。
所述步骤①中的微博数据采集包括以下步骤:
a.首先模拟打开浏览器,并跳转到话题所在的微博详情页;
b.通过Seleniu工具获取到所述微博详情页页面上的所有数据信息,并通过获取DOM元素,定位到该条微博的转发以及评论所在的地方;
c.将爬虫得到的数据暂时保存,并将数据分类并处理;
d.接处理好的数据保存到本地的数据库中,以供使用。
所述步骤②的数据处理包括对步骤①采集到的数据进行预处理、断词处理和特征值提取,所述预处理包括去重、机械压缩去词和短句删除,所述特征值提取是采用TF-IDF算法来计算词的重要性,最重要的词即为特征值。
所述步骤③具体包括从整体社交网络的角度对诈骗团体进行社会特征值的挖掘、通过网络密度分析可以对诈骗团体的训练集中社会网络之内部节点互动链接的强度进行大致的了解、从网络节点的角度进行分析和通过文本挖掘获取特征关键词。
所述步骤④包括内容特征对比和社会网络特征对比。
本发明具有以下优点:本发明提供一种基于社交网络分析的微博诈骗团体挖掘方法,帮助挖掘出微博上潜在的诈骗团体,使之以后的网民和企业免受诈骗信息的困扰。
附图说明
图1是一般的社交网络示意图。
图2是本发明的微博诈骗团体挖掘方法的整体架构图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贾志娟,未经贾志娟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611203131.5/2.html,转载请声明来源钻瓜专利网。





