[发明专利]基于最大频繁项集挖掘的微博炒作群体发现方法有效
申请号: | 201410188004.7 | 申请日: | 2014-05-07 |
公开(公告)号: | CN103927398A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 刘琰;张进;罗军勇;罗向阳;董雨辰;陈静;常斌 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 聂孟民 |
地址: | 450052 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最大 频繁 挖掘 炒作 群体 发现 方法 | ||
1.一种基于最大频繁项集挖掘的微博炒作群体发现方法,其特征在于,包括如下步骤:
(1)炒作微博样本搜集:以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;
(2)事务数据库构建:以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;
(3)最大频繁项集挖掘:对待检测微博组所对应的事务数据库中的每个事务,利用迭代交集法找出所有事务中包含的最大频繁项集,得到若干最大频繁项集集合;
由于炒作微博事务库中每个事务包含的项目大都数以万计,直接在原始事务数据库中挖掘最大频繁项集将会影响算法执行的效率,利用二分查找法,快速剔除事务中的非频繁项目,找出最大频繁项集的候选集合,缩减事务数据库规模;
(4)最大频繁项集归并:对每个最大频繁项集,计算项集间的重叠率,对最大频繁项集进行合并,尽量将规模较小的项集归并到较大项集中,并保证归并后项集中的账户依然具有一定的关联性;通过缩减事务数据库规模,减少交集次数,事务间取交集时,采用二分查找法判断事务中是否包含某项目,以提高挖掘最大频繁项集的效率,从而发现微博炒作群体。
2.根据权利要求1所述的基于最大频繁项集挖掘的微博炒作群体发现方法,其特征在于,包括炒作微博事务库、最大频繁项集挖掘以及最大频繁项集归并部分,炒作微博事务库构建模块主要负责采集数据并进行预处理,构建事务数据库D;最大频繁项集挖掘模块首先基于二分查找方法筛选候选最大频繁项集,然后基于迭代交集方法从事务数据库D中挖掘出最大频繁项集MFS;最大频繁项集归并模块主要对MFS进行归并处理,还原真实的炒作群体,具体步骤是:
1)、搜集炒作微博样本
炒作微博样本搜集实现本发明的最初步骤,微博样本的选择应具有相关性,若某个炒作账户曾经参与的若干微博,或与某个主题相关的若干微博,微博样本的判定应借鉴已有的成熟判别方法或专家系统,炒作微博样本搜集有两种方法:一种方法是选择爬虫技术,从微博网页下载网页、解析页面结构并提取微博传播账户的信息;另一种方法是调用微博公共开放平台,调用微博官方对外提供的API函数获取微博传播账户的信息;
按照待挖掘炒作账户的算法分析条件,样本搜集的内容应包括微博标识号、微博账户标识号、微博账户的基本信息;
2)构建事务数据库
将炒作群体发现问题转化为数据挖掘中的最大频繁项集挖掘,在炒作微博样本搜集的基础上,将炒作微博对应事务,参与微博转发的账户对应事务中的项,构建事务数据库,如图2所示;
3)基于二分查找的候选最大频繁项集筛选
由于炒作微博事务库中每个事务包含的项目大都数以万计,直接在原始事务库中挖掘最大频繁项集将会影响算法执行的效率,基于二分查找的方法,能够快速剔除事务中的非频繁项目,找出最大频繁项集的候选集合,缩减事务库规模,给定事务数据库D,最小支持数S,进行候选最大频繁项集筛选,方法是:
(1)将事务库D中的事务按项目个数从大到小排序
(2)记频繁项目集合,非频繁项目集合;从i=1开始,按顺序遍历D中的每个事务Ti(1≤i≤|D|),对事务Ti中的每个项目u:
a)若u∈FI,则保留u;
b)若u∈NFI,则从Ti中剔除u;
c)若,则转到下一步判断u是否是频繁项目;
(3)、从j=i+1开始遍历剩余的事务,并利用二分查找法判断Tj,i<j≤|D|中是否包含u,终止条件为:
a)当包含u的事务个数达到S时,说明u是频繁项目,将u加入到FI中;
b)当剩余的事务个数与包含了u的事务个数之和小于S时,说明u是非频繁项目,从Ti中剔除u,若此时包含了u的事务个数大于1,说明u还出现在Ti之外的事务中,则将u加入到NFI中;
(4)剔除完D中所有事务中的非频繁项目后,即可得到缩减后的事务库D1;
4)基于迭代交集的最大频繁项集挖掘:
通过对事务迭代取交集的方式挖掘最大频繁项集,给定缩减后的事务库D1,最小支持数S,最大频繁项集挖掘的方法如下:
(1)将事务库D1中的事务按项的个数从大到小排序,以尽早发现最大频繁项集,为缩减事务库规模,合并事务库中重复的事务,并对事务个数计数;
(2)为减少取交集的次数,对于事务Ti,1≤i≤|D1|-S+1,从i=1开始,首先找出包含了Ti中任意项的事务集合,Tj|Tj至少包含了Ti中的一个项目;j>i),Ti依次与Tj取交集,将两者的交集移入新的事务库D2,同时剔除Tj,;
(3)对于新事务库D2中的事务T,如果T是由不小于S个事务取交集而得,则将T移入最大频繁候选项集集合MFCS中,同时剔除T在D2中的子事务;
(4)如果新事务库D2中的剩余事务个数小于S,则结束对事务库D2的处理,返回到上层事务库;否则,对D2从第1步开始再进行此过程;
(5)当事务库D1中剩余的事务数小于S时,即i>|D1|-S+1,结束对当前事务库D1的处理;
(6)对MFCS中的项集进行合并同时剔除非最大频繁项集,最后的结果即为所求的最大频繁项集集合MFS;
5)最大频繁项集归并:
由于最小支持数的限制,使得MFS中最大频繁项集规模较小,而且有些项集之间存在大量的重叠项,这些项集代表的账户群很可能从属于同一个炒作群体,为解决这一问题,使用重叠率来反映两个项集之间的相似性,设项集X1,X2∈MFS,将X1和X2的重叠率记为:
上式中,|X1∩X2|表示X1与X2重叠项目的个数,Min(|X1|,|X2|)表示规模较小的项集中项目的个数,项集归并的方法是:
(1)将MFS中的最大频繁项集按项目的个数从大到小排序;
(2)遍历MFS中的每个最大频繁项集,从i=1开始,对,若ORate(Xi,Xj)≥minOR,i<j≤|MFS|,则将Xi和Xj的并集添加到新的集合MMFS中,同时剔除Xj;
(3)对MMFS中的项集重复执行以上两个步骤;
(4)当MMFS中任意两个项集的重叠率小于minOR时,结束。
3.根据权利要求2所述的基于最大频繁项集挖掘的微博炒作群体发现方法,其特征在于,所述的步骤1)中,搜集炒作微博样本应符合如下条件:
a、选取转发数相对较高的热门微博;
b、微博发布时间跨度<180天;以利于对炒作群体的发现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410188004.7/1.html,转载请声明来源钻瓜专利网。