[发明专利]一种基于多策略的微博信息优先采集方法有效

专利信息
申请号: 201811633421.2 申请日: 2018-12-29
公开(公告)号: CN109670136B 公开(公告)日: 2021-04-27
发明(设计)人: 刘磊;陈浩;孙应红;吴爽;侯良文;李静 申请(专利权)人: 北京工业大学
主分类号: G06F16/958 分类号: G06F16/958;G06F16/35;G06F16/9535
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 吴荫芳
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 策略 信息 优先 采集 方法
【权利要求书】:

1.一种基于多策略的微博信息优先采集方法,包括以下步骤:

步骤(1)垃圾博主检测

步骤(1.1)构建垃圾微博检测模型

步骤(1.1.1)构建训练数据集,具体如下:

利用爬虫爬取并人工标注一组微博博文数据:G=[(x1,y1),(x2,y2),......,(xn,yn)],其中n代表总微博条数,xi代表第i条微博,其中yi=0表示xi为垃圾微博,yi=1表示xi为正常微博;

对G中微博进行数据预处理,包括分词、去除停用、英文大写转小写、繁体转简体;

对微博博文数据G中的所有微博均选取8个微博特征,从而构成训练数据集,其中8个微博特征包括博主本身的个人信息特征4个:粉丝数、关注数、N个月的发博数量和发博频率,N的取值范围为:3≤N≤5,以及博文内容特征4个:单条微博的长度、单条微博的链接的个数、单条微博图片的数量和包含的人工标定的敏感词汇个数;

步骤(1.1.2)训练垃圾微博检测模型

利用前步构建的训练数据集,采用支持向量机算法,训练得到垃圾微博检测模型,记作H(x),其中,x表示一条微博的8个特征,若H(x)=0表示垃圾微博,H(x)=1表示正常微博;

步骤(1.2)利用训练完成的垃圾微博检测模型进行垃圾博主检测并删除,具体如下:

步骤(1.2.1)获取d1天内,25≤d1≤31,所有微博博主发表的微博集合;

步骤(1.2.2)根据步骤1.1.1)所述对所有微博进行预处理和特征选择;

步骤(1.2.3)通过训练完成的垃圾微博检测模型H(x)对所有微博进行分类,统计每个博主的垃圾微博条数ξ,若ξ>ξmax,则将该博主归为垃圾博主,其中ξmax为当前博主是否为垃圾博主的阈值,取值范围为:8≤ξmax≤10;

步骤(2)将步骤(1)中检测出的垃圾博主从当前微博博主中剔除,然后分类:

剔除垃圾博主后的博主集合定义为U={(u1,uf1),(u2,uf2),...(un,ufn)},博主特征集合定义为uf={Nfans,Nblog},其中:(ui,ufi)分别代表博主ui和该博主的特征集合数据,Nfans表示粉丝数,Nblog表示日均更博数量;对博主集合U中每一博主ui,作如下处理:

若Nfans>Num1,则为A类型博主,记作UA

若Num1>Nfans>Num2或Nblog>MB,则为B类型博主,记作UB

若不满足上述两个条件且Nfans>Num3,则为C类型博主,记作UC

其中Num1代表第一阈值,取值范围为:20万≤Num1≤80万;Num2代表第二阈值,取值范围为:1万≤Num2≤10万;MB代表第三阈值,取值范围为:3≤MB≤5;NumC代表第四阈值,取值范围为:2000≤Num3≤5000;

步骤(3)确定A类型博主优先采集策略,得到对每位博主的最优采集时间,具体如下:

步骤(3.1)对于任意ua∈UA,获取d2天内,25≤d2≤31,博主ua的博文的发表时间,去除年月日部分,只保留时分秒部分,排序后得到集合T(ua)={t1,t2,...,tn},其中ti代表博主ua的第i条微博的发表时间;

步骤(3.2)将T(ua)利用k-means算法进行聚类,簇中心的个数k定义见公式(1):

其中:δ为权重,取值范围为:0.3≤δ≤0.8,len(T(ua))为集合T(ua)的大小,k为δ和len(T(ua))乘积的向上取整;

步骤(3.3)获取k-means算法的k个簇中心为{tc1,tc2,...,tck},在每个簇中选择时间最大的作为当前簇的最优采集时间,得到对每位博主的k个最优采集时间,记作

步骤(4)确定B类型博主优先采集策略,得到对B类型博主的优先采集列表SortB,具体如下:

步骤(4.1)构建B类型博主采集回归模型,具体如下:

步骤(4.1.1)从B类型博主集合中随机采样n个,45000≤n≤50000,作为B类型博主的种子博主集合:M={ub1,ub2,...,ubn},其中ubi代表随机采样的第i个B类型博主;

步骤(4.1.2)获取种子博主集合M中每个博主ub的微博特征集合x(ub)以及活跃度值y(ub),

其中,x(ub)表示为一个7元组,x(ub)={Nhot,Nblog,Nreply,Nfollow,Nlike,len,type}

其中,Nhot表示博主d3天内微博中包含热点信息的微博条数,25≤d3≤31;Nblog表示博主d3天内的微博条数,Nreply表示博主d3天内收到的回复数量,Nfollow表示博主d3天内中微博被转发的数量,Nlike表示博主d3天内中收到的点赞数量,len表示博主d3天内所发微博的平均长度,type为1代表当前博主是转发型博主,即在微博总数中,转发微博数量大于原创微博数量,否则为0;

y(ub)由公式(2)进行计算得到:

其中:Hblog代表当前博主d4年内所发的微博数量,1≤d4≤3,Hfollow代表博主d4年内微博被转发的总数量,Hreply代表博主d4年内收到的总回复数量,Hlike代表博主d4年内收到的微博的点赞数量;wf,wr,wl分别代表B类型博主转发、回复、点赞所占的权重值,其中:0.5≤wf≤0.7,0.2≤wr≤0.4,0.1≤wl≤0.2,且wf+wr+wl=1;

步骤(4.1.3)依据种子博主集合M中每个博主ub的微博特征集合,构建回归模型训练集:trainset=[(x(ub1),y(ub1)),(x(ub2),y(ub2)),...,(x(ubn),y(ubn))],其中:(x(ubi),y(ubi))代表博主ubi的微博特征集合和活跃度分数值,活跃度分数值通过公式(2)得到;

步骤(4.1.4)利用随机森林算法构建回归模型,并通过训练集trainset进行训练,得到训练好的模型F(u),其中:u代表每个B类型博主的微博特征集合,F(u)则表示该博主的活跃度值;

步骤(4.2)构建B类型博主的优先采集列表SortB;

步骤(4.2.1)通过训练好的回归模型F(u)获取每一个B类型博主ub的活跃度值F(ub);

步骤(4.2.2)依据活跃度值F(ub)将B类型博主进行降序排序,得到B类型博主的优先采集列表SortB;

步骤(5)确定C类型博主优先采集策略,得到对C类型博主的优先采集列表SortC,具体如下:

步骤(5.1)获取每个C类型博主uc的d5天内的微博总数量Nblog,以及粉丝数量Nfans,25≤d5≤31;

步骤(5.2)C类型博主的活跃度得分score由公式(3)得到:

其中wf代表C类型博主的粉丝数的权重,wb代表所发微博数量的权重,0.1≤wf≤0.3,0.7≤wb≤0.9且wf+wb=1,Nfans和Nblog则代表C类型博主uc的粉丝数和近d5天内的发博总数量;Nfmax和Nfmin代表所有C类型博主的最大粉丝数和最小粉丝数,Nbmax和Nbmin则代表所有C类型博主近d5天内发的微博总数量的最大值和最小值;

步骤(5.3)依据公式(3),依次计算每个C类型博主的活跃度得分,并降序排序得到C类型博主的优先采集列表SortC;

步骤(6)构建A、B、C类博主的采集队列list,采集器根据采集队列搜集博主信息,具体为:

将C类型博主平均分成三份,即sortC={sortC1,sortC2,sortC3},B、C类博主的采集队列为[SortB,SortC1,SortB,SortC2,SortB,SortC3],即SortB采集了三遍的同时,SortC仅仅采集了一遍;

然后将A类所有博主的采集时间加入B、C类博主的采集队列,即当任意A类博主中的最优采集时间与系统时间相等时,则将对应博主的微博采集需求插入到采集队列list中,遍历A类所有博主的最优采集时间,形成A、B、C类博主的采集队列list;

采集器依据list的顺序,采集博主的信息;

步骤(7)定期执行步骤(2)-(6),重新获取博主的近期信息,重新划定博主类型,训练模型,更新采集队列list并采集博主信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811633421.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top