[发明专利]一种基于多策略的微博信息优先采集方法有效
| 申请号: | 201811633421.2 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109670136B | 公开(公告)日: | 2021-04-27 |
| 发明(设计)人: | 刘磊;陈浩;孙应红;吴爽;侯良文;李静 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35;G06F16/9535 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 策略 信息 优先 采集 方法 | ||
1.一种基于多策略的微博信息优先采集方法,包括以下步骤:
步骤(1)垃圾博主检测
步骤(1.1)构建垃圾微博检测模型
步骤(1.1.1)构建训练数据集,具体如下:
利用爬虫爬取并人工标注一组微博博文数据:G=[(x1,y1),(x2,y2),......,(xn,yn)],其中n代表总微博条数,xi代表第i条微博,其中yi=0表示xi为垃圾微博,yi=1表示xi为正常微博;
对G中微博进行数据预处理,包括分词、去除停用、英文大写转小写、繁体转简体;
对微博博文数据G中的所有微博均选取8个微博特征,从而构成训练数据集,其中8个微博特征包括博主本身的个人信息特征4个:粉丝数、关注数、N个月的发博数量和发博频率,N的取值范围为:3≤N≤5,以及博文内容特征4个:单条微博的长度、单条微博的链接的个数、单条微博图片的数量和包含的人工标定的敏感词汇个数;
步骤(1.1.2)训练垃圾微博检测模型
利用前步构建的训练数据集,采用支持向量机算法,训练得到垃圾微博检测模型,记作H(x),其中,x表示一条微博的8个特征,若H(x)=0表示垃圾微博,H(x)=1表示正常微博;
步骤(1.2)利用训练完成的垃圾微博检测模型进行垃圾博主检测并删除,具体如下:
步骤(1.2.1)获取d1天内,25≤d1≤31,所有微博博主发表的微博集合;
步骤(1.2.2)根据步骤1.1.1)所述对所有微博进行预处理和特征选择;
步骤(1.2.3)通过训练完成的垃圾微博检测模型H(x)对所有微博进行分类,统计每个博主的垃圾微博条数ξ,若ξ>ξmax,则将该博主归为垃圾博主,其中ξmax为当前博主是否为垃圾博主的阈值,取值范围为:8≤ξmax≤10;
步骤(2)将步骤(1)中检测出的垃圾博主从当前微博博主中剔除,然后分类:
剔除垃圾博主后的博主集合定义为U={(u1,uf1),(u2,uf2),...(un,ufn)},博主特征集合定义为uf={Nfans,Nblog},其中:(ui,ufi)分别代表博主ui和该博主的特征集合数据,Nfans表示粉丝数,Nblog表示日均更博数量;对博主集合U中每一博主ui,作如下处理:
若Nfans>Num1,则为A类型博主,记作UA;
若Num1>Nfans>Num2或Nblog>MB,则为B类型博主,记作UB;
若不满足上述两个条件且Nfans>Num3,则为C类型博主,记作UC;
其中Num1代表第一阈值,取值范围为:20万≤Num1≤80万;Num2代表第二阈值,取值范围为:1万≤Num2≤10万;MB代表第三阈值,取值范围为:3≤MB≤5;NumC代表第四阈值,取值范围为:2000≤Num3≤5000;
步骤(3)确定A类型博主优先采集策略,得到对每位博主的最优采集时间,具体如下:
步骤(3.1)对于任意ua∈UA,获取d2天内,25≤d2≤31,博主ua的博文的发表时间,去除年月日部分,只保留时分秒部分,排序后得到集合T(ua)={t1,t2,...,tn},其中ti代表博主ua的第i条微博的发表时间;
步骤(3.2)将T(ua)利用k-means算法进行聚类,簇中心的个数k定义见公式(1):
其中:δ为权重,取值范围为:0.3≤δ≤0.8,len(T(ua))为集合T(ua)的大小,k为δ和len(T(ua))乘积的向上取整;
步骤(3.3)获取k-means算法的k个簇中心为{tc1,tc2,...,tck},在每个簇中选择时间最大的作为当前簇的最优采集时间,得到对每位博主的k个最优采集时间,记作
步骤(4)确定B类型博主优先采集策略,得到对B类型博主的优先采集列表SortB,具体如下:
步骤(4.1)构建B类型博主采集回归模型,具体如下:
步骤(4.1.1)从B类型博主集合中随机采样n个,45000≤n≤50000,作为B类型博主的种子博主集合:M={ub1,ub2,...,ubn},其中ubi代表随机采样的第i个B类型博主;
步骤(4.1.2)获取种子博主集合M中每个博主ub的微博特征集合x(ub)以及活跃度值y(ub),
其中,x(ub)表示为一个7元组,x(ub)={Nhot,Nblog,Nreply,Nfollow,Nlike,len,type}
其中,Nhot表示博主d3天内微博中包含热点信息的微博条数,25≤d3≤31;Nblog表示博主d3天内的微博条数,Nreply表示博主d3天内收到的回复数量,Nfollow表示博主d3天内中微博被转发的数量,Nlike表示博主d3天内中收到的点赞数量,len表示博主d3天内所发微博的平均长度,type为1代表当前博主是转发型博主,即在微博总数中,转发微博数量大于原创微博数量,否则为0;
y(ub)由公式(2)进行计算得到:
其中:Hblog代表当前博主d4年内所发的微博数量,1≤d4≤3,Hfollow代表博主d4年内微博被转发的总数量,Hreply代表博主d4年内收到的总回复数量,Hlike代表博主d4年内收到的微博的点赞数量;wf,wr,wl分别代表B类型博主转发、回复、点赞所占的权重值,其中:0.5≤wf≤0.7,0.2≤wr≤0.4,0.1≤wl≤0.2,且wf+wr+wl=1;
步骤(4.1.3)依据种子博主集合M中每个博主ub的微博特征集合,构建回归模型训练集:trainset=[(x(ub1),y(ub1)),(x(ub2),y(ub2)),...,(x(ubn),y(ubn))],其中:(x(ubi),y(ubi))代表博主ubi的微博特征集合和活跃度分数值,活跃度分数值通过公式(2)得到;
步骤(4.1.4)利用随机森林算法构建回归模型,并通过训练集trainset进行训练,得到训练好的模型F(u),其中:u代表每个B类型博主的微博特征集合,F(u)则表示该博主的活跃度值;
步骤(4.2)构建B类型博主的优先采集列表SortB;
步骤(4.2.1)通过训练好的回归模型F(u)获取每一个B类型博主ub的活跃度值F(ub);
步骤(4.2.2)依据活跃度值F(ub)将B类型博主进行降序排序,得到B类型博主的优先采集列表SortB;
步骤(5)确定C类型博主优先采集策略,得到对C类型博主的优先采集列表SortC,具体如下:
步骤(5.1)获取每个C类型博主uc的d5天内的微博总数量Nblog,以及粉丝数量Nfans,25≤d5≤31;
步骤(5.2)C类型博主的活跃度得分score由公式(3)得到:
其中wf代表C类型博主的粉丝数的权重,wb代表所发微博数量的权重,0.1≤wf≤0.3,0.7≤wb≤0.9且wf+wb=1,Nfans和Nblog则代表C类型博主uc的粉丝数和近d5天内的发博总数量;Nfmax和Nfmin代表所有C类型博主的最大粉丝数和最小粉丝数,Nbmax和Nbmin则代表所有C类型博主近d5天内发的微博总数量的最大值和最小值;
步骤(5.3)依据公式(3),依次计算每个C类型博主的活跃度得分,并降序排序得到C类型博主的优先采集列表SortC;
步骤(6)构建A、B、C类博主的采集队列list,采集器根据采集队列搜集博主信息,具体为:
将C类型博主平均分成三份,即sortC={sortC1,sortC2,sortC3},B、C类博主的采集队列为[SortB,SortC1,SortB,SortC2,SortB,SortC3],即SortB采集了三遍的同时,SortC仅仅采集了一遍;
然后将A类所有博主的采集时间加入B、C类博主的采集队列,即当任意A类博主中的最优采集时间与系统时间相等时,则将对应博主的微博采集需求插入到采集队列list中,遍历A类所有博主的最优采集时间,形成A、B、C类博主的采集队列list;
采集器依据list的顺序,采集博主的信息;
步骤(7)定期执行步骤(2)-(6),重新获取博主的近期信息,重新划定博主类型,训练模型,更新采集队列list并采集博主信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811633421.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无线电子通信设备
- 下一篇:进程行为溯源装置和方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





