[发明专利]基于机器学习和抽样算法的微博粉丝数获取方法及装置在审

专利信息
申请号: 201810967355.6 申请日: 2018-08-23
公开(公告)号: CN109255101A 公开(公告)日: 2019-01-22
发明(设计)人: 黄楷;梁新敏;陈羲;吴明辉 申请(专利权)人: 北京学之途网络科技有限公司
主分类号: G06F17/18 分类号: G06F17/18;G06Q50/00
代理公司: 北京天方智力知识产权代理事务所(普通合伙) 11719 代理人: 谷成
地址: 100102 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户社交信息 粉丝 微博 抽样算法 基于机器 特征数据 有效用户 有效用户数 模型构建 判别模型 全量数据 真实用户 学习 文本 分析
【说明书】:

发明提供了一种基于机器学习和抽样算法的微博粉丝数获取方法及装置,其中方法包括:获取待判别用户社交信息,提取待判别用户社交信息中的特征数据,将待判别用户社交信息中的特征数据代入GBDT判别模型进行判别,至少得到待判别用户社交信息中的有效用户;根据微博总体用户数、一个KOL的粉丝数、待判别用户社交信息中的有效用户数以及有效用户中关注KOL的粉丝数计算KOL的真实粉丝数。通过本发明提供的基于机器学习和抽样算法的微博粉丝数获取方法及装置,可以分析微博中真实用户的用户社交信息,并通过抽样算法进行某个KOL真实粉丝数的计算。无需使用微博全量数据,也无需对微博的文本进行复杂的模型构建,技术简单易试试。

技术领域

本发明涉及数据统计领域,尤其涉及一种基于机器学习和抽样算法的微博粉丝数获取方法及装置。

背景技术

如今,对于KOL(Key Opinion Leader,关键意见领袖)在社交平台上的商业化投放,已经越来越重要。对于广告主而言,如何识别某个KOL的影响力已成为一种难题。KOL并不能简单的用粉丝量来判断价值。在当前环境下,仍有相当部分广告主是单纯的付费来使用KOL的媒体价值部分。由于这部分媒体属性数据并不公开,导致所有人都只能看粉丝数和转评赞来,然而两者均相对易被操控,广告主很难用这种体系来判断直接价值。

目前,对于微博有效粉丝预估,国内的研究领域还存在的空白。而对于真实粉丝与无效粉丝的判别,通常使用用户社交数据与发帖数据的混合特征融合。这样做,可以快速区分有效粉丝与无效粉丝,而无法对微博KOL总体真实粉丝进行预估。

目前正缺少一种技术手手段,可以从有限的用户数据中,进行有效粉丝与无效粉丝的判别,并且扩展到整体微博数据中。如果从全量数据中出发,固然可以实现,但是对数据存储和抓取的要求呈线性增长。因此,从有限样本进行真实粉丝的预估,存在巨大的商业价值。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习和抽样算法的微博粉丝数获取方法及装置,能够进行有效粉丝与无效粉丝的判别。

为达到上述目的,本发明的技术方案具体是这样实现的:

本发明的一个方面提供了一种基于机器学习和抽样算法的微博粉丝数获取方法,包括:获取待判别用户社交信息,提取待判别用户社交信息中的特征数据,将待判别用户社交信息中的特征数据代入GBDT判别模型进行判别,至少得到待判别用户社交信息中的有效用户;根据微博总体用户数、一个KOL的粉丝数、待判别用户社交信息中的有效用户数以及待判别用户社交信息中的有效用户中关注KOL的粉丝数计算KOL的真实粉丝数。

其中,方法还包括:获取用户社交信息,利用用户社交信息构建有效用户和无效用户训练样本;提取用户社交信息中的特征数据,并对特征数据进行数据归一化;创建GBDT初步模型,利用有效用户和无效用户训练样本以及特征数据进行有效用户和无效用户训练,修正GBDT初步模型,获得GBDT判别模型。

其中,用户社交信息包括:用户社交数据、用户发博数据和用户隐性数据。

其中,用户社交数据包括以下特征数据的至少之一:用户关注数、粉丝数、收藏数、认证情况和互粉数;用户发博数据包括以下特征数据的至少之一:用户发博数和收藏数;用户隐性数据包括以下特征数据的至少之一:用户关注比、收藏比和互粉比。

其中,对特征数据进行数据归一化包括:对用户社交信息中的特征数据进行特征连接;对构建的用户N*样本维度数D的矩阵进行z-score标准化。

其中,计算KOL的真实粉丝数包括:使用正态分布的概率计算KOL的真实粉丝数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810967355.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top