[发明专利]基于机器学习和抽样算法的微博粉丝数获取方法及装置在审
申请号: | 201810967355.6 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109255101A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 黄楷;梁新敏;陈羲;吴明辉 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q50/00 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户社交信息 粉丝 微博 抽样算法 基于机器 特征数据 有效用户 有效用户数 模型构建 判别模型 全量数据 真实用户 学习 文本 分析 | ||
1.一种基于机器学习和抽样算法的微博粉丝数获取方法,其特征在于,包括:
获取待判别用户社交信息,提取所述待判别用户社交信息中的特征数据,将所述待判别用户社交信息中的特征数据代入GBDT判别模型进行判别,至少得到所述待判别用户社交信息中的有效用户;
根据微博总体用户数、一个KOL的粉丝数、所述待判别用户社交信息中的有效用户数以及所述待判别用户社交信息中的有效用户中关注所述KOL的粉丝数计算所述KOL的真实粉丝数。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取用户社交信息,利用所述用户社交信息构建有效用户和无效用户训练样本;
提取所述用户社交信息中的特征数据,并对所述特征数据进行数据归一化;
创建GBDT初步模型,利用所述有效用户和无效用户训练样本以及所述特征数据进行有效用户和无效用户训练,修正所述GBDT初步模型,获得所述GBDT判别模型。
3.根据权利要求1所述的方法,其特征在于,
所述用户社交信息包括:用户社交数据、用户发博数据和用户隐性数据。
4.根据权利要求2所述的方法,其特征在于,
所述用户社交数据包括以下特征数据的至少之一:用户关注数、粉丝数、收藏数、认证情况和互粉数;
所述用户发博数据包括以下特征数据的至少之一:用户发博数和收藏数;
所述用户隐性数据包括以下特征数据的至少之一:用户关注比、收藏比和互粉比。
5.根据权利要求1所述的方法,其特征在于,所述对所述特征数据进行数据归一化包括:
对所述用户社交信息中的特征数据进行特征连接;
对构建的用户N*样本维度数D的矩阵进行z-score标准化。
6.根据权利要求1所述的方法,其特征在于,所述计算所述KOL的真实粉丝数包括:
使用正态分布的概率计算所述KOL的真实粉丝数。
7.一种基于机器学习和抽样算法的微博粉丝数获取装置,其特征在于,包括:
判别模块,用于获取待判别用户社交信息,提取所述待判别用户社交信息中的特征数据,将所述待判别用户社交信息中的特征数据代入GBDT判别模型进行判别,至少得到所述待判别用户社交信息中的有效用户;
计算模块,用于根据微博官方公布微博总体用户数、微博官方公布的一个KOL的粉丝数、所述待判别用户社交信息中的有效用户数以及所述待判别用户社交信息中的有效用户中关注所述KOL的粉丝数计算所述KOL的真实粉丝数。
8.根据权利要求7所述的装置,其特征在于,还包括:
获取模块,用于获取用户社交信息,利用所述用户社交信息构建有效用户和无效用户训练样本;
归一化模块,用于提取所述用户社交信息中的特征数据,并对所述特征数据进行数据归一化;
训练模块,用于创建GBDT初步模型,利用所述有效用户和无效用户训练样本以及所述特征数据进行有效用户和无效用户训练,修正所述GBDT初步模型,获得所述GBDT判别模型。
9.根据权利要求7所述的装置,其特征在于,
所述用户社交信息包括:用户社交数据、用户发博数据和用户隐性数据。
10.根据权利要求9所述的装置,其特征在于,
所述用户社交数据包括以下特征数据的至少之一:用户关注数、粉丝数、收藏数、认证情况和互粉数;
所述用户发博数据包括以下特征数据的至少之一:用户发博数和收藏数;
所述用户隐性数据包括以下特征数据的至少之一:用户关注比、收藏比和互粉比。
11.根据权利要求7所述的装置,其特征在于,所述归一化模块通过如下方式对所述特征数据进行数据归一化:
所述归一化模块,还用于对所述用户社交信息中的特征数据进行特征连接;对构建的用户N*样本维度数D的矩阵进行z-score标准化。
12.根据权利要求7所述的装置,其特征在于,所述计算模块通过如下方式计算所述KOL的真实粉丝数:
所述计算模块,还用于使用正态分布的概率计算所述KOL的真实粉丝数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810967355.6/1.html,转载请声明来源钻瓜专利网。