[发明专利]一种基于多模型堆栈融合的社交媒体用户人口属性预测方法在审
| 申请号: | 201711326271.6 | 申请日: | 2017-12-13 |
| 公开(公告)号: | CN108090607A | 公开(公告)日: | 2018-05-29 |
| 发明(设计)人: | 郑子彬;吴垚明;陈亮 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62;G06Q50/00 |
| 代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
| 地址: | 510275 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 预测 堆栈 融合 媒体用户 人口 准确度 逻辑回归 模型融合 模型训练 社交关系 时间信息 随机森林 文本内容 用户特征 预测结果 有效地 准确率 微博 统计 保证 | ||
1.一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测,其特征在于:所述三个人口属性的预测均经过以下步骤:
S1、用户特征提取;
S2、模型训练;
S3、多模型融合得出预测结果;
所述步骤S1中:
进行性别属性预测时,性别特征提取包括TFIDF特征、统计类特征以及时间信息类特征的提取;
进行年龄属性预测时,年龄特征提取包括TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取;
进行地区属性预测时,地区特征提取包括TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取;
所述步骤S2中:
所述步骤S2模型训练包括逻辑回归模型、随机森林模型以及XGBoost模型,通过利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练,分别得出一份stacking特征。
2.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述步骤S3多模型融合得出预测结果,在步骤S2训练得到的三份stacking特征上,结合TFIDF特征之外的其他特征作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户属性类别的结果。
3.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述TFIDF特征提取过程为:把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,然后计算出文档中每个词的TFIDF值,得出多维的TFIDF特征,最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出。
4.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述社交关系特征提取具体步骤如下:
利用所有用户的粉丝关注关系构造一个有向的社交网络图,边的方向为用户指向其粉丝,训练Graph Embedding模型得到多维用户的embedding特征向量;该Graph Embedding模型以某个用户为起点,通过随机游走遍历社交网络图,抽取出一系列相关的用户,把这一系列相关用户的集合视为一个文档,其中每个用户视为一个词,再通过word2vec算法来训练出每个用户的向量,学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度;两个节点间连线的权重越大,结点越相似;两个结点的共同邻居越多,结点越相似。
5.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计;
所述时间信息类特征具体为各时间段用户所发的博文数、工作日发博数占比、日均发博数量。
6.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:所述步骤S2中,逻辑回归模型、随机森林模型以及XGBoost模型各训练得出一份stacking特征的具体过程均如下:
先将TFIDF特征训练数据随机划分成五份,用相同模型训练四块训练集,并预测剩下的一块训练集各个类别的概率,并循环五次,得到每一块训练集的各个类别的概率;然后把五份预测出来的概率拼接起来得到训练集的stacking特征;最后采用训练得到的五个模型对测试集做预测,并对五个预测结果取均值得到测试集的stacking特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711326271.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:设备故障发现方法及系统
- 下一篇:一种基于BP神经网络的岸桥状态预测方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





