[发明专利]一种基于多模型堆栈融合的社交媒体用户人口属性预测方法在审
| 申请号: | 201711326271.6 | 申请日: | 2017-12-13 |
| 公开(公告)号: | CN108090607A | 公开(公告)日: | 2018-05-29 |
| 发明(设计)人: | 郑子彬;吴垚明;陈亮 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62;G06Q50/00 |
| 代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
| 地址: | 510275 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测。三个人口属性的预测均经过以下步骤:S1、用户特征提取;S2、模型训练;S3、多模型融合得出预测结果;本发明中特征的提取不只针对用户微博的文本内容,还涉及到统计类特征、时间信息类特征以及社交关系特征,保证了预测的准确度。采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合,能有效地降低泛化误差,大大提高预测的准确率。 | ||
| 搜索关键词: | 预测 堆栈 融合 媒体用户 人口 准确度 逻辑回归 模型融合 模型训练 社交关系 时间信息 随机森林 文本内容 用户特征 预测结果 有效地 准确率 微博 统计 保证 | ||
【主权项】:
1.一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测,其特征在于:所述三个人口属性的预测均经过以下步骤:S1、用户特征提取;S2、模型训练;S3、多模型融合得出预测结果;所述步骤S1中:进行性别属性预测时,性别特征提取包括TFIDF特征、统计类特征以及时间信息类特征的提取;进行年龄属性预测时,年龄特征提取包括TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取;进行地区属性预测时,地区特征提取包括TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取;所述步骤S2中:所述步骤S2模型训练包括逻辑回归模型、随机森林模型以及XGBoost模型,通过利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练,分别得出一份stacking特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711326271.6/,转载请声明来源钻瓜专利网。
- 上一篇:设备故障发现方法及系统
- 下一篇:一种基于BP神经网络的岸桥状态预测方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





