[发明专利]一种基于多模型堆栈融合的社交媒体用户人口属性预测方法在审
| 申请号: | 201711326271.6 | 申请日: | 2017-12-13 |
| 公开(公告)号: | CN108090607A | 公开(公告)日: | 2018-05-29 |
| 发明(设计)人: | 郑子彬;吴垚明;陈亮 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62;G06Q50/00 |
| 代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
| 地址: | 510275 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 预测 堆栈 融合 媒体用户 人口 准确度 逻辑回归 模型融合 模型训练 社交关系 时间信息 随机森林 文本内容 用户特征 预测结果 有效地 准确率 微博 统计 保证 | ||
本发明涉及一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测。三个人口属性的预测均经过以下步骤:S1、用户特征提取;S2、模型训练;S3、多模型融合得出预测结果;本发明中特征的提取不只针对用户微博的文本内容,还涉及到统计类特征、时间信息类特征以及社交关系特征,保证了预测的准确度。采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合,能有效地降低泛化误差,大大提高预测的准确率。
技术领域
本发明涉及模型预测的技术领域,尤其涉及到一个基于多模型堆栈融合的社交媒体用户人口属性预测方法。
背景技术
随着我国信息化进程的不断推进,网络技术的不断发展,互联网、通信终端加快融入现代生活,微博、微信朋友圈等社交媒体作为一种新的媒体方式出现在人们的生活,并以迅猛的速度发展,并逐渐成为一种独立的、新的信息交流和传播方式,并不断改变着人们的生活。社交媒体迅速发展,在为人们提供社交便利的同时,也对广告媒体产生了巨大的冲击和影响。广告媒体如何利用社交媒体用户的特点,通过挖掘用户在社交媒体上面的行为偏好对用户的隐含特征如性别、年龄、地区等进行挖掘,根据挖掘出来的用户特征,更有针对性地投放广告,提高广告命中率,是广告媒体最关注的问题。
现有的社交媒体用户人口属性预测研究主要是针对用户所发博文的文本内容进行研究,常用的技术有K近邻算法、SVM、贝叶斯等方法,但是存在着以下一些问题:
1、由于社交媒体上所发布的内容中有大量广告、分享、新闻等用户原创的内容,只针对文本进行挖掘会有较大的误差。
2、数据高维问题。传统的文本分类方法一般是提取文本的TFIDF特征,维度可高达数十万维,对于传统的SVM分类模型会造成训练时间极长,不能有效收敛的问题。
3、数据存在不平衡的问题,微博用户大部分性别为男性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多模型堆栈融合的社交媒体用户人口属性预测方法。
为实现上述目的,本发明所提供的技术方案为:
对用户的性别、年龄、地区三个人口属性进行预测,三个人口属性的预测均经过以下步骤:
S1、用户特征提取:
性别特征提取:男性和女性在用词、关注话题等方面会存在一些偏好,比如男性用户会比较偏向与关注科技信息、体育资讯等方面的话题,女性用户则会较多关注护肤、美容等话题。利用TFIDF思想,把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,最终得到多维的TFIDF特征,最终通过卡方检验选取出前多维TFIDF特征。除了TFIDF特征外,还抽取了用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数等统计类特征。男女性用户一天内在社交媒体上的活跃时间段分布也有很大差异,于是提取了各时间段用户所发博文数量的时间信息类特征。
年龄特征提取:不同年龄段的用户的社交关系存在很大的差异,用户的社交圈子通常大部分都是同一年龄段的用户,因此年龄特征提取除了上述用到的经过卡方检验筛选后的TFIDF特征、统计类特征、时间信息类特征外还加入了用户的社交关系特征。
地区特征提取:地区特征包括上述的TFIDF特征、统计类特征、时间信息类特征、社交关系特征外还加入了用户所发博文中包含的省、市名。因为现代社交媒体有着定位、签到功能,当用户使用签到功能时博文文本中就会出现用户所在地的省市名,因此该类特征也能很好地描述用户的地区信息。
S2、模型训练:
逻辑回归模型(LR):是一种简单高效的线性模型,在实际应用中十分广泛快速,并且能够轻易地训练大规模数据,在很好地拟合模型的前提下,模型的解释度也能够很好地兼顾。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711326271.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:设备故障发现方法及系统
- 下一篇:一种基于BP神经网络的岸桥状态预测方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





