[发明专利]一种基于LSTM与LeNet融合的微博用户年龄预测方法有效
申请号: | 201910447984.0 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110196945B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 彭成;梁宏健;宋彦晶;康权威;张佳籴 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06Q10/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm lenet 融合 用户 年龄 预测 方法 | ||
本发明涉及一种基于LSTM与LeNet融合的微博用户年龄预测方法,属于信息预测技术领域,包括以下步骤:爬取数据:爬取微博用户的信息,并保存到本地计算机;微博文本分词:文本内容分词、停用词过滤后,分词结果向量化;搭建LSTM:对向量采用长短期记忆模型LSTM建模,并预测用户年龄;图片预处理:将图片统一成相同大小;搭建LeNet:搭建LeNet模型,将数据集图片数据增强并转为张量,并测试选出最高命中率的模型;结果整合:将训练好的文本处理模块模型与图片处理模块模型整合处理。对比现有技术,本发明解决了以往模型难以跟上潮流的问题,提高了识别准确度,在未来的用户运营、精准广告营销、用户分析、数据分析和推荐系统等领域具有广泛的应用前景。
技术领域
本发明涉及一种基于LSTM与LeNet融合的微博用户年龄预测方法,属于信息预测技术领域,适用于用户运营、精准广告营销、用户倾向性分析、网络内容监控等。
背景技术
用户年龄预测是构建用户画像的子问题,用户画像其实就是将微博用户的个人信息进行标签化处理。构建用户画像有两点好处。第一,能结构化的存储微博用户信息,方便计算机对其进行识别与计算。第二,标签有着准确性与非二义性,能对人工处理与理解提供帮助。用户画像在用户运营、精准广告营销、用户分析、数据分析和推荐系统等领域有着不同程度的应用。
微博已经成为了当今社会最受欢迎的社交媒体之一,我们可以深入挖掘微博的内容,以获得巨大的资源。但是,大多数微博用户没有年龄信息。因此通过微博用户所发内容推测微博用户的年龄信息是一项必须且困难的工作。
目前,用户年龄预测主要包括基于机器学习的年龄预测方法、基于统计学的年龄预测方法以及基于深度学习的年龄预测方法。
基于机器学习的方法是指采用支持向量机和贝叶斯等分类器进行年龄预测。2009年,Tam和Martel在文献《Age detection in chat》(IEEE International Conferenceon.IEEE,2009)中采用了支持向量机的方法来构建模型,为了从人群当中识别出青少年。2011年,Rosenthal和Mckeown在文献《Classifying latent user attributes intwitter》(Proceedings of the 2nd international workshop on Search and mininguser-generated contents.ACM,2010)中预测了用户出生于社交媒体时代分界线前还是之后。
基于统计学的方法指通过统计词频、逆文本频率指数等进行年龄预测。清华大学的Zheng L在论文《Predicting Age Range of Users over Microblog Dataset》(International Journal of Database Theory and Application, 2013)中使用微博用户标签、微博内容等特征来预测用户的年龄段。
基于深度学习的年龄预测方法指利用循环神经网络或其他深度学习方法进行年龄预测。陈敬等在文献《基于双通道LSTM的用户年龄识别方法》(山东大学学报(理学版),2017)中使用了一种基于LSTM的年龄回归方法,采用了即文本特征和社交特征进行集成学习。
本文会使用到的LSTM(long-short term memory,长短期记忆模型)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的。卷积神经网络是现在深度学习中经常被使用的一种网络框架,在计算机视觉领域更是有着广泛的应用,本文使用的LeNet出自论文《Gradient-Based Learning Applied to Document Recognition》(Proceedingsof the IEEE 86:2278–2324,1998),是一种非常高效的卷积神经网络。OpenCV有开源的函数库,可以满足用户在不同领域的图像处理需求,可以直接使用函数调用的方式,也可以直接在其开源的软件上进行代码改进,这对于图像处理有着很大便利。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910447984.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种序列化信息的推荐方法及装置
- 下一篇:一种基于深度学习的个性化推荐方法