[发明专利]一种基于LSTM与LeNet融合的微博用户年龄预测方法有效
申请号: | 201910447984.0 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110196945B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 彭成;梁宏健;宋彦晶;康权威;张佳籴 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06Q10/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm lenet 融合 用户 年龄 预测 方法 | ||
1.一种基于LSTM与LeNet融合的微博用户年龄预测方法,其特征在于:包括以下步骤:
步骤1,对用户动态微博信息按年龄段进行采集;
步骤2,对步骤1采集的微博信息进行预处理使相同年龄段的所有用户的文本放入一个文件夹中,相同年龄段的所有用户的图片放入一个文件夹中;
步骤3,对步骤2预处理后的微博文本数据进行分词、过滤停用词的操作,再将分词结果向量化为用张量表示的词向量;
步骤4,对微博文本内容搭建长短期记忆模型网络LSTM,即文本分类器;
步骤5,使用步骤3得到的词向量,对步骤4搭建的文本分类器进行训练;
步骤6,对步骤2预处理后的微博图片进行图像处理使其大小一致;
步骤7,搭建LeNet的图片分类器;
步骤8,使用步骤6处理后的图片数据,对步骤7搭建的图片分类器进行训练;
步骤9,对每个用户的微博信息,其中的文本数据通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出,图片数据通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出;然后将文本分类器的输出结果连接上图片分类器的输出结果作为机器学习分类器的输入,机器学习分类器为SVM分类器、朴素贝叶斯分类器、随机森林分类器、逻辑回归分类器,用户年龄段作为标签,对机器学习分类器进行训练,选择准确率最高的机器学习分类器;
步骤10,将待预测年龄段用户的微博信息通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出,通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出,然后将文本分类器的输出结果连接上图片分类器的输出结果输入步骤9得到的机器学习分类器进行分类得到用户所属年龄段预测结果;
步骤1所述年龄段为“0-17”、“18-28”、“29-44”和“45+”四个年龄段,其中45+表示45岁以上;
所述采集通过以下过程进行:
首先筛选符合各年龄段的用户,在这一步初步去除各种企业号、广告号和空号;然后按照初步筛选出来的用户的id,使用手机版微博访问他们的用户主页,爬取前n条微博的内容,包括文本和图片,n为自然数;接下来对用户进行再一次筛选,在爬取下来的用户中,再次去除虚假用户,保证数据集的可靠性;所述步骤3通过以下过程实现:
首先,创建微博词语字典,在创建微博词语字典时采用最新的微博词语语料库,并提供可随时更新语料库的接口,提高分词准确程度;然后,输入用户年龄及其微博内容,对微博内容采用jieba分词,把用户所在年龄段作为其标签,并过滤停用词,但是保留组成表情符号的标点符号;最后,采用Word2vec模型将分词得到的结果向量化;最后,再将分词结果向量转换成用张量表示的词向量;
所述步骤4通过以下过程实现:
首先输入步骤3生成的用张量表示的词向量;再将张量输入长短期记忆模型,使用“Sigmoid”作为其激活函数;接着,设置一个全连接层,在全连接层中对长短期记忆模型上一层的神经元全部连接,实现特征的非线性组合,使用“Tanh”作为其激活函数;再加入一个全连接层,使用“softmax”作为其激活函数,并输出softmax向量结果,最终得到的softmax向量为4维张量,每个维度表示其属于该年龄段的概率大小,取值在(0,1)区间;最后,在两个全连接层中应用Dropout来防止数据过拟合;
所述dropout比率为0.2;
所述步骤7通过以下过程完成:
首先将输入图像在输入层中转换为张量表示;其次将张量表示作为卷积层的输入,使用卷积核在张量上滑动;接着在池化层中进行特征选择和信息过滤;然后在整个神经网络中重复多个卷积层和池化层;最后,将最后一层池化层连接到全连接层中,输出softmax向量结果,最终得到的softmax向量为4维张量,每个维度表示其属于该年龄段的概率大小,取值在(0,1)区间;
在步骤8所述对步骤7搭建的图片分类器进行训练之前对所述图片数据进行数据增强操作;使用ImageDataGenerator类构造方法对图片数据集文件进行数据增强操作,并生成迭代器;该操作将旋转角度参数设置为30度,水平平移和垂直平移均平移0.1个单位,错切变换和放大变换均0.2个单位,允许随机水平翻转,允许放缩操作,并且仅能使用邻近填充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910447984.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种序列化信息的推荐方法及装置
- 下一篇:一种基于深度学习的个性化推荐方法