[发明专利]一种微博异构信息的用户画像构建方法有效

专利信息
申请号: 202110356902.9 申请日: 2021-04-01
公开(公告)号: CN113076476B 公开(公告)日: 2021-11-30
发明(设计)人: 袁正午;彭宪穅 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35;G06F16/36;G06F16/55;G06F40/247;G06F40/284;G06N3/04;G06N3/08
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 微博异构 信息 用户 画像 构建 方法
【说明书】:

发明涉及一种微博异构信息的用户画像构建方法,属于机器学习和深度学习领域。该方法包括:1)收集合适的文本及图像数据,分别训练好图像及文本分类网络;2)使用爬虫技术爬取微博的文本及图像信息,使用构建好的分类网络得到标签,即user‑topic矩阵,将其作为用户画像;3)对user‑topic使用模糊聚类,发现用户社区;4)使用TF‑IDF对用户分类好的微博进行关键词发现,得到topic‑item矩阵,使用知识图谱思想计算关联词;5)对用户所属社区进行相似度用户计算,选取相似度较高的用户重复步骤4)的方法,并根据词频阈值选取关键词作为内容补充推荐。本发明能为用户推荐相似度较高的用户。

技术领域

本发明属于机器学习和深度学习领域,涉及一种微博异构信息的用户画像构建方法。

背景技术

在大数据时代,随着数据量的急剧增加,微博用户面临着信息爆炸带来的问题,通过建立用户画像了解用户特征从而进行社区发现及社区推荐变得尤为重要。微博数据存在着大量的异构信息,例如图片视频及文字,通过深度学习方法有效提取这些信息,将其作为用户特征信息组建为用户画像,可以方便对用户进行社区发现及商品推荐。

现有的微博用户画像建立方式主要通过TF-IDF及LDA方法提取用户关键词,无法简介描述用户兴趣画像,提取的关键词由于维度过多难以有效利用于推荐。

近年来,随着深度学习的发展,文本分类与图像分类技术愈发成熟,收集合适的语料库以及图像数据集分别训练文本及图像分类模型,采集用户的微博文本以及图像数据进行分类,得到用户-主题(user-topic)矩阵。该方法虽然能减少画像构建的兴趣维度同时简洁有效地描述用户画像,但是缺乏可解释性。

因此,本发明亟需一种能够根据微博异构信息进行社区发现以及内容推荐的用户图像构建方法。

发明内容

有鉴于此,本发明的目的在于提供一种微博异构信息的用户画像构建方法,有效利用微博异构内容对微博用户进行准确的兴趣画像构建,解决传统建模方式粒度过细主题不一致的问题。该方法利用神经网络结合TF-IDF从不同尺度构建user-topic矩阵以及topic-item矩阵,在不同尺度下对微博用户进行画像构建,并结合聚类方法与知识图谱方法,利用构建好的用户画像数据对用户进行内容推荐及社区发现

为达到上述目的,本发明提供如下技术方案:

一种微博异构信息的用户画像构建方法,对于微博异构信息,分别构建文本及图像分类网络,对于微博用户内容进行主题分类,构建好用户画像;对于用户画像,使用聚类方法及知识图谱对用户进行内容推荐以及社区发现;

该方法具体包括以下步骤:

S1:数据收集:收集合适的文本及图像数据,获取用户微博的文本及图像信息;

S2:数据增强;

S3:模型训练:分别训练图像及文本分类网络;

S4:用户画像构建;使用训练好的分类网络分类得到兴趣标签,并将其加入user-topic矩阵,得到用户画像;

S5:对于不同类的微博,采用TF-IDF算法及词性筛选提取关键词,得到细粒度Topic-item矩阵;

S6:采用知识图谱思想,利用知识关联,查找关键词的相似词;

S7:对于user-topic矩阵,使用模糊聚类方法,得到不同类的社区,为微博用户进行社区发现;

S8:对用户所在社区进行社区用户相似度计算,选取相似度较高的用户计算步骤S6的关键词子集,求所有相似用户的关键词子集的公共集作为步骤S6的补充推荐。

进一步,步骤S1中,使用爬虫技术,爬取用户微博的内容,包括文本与图像信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110356902.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top