[发明专利]一种基于微博标签的人群画像系统和方法有效
申请号: | 201310481674.3 | 申请日: | 2013-10-16 |
公开(公告)号: | CN103577549B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 阳德青;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 人群 画像 系统 方法 | ||
技术领域
本发明属于无线通信网络技术领域,具体涉及一种基于微博标签的人群画像系统和方法。
背景技术
微博是现阶段最热门的社交媒体,以新浪、腾讯为代表的国内微博网站的用户规模在近几年得到飞速增长。以新浪微博为例,截止到2012年底,其注册用户数已经超过5亿,而每天的活跃用户数就已经突破4620万人。随着微博的快速发展,和其相关的各种应用和服务正在创造越来越多的商业价值。
让用户使用个性标签是新浪和腾讯等主流微博网站提供的一个重要服务,用户可以使用这些标签来描述自己的身份、职业、兴趣、宗教信仰等个人属性,甚至是表达自己的某些观点。作为用户个人属性描述的重要补充,用户的标签连同个人信息页面的其它内容都能作为浏览者详细了解该用户的重要信息来源。而深入了解一个用户则对很多现实的应用有所帮助,如特殊用户搜索、好友推荐、在线广告和企业的客户关系管理等等。因此,为每个微博用户推荐一组能够准确描述用户相关属性的标签用于刻画不同用户群体的特征,或称作用户人群画像,具有重要意义。
现有的社会标注系统大都针对网络物体的标注,如Flickr网站中的图片或者URL链接资源。这些系统都是为用户提供标签来标注物体,而非用户本身。像很多以协同过滤(collaborative filtering)[1]为基本推荐机制的推荐算法都是建立在这样一个假设之上。假设用户A和用户B之前已经对很多物体对象的标注使用了相同或相似的标签,就说明A和B对事物的认知非常相似,那么A对于一个新物体的标注则很有可能使用B对该物体用过的相同标签。但是,在对微博用户的标注中,这种假设并不成立,用户只会对自己标注,甚至很多用户对自己都没有使用任何标签。因此已有的社会标签推荐系统使用的方法并不能直接应用于微博用户标签的场景
社会标注更看重大多数人对某一物体对象的集体偏好来做标签推荐,而标注微博用户却要考虑如何真实地刻画被标注用户的个人偏好。 显然,发掘用户的个人特性和偏好要比寻找大众的偏好更难,因为每个人都有自己独特的个性。
发明内容
本发明的目的在于通过设计一个有效的微博用户推荐系统,提供一种基于微博标签的人群画像系统和方法。其需要解决以下几个问题。
1、做标签推荐时需要面对协同过滤类推荐算法经常遇见的一个难题――冷启动(cold start)问题,尤其考虑到新浪微博用户中有将近一半的人是没有任何标签的。所谓冷启动,是指在向一个用户推荐某个新出现的物体(如某件商品)时,由于对于该物体没有历史的推荐记录可以参考,使得推荐算法无法起作用。
2、第二个挑战是要考虑到被推荐的标签足够多样化才能充分的刻画一个人多方面的属性,因为一个真实的人远比一个物体复杂,他可以使用很多个标签来分别描述自己各个方面的特性,例如教育背景、兴趣爱好,甚至是崇拜的明星等等。怎样才能找出一组多样化的标签是非常具有挑战性的工作。
3做标签推荐时应当注意到推荐的标签中存在的语义冗余问题。如新浪微博只允许一个用户最多使用10个标签,那么每个用户自然希望每个标签都尽可能地描述自己,对于同义词或者近义词一般来说是不会同时放入自己的标签组中。相比之下,对于同一个物体对象的描述,使用同义词或者近义词标签则是很常见的。因而,在这些标注物体的标签推荐系统中,语义冗余问题是可以回避的。
针对以上需要解决的技术难题和研究目的,本发明在以往相关研究技术的基础上,融入全新的算法思想,并借助海量的互联网语义实体信息(中文知识图谱)实现了准确的微博用户人群画像技术。
本发明提供的一种基于微博标签的人群画像系统,主要分为微博用户标签推荐和标签主题聚类两大模块,其中:
所述微博用户标签推荐模块,分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户推荐;
所述标签主题聚类模块,通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,从而判断出用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像。
图1所示为本发明的整体技术框架。
本发明中,微博用户的标签推荐模块中涉及的推荐算法涵盖三个主要的工作步骤。算法的每一步正好应对了上述每一个挑战中的难题。
涉及的标签推荐算法三个步骤简述如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310481674.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定时宠物喂食装置
- 下一篇:半导体器件制造方法