[发明专利]一种基于微博标签的人群画像系统和方法有效
申请号: | 201310481674.3 | 申请日: | 2013-10-16 |
公开(公告)号: | CN103577549B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 阳德青;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 人群 画像 系统 方法 | ||
1.一种基于微博标签的用户人群画像系统,其特征在于,该系统包含微博用户标签推荐模块和标签主题聚类模块两个核心技术模块;其中:
所述微博用户标签推荐模块,分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户推荐;
所述标签主题聚类模块,通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,从而判断出用户所属的人群以及度量用户间的差异性距离用以刻画不同用户群体的特征,实现用户人群画像。
2.一种基于微博标签的用户人群画像方法,其特征在于其通过为微博用户推荐标签来精准刻画用户的属性特征,并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群;具体步骤如下:
(1)分别利用微博用户的同质性和标签的共现性关联来推荐产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户标签推荐;
(2)对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像。
3.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,步骤(1)中,利用微博用户的同质性推荐标签的方法具体如下:挖掘微博用户的好友使用最频繁的标签,为每个微博用户推荐其好友广泛使用的标签,并去除那些过于频繁使用的标签。
4.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,步骤(1)中,利用标签的共现性推荐标签的方法具体如下:以同质性推荐的标签为基础,扩展出与其被共同使用较多的标签,使得推荐的标签更加丰富地刻画用户各方面的属性。
5.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于:步骤(1)中消除候选标签中的冗余标签步的方法具体如下:通过建立中文知识图谱,将百科类网站的词条映射成语义网络中的结点,词条间的超链接映射出网络边,使得网络的拓扑结构可以度量标签的语义范畴,从而判断出候选推荐的标签中是否存在语义冗余。
6.根据权利要求3所述的基于微博标签的用户人群画像方法,其特征在于:所述微博用户的好友为粉丝、关注或互粉对象。
7.根据权利要求3所述的基于微博标签的用户人群画像方法,其特征在于:挖掘时采用算法包括局部的多标签传播算法,以及frequency、tf-idf和tf-rw三种标签打分机制。
8.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,所述用户间的差异性距离是Cosine距离、Pearson距离或Jensen-Shannon距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310481674.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定时宠物喂食装置
- 下一篇:半导体器件制造方法