[发明专利]一种基于微博文本的个人和机构用户分类方法及系统在审

专利信息
申请号: 201410495083.6 申请日: 2014-09-24
公开(公告)号: CN104199981A 公开(公告)日: 2014-12-10
发明(设计)人: 李寿山;薛云霞;周国栋;王红玲 申请(专利权)人: 苏州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 常亮
地址: 215137 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 人和 机构 用户 分类 方法 系统
【说明书】:

技术领域

发明属于自然语言处理和社交网络领域,尤其涉及一种基于微博文本的个人和机构用户分类方法及系统。

背景技术

互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户特征分析。

所谓微博用户特征分析,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并根据这些特征进行用户分类、用户挖掘及影响力探测等。其中微博用户分类是微博用户特征分析的一项基本内容,具体来讲,是将微博用户划分为特定类别,比如:名人、媒体、博主、和组织;或者广播人、一般人和垃圾虫。然而,由于社交网络刚刚起步相关研究较少,因此关于用户类别的研究也比较缺乏。

但是,已有的研究主要是针对Twitter等外文网站,且利用的信息是网站提供的社交网络信息。然而,相对于社交网络信息,文本信息,例如,用户名和所发微博等,更容易获取且更具普遍性。

鉴于上述原因,本发明提供一种基于微博文本的个人和机构用户分类方法及系统。

发明内容

本发明提供一种基于微博文本的个人和机构用户分类方法,包括以下步骤。

S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。

S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。

S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。

优选的,在步骤S1中,收集用户发表的微博文本过程包括以下步骤。

S101、构建一个用户列表,并初始化为空;

S102、随机选择一个用户作为种子用户,并将所有微博用户加入用户列表中。

S103、从所述用户列表取出一个用户,通过微博网站提供的API抓取用户信息及该用户发表过的微博文本,并将关注用户和粉丝用户加入到用户队列中。

S104、重复S103直到达到所需的用户规模。

优选的,在步骤S103中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。

优选的,在步骤S1中,根据抓取的用户信息中的认证类型,将用户标注为个人用户和机构用户两种类型。

优选的,在步骤S2中,采用分词软件ICTCLAS将标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为训练样本。

优选的,步骤S2是利用所述训练样本及Mallet提供的贝叶斯工具包构建贝叶斯分类器。

优选的,在步骤S3中,利用贝叶斯分类器对待测用户进行分类的过程为:

对于某待测用户,获取该用户发表的微博文本;

利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果。

本发明还提供一种基于微博文本的个人和机构用户分类系统,包括用户微博文本获取模块、用户类别标注模块、训练语料获取模块、分类器构建模块及待测用户分类模块,所述用户微博文本获取模块连接用户类别标注模块,所述用户类别标注模块连接训练语料获取模块,所述训练语料获取模块连接分类器构建模块,所述分类器构建模块连接待测用户分类模块。所述用户微博文本获取模块,用于获取用户微博文本及认证类型等信息。所述用户类别标注模块,用于对获取的用户进行极性标注,即将用户标注为个人用户和机构用户。所述训练语料获取模块,用于获取已标注类别的用户的微博,并将其作为训练样本。所述分类器构建模块,用于利用所述已获取的微博训练样本构建贝叶斯分类器。所述待测用户分类模块,用于利用所述贝叶斯分类器对待测用户进行分类。

通过本发明提供的基于微博文本的个人和机构用户分类方法及系统,对收集到的用户类型进行标注后,将标注好的微博文本进行处理作为训练样本,并构建贝叶斯分类器。最后根据贝叶斯分类器对待测用户进行分类,以确定用户类别。如此,通过对微博文本信息的处理,达到了对个人和机构用户自动分类的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学;,未经苏州大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410495083.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top