[发明专利]一种基于微博文本的个人和机构用户分类方法及系统在审
| 申请号: | 201410495083.6 | 申请日: | 2014-09-24 |
| 公开(公告)号: | CN104199981A | 公开(公告)日: | 2014-12-10 |
| 发明(设计)人: | 李寿山;薛云霞;周国栋;王红玲 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215137 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 人和 机构 用户 分类 方法 系统 | ||
技术领域
本发明属于自然语言处理和社交网络领域,尤其涉及一种基于微博文本的个人和机构用户分类方法及系统。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户特征分析。
所谓微博用户特征分析,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并根据这些特征进行用户分类、用户挖掘及影响力探测等。其中微博用户分类是微博用户特征分析的一项基本内容,具体来讲,是将微博用户划分为特定类别,比如:名人、媒体、博主、和组织;或者广播人、一般人和垃圾虫。然而,由于社交网络刚刚起步相关研究较少,因此关于用户类别的研究也比较缺乏。
但是,已有的研究主要是针对Twitter等外文网站,且利用的信息是网站提供的社交网络信息。然而,相对于社交网络信息,文本信息,例如,用户名和所发微博等,更容易获取且更具普遍性。
鉴于上述原因,本发明提供一种基于微博文本的个人和机构用户分类方法及系统。
发明内容
本发明提供一种基于微博文本的个人和机构用户分类方法,包括以下步骤。
S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。
S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。
S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。
优选的,在步骤S1中,收集用户发表的微博文本过程包括以下步骤。
S101、构建一个用户列表,并初始化为空;
S102、随机选择一个用户作为种子用户,并将所有微博用户加入用户列表中。
S103、从所述用户列表取出一个用户,通过微博网站提供的API抓取用户信息及该用户发表过的微博文本,并将关注用户和粉丝用户加入到用户队列中。
S104、重复S103直到达到所需的用户规模。
优选的,在步骤S103中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
优选的,在步骤S1中,根据抓取的用户信息中的认证类型,将用户标注为个人用户和机构用户两种类型。
优选的,在步骤S2中,采用分词软件ICTCLAS将标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为训练样本。
优选的,步骤S2是利用所述训练样本及Mallet提供的贝叶斯工具包构建贝叶斯分类器。
优选的,在步骤S3中,利用贝叶斯分类器对待测用户进行分类的过程为:
对于某待测用户,获取该用户发表的微博文本;
利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果。
本发明还提供一种基于微博文本的个人和机构用户分类系统,包括用户微博文本获取模块、用户类别标注模块、训练语料获取模块、分类器构建模块及待测用户分类模块,所述用户微博文本获取模块连接用户类别标注模块,所述用户类别标注模块连接训练语料获取模块,所述训练语料获取模块连接分类器构建模块,所述分类器构建模块连接待测用户分类模块。所述用户微博文本获取模块,用于获取用户微博文本及认证类型等信息。所述用户类别标注模块,用于对获取的用户进行极性标注,即将用户标注为个人用户和机构用户。所述训练语料获取模块,用于获取已标注类别的用户的微博,并将其作为训练样本。所述分类器构建模块,用于利用所述已获取的微博训练样本构建贝叶斯分类器。所述待测用户分类模块,用于利用所述贝叶斯分类器对待测用户进行分类。
通过本发明提供的基于微博文本的个人和机构用户分类方法及系统,对收集到的用户类型进行标注后,将标注好的微博文本进行处理作为训练样本,并构建贝叶斯分类器。最后根据贝叶斯分类器对待测用户进行分类,以确定用户类别。如此,通过对微博文本信息的处理,达到了对个人和机构用户自动分类的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学;,未经苏州大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410495083.6/2.html,转载请声明来源钻瓜专利网。





