[发明专利]一种基于文本挖掘的微博用户兴趣识别方法在审

专利信息
申请号: 201410195244.X 申请日: 2014-05-09
公开(公告)号: CN103942340A 公开(公告)日: 2014-07-23
发明(设计)人: 屈鸿;王晓斌;李浩;方正;袁建 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都华典专利事务所(普通合伙) 51223 代理人: 徐丰
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 挖掘 用户 兴趣 识别 方法
【说明书】:

技术领域

一种基于文本挖掘的微博用户兴趣识别方法,文本聚类——利用改进的K-Means算法进行短文本聚类,以及主题模型——利用VSM和LDA模型结合的方法进行文本特征词提取,属于文本挖掘、自然语言处理、机器学习领域。

背景技术

文本特征提取是文本挖掘中关键环节,根据提取出的特征计算文本间的相似度,应用于文本分类、聚类等。微博的广泛应用,使得文本挖掘技术被广泛应用于微博文本中,通过分析微博文本,挖掘当前的热门话题、事件追踪等。

主题模型应用于文本特征提取具有比较理想的效果,它将文本看作是服从一定概率分布的主题集组成,每个主题又是由一定概率分布的词项组成,将文本从“文本-词”的二维空间扩展到“文本-主题-词”三维空间。主题模型可以有效的获取文本的特征,并发现其潜在的语义,也就是主题。主题模型应用于微博短文本中,由于短文本的主题不确切、数据稀疏,不能较准确的发现微博短文本主题。

通过聚类算法将微博短文本集重新组合成新的长文本集,使得新文本集主题更加明确,数据稀疏性降低。K-Means聚类算法是典型的基于距离的聚类算法。工作原理为:随机选择K个样本作为K个类别的中心,计算其它样本到各个中心的距离,将样本归类到距离最短的中心所在的类。更新归类后的每个类别的中心,迭代此步骤,直到两次迭代的中心不再变化结束。

LDA(Latent Dirichlet Analysis,潜在狄利克雷模型)是主题模型中比较好的模型,它将文本看作是由一系列服从多项分布的主题组成,每个主题又是由一系列服从Dirichlet分布组成。LDA模型思想是根据概率分布抽样:根据主题分布抽取一个主题,再根据此主题下的词分布,抽取一个词。迭代此步骤,直到抽取出文本中所有的词,并得到最终结果:“文本-主题”概率矩阵和“主题-词”概率矩阵。根据这两个矩阵,提取原始文本的主题。基于微博短文本的特性,改进LDA模型,如MB-LDA模型,它综合考虑了微博作者和文本的关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样方法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。

中文分词指的是将一个汉字序列切分成一个一个单独的词。

N元切词是指分词得到的每个词是由N个字组成,目前比较好的中文分词系统如中科院的ICTCLAS分词系统,可以通过加入用户给定的词典来提高分词效果。

文本表示是将将文本表示成为一个简洁的、统一的、能够被学习算法和分类器所识别的结构化形式,文本表示模型中比较普遍使用的模型是空间向量模型,空间向量模型是指计算每个文本中的特征权值,每个文本都可以由特征向量唯一表示。其中特征向量的每个值通过计算TF-IDF值得到。

现有技术中的微博用户兴趣识别方法还存在许多不足之处,具体如下:

一、微博短文本特征提取,没有将有效的新词加入,导致得到的结果漏检率偏高。

二、已有的技术一般针对海量微博文本或将微博功能引入进行分析,挖掘热门话题、事件等,而没有合理的提出一种针对单个用户的微博文本关联用户兴趣的分析方法,而用户的微博文本对于用户兴趣的识别是一个重要信息来源。

三、由于微博短文本的无结构化、稀疏等特性,特征提取的准确性较低。

发明内容

本发明针对现有技术的不足之处提供一种基于文本挖掘的微博用户兴趣识别方法,可以通过某用户发布的微博,直接观察该用户近期的兴趣习惯。

为实现上述目的,本发明采用的技术方案为:

一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,如下步骤:

(1)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据;

(2)将采集到的话题性微博文本数据和指定用户微博文本数据进行规范化处理;

(3)将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词,并更新新词词典;

(4)将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,计算中文分词得到的每个词项的TF-IDF值,得到文本向量表示;

(5)对经过文本向量表示的指定用户微博文本数据进行聚类,重组步骤(1)中的原始指定用户微博文本数据,得到新的文本集以及聚类数目;

(6)采用LDA主题建模,提取聚类后得到的新的文本集特征词;

(7)给定主题词典,基于新的文本集特征词,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别。

作为优选,步骤(3)中,所述微博新词识别方法的步骤为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410195244.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top