[发明专利]一种基于文本挖掘的微博用户兴趣识别方法在审

申请号：	201410195244.X	申请日：	2014-05-09
公开（公告）号：	CN103942340A	公开（公告）日：	2014-07-23
发明（设计）人：	屈鸿;王晓斌;李浩;方正;袁建	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都华典专利事务所(普通合伙) 51223	代理人：	徐丰
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本挖掘用户兴趣识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

一种基于文本挖掘的微博用户兴趣识别方法，文本聚类——利用改进的K-Means算法进行短文本聚类，以及主题模型——利用VSM和LDA模型结合的方法进行文本特征词提取，属于文本挖掘、自然语言处理、机器学习领域。

背景技术

文本特征提取是文本挖掘中关键环节，根据提取出的特征计算文本间的相似度，应用于文本分类、聚类等。微博的广泛应用，使得文本挖掘技术被广泛应用于微博文本中，通过分析微博文本，挖掘当前的热门话题、事件追踪等。

主题模型应用于文本特征提取具有比较理想的效果，它将文本看作是服从一定概率分布的主题集组成，每个主题又是由一定概率分布的词项组成，将文本从“文本-词”的二维空间扩展到“文本-主题-词”三维空间。主题模型可以有效的获取文本的特征，并发现其潜在的语义，也就是主题。主题模型应用于微博短文本中，由于短文本的主题不确切、数据稀疏，不能较准确的发现微博短文本主题。

通过聚类算法将微博短文本集重新组合成新的长文本集，使得新文本集主题更加明确，数据稀疏性降低。K-Means聚类算法是典型的基于距离的聚类算法。工作原理为:随机选择K个样本作为K个类别的中心，计算其它样本到各个中心的距离，将样本归类到距离最短的中心所在的类。更新归类后的每个类别的中心，迭代此步骤，直到两次迭代的中心不再变化结束。

LDA(Latent Dirichlet Analysis，潜在狄利克雷模型)是主题模型中比较好的模型，它将文本看作是由一系列服从多项分布的主题组成，每个主题又是由一系列服从Dirichlet分布组成。LDA模型思想是根据概率分布抽样：根据主题分布抽取一个主题，再根据此主题下的词分布，抽取一个词。迭代此步骤，直到抽取出文本中所有的词，并得到最终结果：“文本-主题”概率矩阵和“主题-词”概率矩阵。根据这两个矩阵，提取原始文本的主题。基于微博短文本的特性，改进LDA模型，如MB-LDA模型，它综合考虑了微博作者和文本的关联关系，来辅助进行微博的主题挖掘.采用吉布斯抽样方法对模型进行推导，不仅能挖掘出微博的主题，还能挖掘出联系人关注的主题。

中文分词指的是将一个汉字序列切分成一个一个单独的词。

N元切词是指分词得到的每个词是由N个字组成，目前比较好的中文分词系统如中科院的ICTCLAS分词系统，可以通过加入用户给定的词典来提高分词效果。

文本表示是将将文本表示成为一个简洁的、统一的、能够被学习算法和分类器所识别的结构化形式，文本表示模型中比较普遍使用的模型是空间向量模型，空间向量模型是指计算每个文本中的特征权值，每个文本都可以由特征向量唯一表示。其中特征向量的每个值通过计算TF-IDF值得到。

现有技术中的微博用户兴趣识别方法还存在许多不足之处，具体如下：

一、微博短文本特征提取，没有将有效的新词加入，导致得到的结果漏检率偏高。

二、已有的技术一般针对海量微博文本或将微博功能引入进行分析，挖掘热门话题、事件等，而没有合理的提出一种针对单个用户的微博文本关联用户兴趣的分析方法，而用户的微博文本对于用户兴趣的识别是一个重要信息来源。

三、由于微博短文本的无结构化、稀疏等特性，特征提取的准确性较低。

发明内容

本发明针对现有技术的不足之处提供一种基于文本挖掘的微博用户兴趣识别方法，可以通过某用户发布的微博，直接观察该用户近期的兴趣习惯。

为实现上述目的，本发明采用的技术方案为：

一种基于文本挖掘的微博用户兴趣识别方法，其特征在于，如下步骤：

(1)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据；