[发明专利]一种基于文本挖掘的微博用户兴趣识别方法在审
| 申请号: | 201410195244.X | 申请日: | 2014-05-09 |
| 公开(公告)号: | CN103942340A | 公开(公告)日: | 2014-07-23 |
| 发明(设计)人: | 屈鸿;王晓斌;李浩;方正;袁建 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都华典专利事务所(普通合伙) 51223 | 代理人: | 徐丰 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 挖掘 用户 兴趣 识别 方法 | ||
1.一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,如下步骤:
(1)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据;
(2)将采集到的话题性微博文本数据和指定用户微博文本数据进行规范化处理;
(3)将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词,并更新新词词典;
(4)将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,计算中文分词得到的每个词项的TF-IDF值,得到文本向量表示;
(5)对经过文本向量表示的指定用户微博文本数据进行聚类,重组步骤(1)中的原始指定用户微博文本数据,得到新的文本集以及聚类数目;
(6)采用LDA主题建模,提取聚类后得到的新的文本集特征词;
(7)给定主题词典,基于新的文本集特征词,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别。
2.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(3)中,所述微博新词识别方法的步骤为:
(31)采集规范化处理后的话题性微博文本数据;
(32)对话题性微博文本数据进行预处理;
(33)将预处理后的话题性微博文本数据进行多元切词;
(34)将多元切词进行词过滤,即对旧词过滤、词频过滤、相邻串过滤和互信息值过滤。
3.根据权利要求2所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(34)中,所述互信息值的计算是通过公式:
其中,A、B分别表示文本(话题性微博文本数据)中的一个词,P(A,B)为词A、B同时出现的概率,P(A)是词A单独出现的概率,P(B)是词B单独出现的概率,I为词A和词B之间的互信息值。
4.根据权利要求1所述的一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,步骤(5)中,所述聚类的步骤为:
(51)将指定用户微博文本数据转化为V维的文本向量表示,V为N篇文本(指定用户微博文本数据)长度的平均值,通过初始中心给定方法选择K个数据点作为K个聚类类别的中心;
(52)利用欧式距离计算指定用户微博文本数据中每个数据点与K个中心的距离,获得聚类,记为:dij(i=1~N,j=1~K),其中,dij表示第i个数据点到第j个中心的距离,N为数据点个数,i是第i个数据点,j是第j个聚类中心的中心点;
(53)重新计算每个所获聚类的聚类中心,选取min为dij中的最小值,即选取与第i个数据点距离最近的中心点j,设定一个阈值c,若min>c,则将i设为一个新的中心点;反之,文档i隶属于中心点j所在的类别;
(54)更新每个类别中心点,重新计算各个集群的中心;
(55)重复(52)、(53)和(54)步骤,直到收敛,收敛条件设为两次迭代过程的结果对中心点没有影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410195244.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种甘蔗专用肥
- 下一篇:一种草莓专用增效驱虫复合肥





