[发明专利]一种基于文本挖掘的微博用户兴趣识别方法在审
| 申请号: | 201410195244.X | 申请日: | 2014-05-09 |
| 公开(公告)号: | CN103942340A | 公开(公告)日: | 2014-07-23 |
| 发明(设计)人: | 屈鸿;王晓斌;李浩;方正;袁建 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都华典专利事务所(普通合伙) 51223 | 代理人: | 徐丰 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于文本挖掘的微博用户兴趣识别方法,属于文本挖掘、自然语言处理领域,采集微博文本集的最新话题性微博文本数据和指定用户微博文本数据;将采集到的微博文本数据进行规范化处理;将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词并更新新词词典;将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,得到文本向量表示;对经过文本向量表示的指定用户微博文本数据进行聚类,重组原始微博文本数据;采用主题模型,提取新的文本集特征;给定主题词典,基于新的文本集特征,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别,使特征提取的准确性提高。 | ||
| 搜索关键词: | 一种 基于 文本 挖掘 用户 兴趣 识别 方法 | ||
【主权项】:
一种基于文本挖掘的微博用户兴趣识别方法,其特征在于,如下步骤:(1)采集微博文体集的最新话题性微博文本数据以及指定用户微博文本数据;(2)将采集到的话题性微博文本数据和指定用户微博文本数据进行规范化处理;(3)将规范化处理后的话题性微博文本数据采用微博新词识别方法,识别出最新微博新词,并更新新词词典;(4)将规范化处理后的指定用户微博文本数据,利用新词词典的分词方法进行中文分词,计算中文分词得到的每个词项的TF‑IDF值,得到文本向量表示;(5)对经过文本向量表示的指定用户微博文本数据进行聚类,重组步骤(1)中的原始指定用户微博文本数据,得到新的文本集以及聚类数目;(6)采用LDA主题建模,提取聚类后得到的新的文本集特征词;(7)给定主题词典,基于新的文本集特征词,计算每个主题词典权重,获得最终主题,作为微博用户兴趣识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410195244.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种甘蔗专用肥
- 下一篇:一种草莓专用增效驱虫复合肥





