[发明专利]基于微博社交网络的话题自动推荐方法及其系统有效
| 申请号: | 201510924866.6 | 申请日: | 2015-12-14 |
| 公开(公告)号: | CN105447179B | 公开(公告)日: | 2019-02-05 |
| 发明(设计)人: | 徐华;李佳 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F17/27;G06Q50/00 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
| 地址: | 100084 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 社交 网络 话题 自动 推荐 方法 及其 系统 | ||
1.一种基于微博社交网络的话题自动推荐方法,其特征在于,包括以下步骤:
S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词;
S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;
S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;
S4:根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布;
S5:从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及
S6:根据所述用户重新挖掘的兴趣分布向所述用户推荐相应内容。
2.根据权利要求1所述的基于微博社交网络的话题自动推荐方法,其特征在于,所述步骤S2进一步包括:
S201:从进行预处理后的文字内容中选取多个双词,并根据所述增量双词主题模型对多个所述双词采用对应的主题;
S202:对于每个双词,从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
3.一种基于微博社交网络的话题自动推荐系统,其特征在于,包括:
数据预处理模块,用于对用户的每条微博内容进行预处理,预处理后的文字内容至少包括两个关键词;
主题预测模块,用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;
主题建模模块,用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;
兴趣分布挖掘模块,用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布,还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及
话题推荐展示模块,用于根据所述用户重新挖掘的兴趣分布推荐预设数量的话题。
4.根据权利要求3所述的基于微博社交网络的话题自动推荐系统,其特征在于,所述数据预处理模块包括:
数据清洗模块,用于对所述用户微博中获取的数据进行数据清洗,并将清洗后的关键词放入词袋模型;
时间获取模块,用于获取用户发布微博的时间信息;
关联微博文档建立模块,用于获取每个用户固定数量的最新发布的微博构成关联微博文档;以及
双词抽取模块,用于按照微博发布时间将所述关联微博文档整理成序列化数据,从中抽取最近发布的预设数量个双词。
5.根据权利要求4所述的基于微博社交网络的话题自动推荐系统,其特征在于,所述主题建模模块包括:
双词选取模块,用于从进行预处理后的文字内容中选取多个双词;
增量双词主题模型,用于对多个所述双词采用对应的主题;
信息抽取模块,用于从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510924866.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识学习对等社交网络文档检索方法
- 下一篇:萃取法制备氨基磺酸镍工艺





