[发明专利]基于微博社交网络的话题自动推荐方法及其系统有效
申请号: | 201510924866.6 | 申请日: | 2015-12-14 |
公开(公告)号: | CN105447179B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 徐华;李佳 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F17/27;G06Q50/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社交 网络 话题 自动 推荐 方法 及其 系统 | ||
本发明公开了一种基于微博社交网络的话题自动推荐方法及其系统,方法包括:对每条微博内容进行预处理;使用增量双词主题模型对预处理后的文字内容进行主题预测,得到每条微博对应的主题;根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;根据隐含狄利克雷分布模型挖掘用户的兴趣分布;从新发布的微博内容中抽取预设数量的微博内容重新挖掘用户的兴趣分布,并删除发布最早的微博内容;根据用户的兴趣分布向用户推荐相应内容。本发明具有如下优点:对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在很多自然语言处理应用场景下提高现有系统的准确性。
技术领域
本发明涉及计算机应用技术与社交网络领域,具体涉及一种基于微博社交网络的话题自动推荐方法及其系统。
背景技术
近年来,微博平台的兴起极大激发了人们发布与分享信息的兴趣,越来越多的网民加入到这些社交网站成为其内容贡献者。用户除了分享信息外,更注重人与人之间的交流,因此其内容都比较随意和口语化,而且简短。比如新浪微博限制其每条消息长度不能超过140个字。
在当今互联网,短文本的流行有着必然性,即它能很好的适应信息产生与传播速度不断增长的要求。从用户角度考虑,发布一篇长文本文档需要耗费较长的时间和精力编写。而短文本信息则风格随意,编写简单,发布起来没有任何门槛。其次,从信息接受者角度考虑,短文本对信息的表达更加简约紧凑、来源更丰富,使得用户可以利用碎片化时间更快更多的获取信息。
互联网特别是基于微博的社交网络平台上的海量文本数据是一座有待开采的金矿,其中蕴含着丰富的有价值信息。这些信息对很多应用多有重要意义。然而如何从这些短文本中挖掘有价值的信息却并不简单。这些短文本内容很稀疏,导致上下文相关信息严重不足,并且通常包含很多新生词汇、无关信息,给文本语义分析带来了很大困难。
在Web2.0时代前,短文本在互联网上并非主流,与其相关的语义处理分析研究并不多见。一个相关的研究方向是信息检索领域的对查血理解和处理。通常查询长度在5个词以内,查询也是一种典型的短文本。早期的信息检索主要基于向量空间模型或者统计语言模型来计算查询文本和文档直接的相似度。这种简单的处理方式只能搜索到那些至少包含一个查询词的文档,无法检索那些从语义上更加相关而词汇不匹配的文档。
近年来,伴随着短文本在互联网应用中的增多,短文本挖掘相关研究也逐渐受到重视,研究者们尝试了多种方法来改进短文本语义分析与处理。而其中针对短文本主题模型的研究更是受到广泛关注。在这些工作中,为了克服短文本内容稀疏问题作出了很多尝试。例如,很多人将多条微博聚合,形成一篇长文档,再利用经典的话题模型对其进行语义分析。这种聚合方式,实际上可以看成是利用内部数据来扩充原来的短文本文档。但是很多应用场合需要对单条微博内容进行语义分析,这就使得我们不能采用聚合方式的语义分析主题模型,因此,针对短文本的主题模型研究一直是一个重要课题。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种基于微博社交网络的话题自动推荐方法。
本发明的第二个目的在于提出一种基于微博社交网络的话题自动推荐系统。
为了实现上述目的,本发明的实施例公开了一种基于微博社交网络的话题自动推荐方法,包括以下步骤:S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词;S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;S4:根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布;S5:从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及S6:根据所述用户的兴趣分布向所述用户推荐相应内容。。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510924866.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识学习对等社交网络文档检索方法
- 下一篇:萃取法制备氨基磺酸镍工艺