[发明专利]基于种子词的微博文本层次主题发现方法及系统有效
申请号: | 201410193725.7 | 申请日: | 2014-05-08 |
公开(公告)号: | CN103970865B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 徐华;王玮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 种子 文本 层次 主题 发现 方法 系统 | ||
技术领域
本发明涉及计算机应用技术与互联网技术领域,特别涉及一种基于种子词的微博文本层次主题发现方法及系统。
背景技术
随着互联网的不断普及和web2.0的飞速发展,互联网所传达的公众对于社会事件,热点人物以及电商产品的评论信息受到了各方的特别关注。基于信息传播的特点,互联网具有多模态信息的交互性,能够快速有效地传播网民观点,从而形成一定的社会舆情导向,因而它在信息的传播速度、信息的实效性、社会影响力以及舆论导向等方面与传统媒体相比有很大的优越性。用户现在也不仅仅是充当一个简单的信息浏览者的角色,更多的时候,用户也是一个信息的发布者。例如论坛、博客、评论网站、邮件、微博等都给Web2.0时代的用户提供了一个发布信息,表达自己观点场所。于是,互联网上开始产生了大量的含有主观色彩的信息,尤其是微博的出现,使得大量用户习惯在微博上发布自己的观点,这点观点可以是用户针对某个社会事件所持有的看法,也可以是讨论某些和兴趣相关的话题,还有可能是一些毫无意义的内容。随着用户的增长和发布的微博的数量的增加,媒体、厂商和政府都逐渐开始重视起用户在微博中发表的观点和看法。比如,厂商可以通过微博了解用户对产品的各方面评论,政府和媒体可以了解用户对于某些事件的看法。然后,随着微博文本数量的增加,使得人工去收集并分析整理相关的微博变得极度困难,费时费力,且效率低下。
发明内容
本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于种子词的微博文本层次主题发现方法,该方法能够快速的从海量的微博文本中挖掘文本的层次主题及话题分布,并且便于发布话题之间的层次粒度关系。
本发明的另一个目的在于提供一种基于种子词的微博文本层次主题发现系统。
为了实现上述目的,本发明第一方面的实施例提出了一种基于种子词的微博文本层次主题发现方法,包括以下步骤:从互联网上获取数据信息,其中,所述数据信息包括微博文本;对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;对所述微博文本进行层次主题聚类以生成层次主题模型;以及将所述先验知识集成至所述层次主题模型中以对所述微博文本层次主题进行发现。
根据本发明实施例的基于种子词的微博文本层次主题发现方法,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以对微博文本层次主题进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到当前微博文本的话题分布,省时省力。另外,该方法通过建立当前微博文本的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度下微博用户所关注的不同的话题,因此,该方法便于发布话题之间的层次粒度关系。
另外,根据本发明上述实施例的基于种子词的微博文本层次主题发现方法还可以具有如下附加的技术特征:
在一些示例中,通过网络爬虫从互联网获取数据信息。
在一些示例中,所述对所述微博文本进行分析以获取种子词簇,进一步包括:按照预定规则从所述微博文本中抽取名词或名词短语;通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词;根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
在一些示例中,所述将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
在一些示例中,所述层次主题模型为变参的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410193725.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于光传播的轮压监测系统
- 下一篇:泄气保用轮胎