[发明专利]一种子话题挖掘方法有效
| 申请号: | 201611024146.5 | 申请日: | 2016-11-17 |
| 公开(公告)号: | CN106844416B | 公开(公告)日: | 2019-11-29 |
| 发明(设计)人: | 李静远;丘志杰;刘悦;程学旗;王凤 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
| 代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇;叶北琨<国际申请>=<国际公布>= |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 种子 话题 挖掘 方法 | ||
本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。
技术领域
本发明涉及自然语言处理技术领域,具体地说,本发明涉及一种主题挖掘方法。
背景技术
目前,话题的挖掘与分析一直是自然语言处理领域的一个重要研究方向,在舆情分析等领域具有广泛的应用。由在线社交网络的快速发展引发的网络信息爆炸,使得普通用户在快速生成的巨量信息面前显得无所适从,因此当前对在线社交网络上的信息表示普遍出现了分类化与精细化趋势。在这种趋势下,信息分布更加细致紧凑,如微博中的HashTag等标签机制,以及微信公众账号的相似公众号专题文章集合机制等。对于这部分专题信息进行更精细化的文章聚类整理的应用需求不断地增大,对专题文章的进一步子话题挖掘成为了目前工业界和学术界关心的热点问题。
传统的话题分析方法使用文本聚类和主题模型等策略,这些策略具有普适性,但是对于分类后的更加细致紧凑的专题文章的话题挖掘效果却不尽如人意。最普遍的现象是,普通的话题挖掘方法对于具有相同背景的文章集合的辨识度不高,产生的话题结果区分度受限。当前子话题分析的主流方法聚焦于找出专题内部差异化的主题信息,这部分工作的主要内容就是在某些拥有大的共同背景的文章中找出文章之间的差异性,每一个差异主题形成一个子话题,并找出每个子话题的代表关键词。正是由于这些文章之间有一个公共的背景,所以子话题分析与话题分析的工作存在实质上的区别,例如使用LDA(LatentDirichlet Allocation)主题模型进行子话题分析,由于所有的文章都存在一个相似的背景,所以使用LDA主题模型不能够彻底的将信息进行细致的分割,有些不同的子话题的文章有可能会因为有共同的背景知识,而使得他们的差异性被淹没,捕获的主题信息和主题词由于相似度过高而被纳入同一个主题下。
近年来国内外都针对话题挖掘算法展开了相关的研究,并取得了一定的进展。其中热点话题的挖掘算法可以总结为两类,第一类是使用分类和聚类的算法进行热点话题挖掘。例如,有人提出了组平均聚类(Group Average Clustering)算法以改进层次聚类算法,进行回顾式话题发现。有人研究了如何利用DBSCAN算法检测比较流行的话题,最终的实验效果并未能够达到预期的程度。还有人提出了Single-pass的聚类算法,这种算法非常适合于在线的话题检测,在较低的算法时间复杂度上能够给出可接受的话题挖掘结果。
第二类方法是传统的话题模型,使用LDA模型直接针对微博消息建立话题模型,从而抽取相关的话题信息。例如,有人提出了一个半监督的学习模型L-LDA,可以用来学习用户的兴趣分布。有人在分布式算法基础上提出了改进的LDA以及层次化的狄里克雷过程(Hierarchical Dirichlet Process,or HDP),可以使用它来进行话题分析。有人提出了一个新的话题模型,这个模型是相关主题模型(Correlated Topic Model,or CTM),它通过正态分布建模话题之间的相关性。还有人设计并且实现了一个面向新闻的话题挖掘系统,称为TwitterStand,可以用它来捕捉时下热门的Twitter话题新闻。有人研究通过分析微博内容自动产生有关微博的内容总结,这也是话题挖掘的一种研究方法。譬如一种方案是采用单个句子来总结微博话题,帮助用户快速的理解热门话题。在此基础上,还有人提出使用多个句子代表一个话题的方法,主要是为了克服单个句子对话题信息表达不够的缺陷。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611024146.5/2.html,转载请声明来源钻瓜专利网。





