[发明专利]基于主题挖掘的事件团获取方法有效
| 申请号: | 201510799309.6 | 申请日: | 2015-11-18 |
| 公开(公告)号: | CN105389377B | 公开(公告)日: | 2019-02-05 |
| 发明(设计)人: | 靳晓明;张宇婷 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
| 地址: | 100084 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主题 挖掘 事件 获取 方法 | ||
本发明公开了一种基于主题挖掘的事件团获取方法,包括以下步骤:S1:收集文本数据集C;S2:对所述文本数据集C进行预处理,去除所述文本数据集中没有实际意义的词语;S3:设定主题数n和参数,运行CTM,得到CTM模型;S4:在所述CTM模型表示主题与主题之间的关联程度的协方差矩阵Σ中,利用回溯算法找出所有的最大团,为主题团;S5:将每个所述主题团所包含的每一个主题均在所述文本数据集C内选定一篇对应程度最高的文章,将所述对应程度最高的文章所对应的事件聚集形成事件团。本发明具有如下优点:在分析关联度的过程中利用了主题层面的关联度信息,相较传统事件挖掘利用单词层面的关联度信息,更能提升计算事件关联度的合理性。
技术领域
本发明属于计算机文本处理与挖掘领域,涉及层次主题模型挖掘技术,具体涉及一种基于主题挖掘的事件团获取方法。
背景技术
随着科技的飞速发展,信息的传播方式有了翻天覆地的改变。特别是互联网技术的普及和互联网影响力的日益扩大,使得网络信息成为人们获取信息的主要手段。网络上的文本信息越来越多,如何从文本信息中挖掘出有效的事件信息成了一大挑战。基于这种实际的需求,就需要有一种能够自动、准确、实时地提取事件的技术。现有的机器学习技术可以解决从文本中挖掘事件,它们大多都是利用主题模型在文本的层面上挖掘出单个事件。
在现实生活中,事件与事件之间大多是有关联的,它们的关联程度互不相同,关联程度高的一组事件组成了一个内聚程度很高的事件团。例如,事件1“飞机坠毁”,事件2“亲属悲痛欲绝”,事件3“搜救行动正在进行”,事件4“各国领导人纷纷发表讲话”,这4个事件在一个特殊的日期就可能组成一个内聚程度非常高的事件团,一个好的事件团对于我们更好地挖掘出事件信息有明显的帮助。目前尚没有事件团的挖掘方法。
机器学习和信息检索领域中有很多文本挖掘技术,在现有的文本挖掘技术中,主题模型已经发展得相对成熟。主题模型已经在各种领域取得了巨大的成功,例如社交网络[1],情感分析[2],推荐系统[3]等。
Latent Dirichlet Allocation(LDA)[4]是一种传统的、用来识别大规模文档集或语料库中潜藏的主题信息的非监督机器学习技术。它采用了词袋的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。在LDA中,主题之间的相互独立性隐含在主题服从的狄利克雷分布中。因此,Blei,David M和Lafferty,John D在A correlated topic model of science(CTM)[5]中指出LDA的缺陷之一是它无法直接度量主题之间的相关程度。
[1]Lim,Kar Wai and Chen,Changyou and Buntine,Wray.Twitter-NetworkTopic Model:A Full Bayesian Treatment for Social Network and Text Modeling.[C].NIPS workshop on Topic Modeling.(cited on page 15).2013.
[2]Lin,Chenghua and He,Yulan.Joint sentiment/topic model forsentiment analysis.[C].Proceedings of the 18th ACM conference on Informationand knowledge management.375--384.ACM.2009.
[3]GE,Hao and YE,Yan and BAO,Xi-lin and WU,Min.The Design andImplementation of Personal Recommendation Module in CMET Based on TopicModel.[J].Science Technology and Industry.6:033.2013.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510799309.6/2.html,转载请声明来源钻瓜专利网。





