[发明专利]一种基于多故事线的微博事件摘要提取方法有效
申请号: | 201610179286.3 | 申请日: | 2016-03-25 |
公开(公告)号: | CN105787121B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 林鸿飞;刘龙飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 盖小静 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 故事 事件 摘要 提取 方法 | ||
一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。
技术领域
本发明涉及数据挖掘领域和自然语言处理领域,尤其是一种基于多故事线的微博事件摘要提取方法。
背景技术
随着互联网的迅猛发展,微博已经成为了流行的社会化网络中的一个典型应用。微博可以让用户在任何时间、任何地点发布短的消息(通常最大长度为140个中或英文字符),这种发布信息的方式降低了信息发布的壁垒,加快了信息传播的速度,从而使微博几乎成为了一种实时的发布应用。生活中的某些事件,会引起微博用户的广泛讨论,产生大量有关该事件的微博,这种事件便被称为微博事件。微博网站往往会收集这些微博的主题词,展示在热门微博列表中。但是这些微博主题词并不能让微博用户对这些微博事件有一个全面的理解,特别对于那些没有相关背景知识的微博用户。另外,微博用户为了弄明白这些微博事件的细节,就必须自己去阅读与该事件有关的很多微博,即面对大量过载信息,从而导致过高的时间代价。
一般而言,传统的摘要生成,主要从传统的文档数据出发,从文档中选择有代表性的句子作为文档的摘要,或者采用一些自然语言处理的算法对文档数据进行处理。事件摘要相对而言是一个新鲜的工作。但是对于事件的多文档摘要而言,这种忽略文档的时间信息只考虑文档内容的抽取方式不能很好的刻画事件的发展演化。
在近期的微博摘要研究中,时间轴成为了一种流行的展示形式。通过引入时间信息,让事件的发展演化得以更清晰的展示。然而,相对复杂的事件都会包含多个不同的方面,而一条时间轴则将事件的多个方面混为一个方面,不能很好的从多个方面刻画事件的发展演化。
发明内容
本发明的目的是提供一种对微博事件从多个方面进行摘要,使用户更高效、全面的了解其感兴趣的微博事件的基于多故事线的微博事件摘要提取方法。
本发明解决现有技术问题所采用的技术方案:一种基于多故事线的微博事件摘要提取方法,包括以下步骤:
S1、微博语料预处理:
采集包含所关注的微博事件的微博语料集,对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集,统计微博词语集中的词语个数,将词语个数少于第一预设阈值的微博及其微博词语集删除;将微博语料集中的剩余微博作为微博事件摘要提取集,提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号,将微博内容、微博的发布时间及微博编号存入字典数据库中;
S2、微博矢量化:
利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式,得到每条微博所对应的微博词语矢量集;将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示;
S3、初步提取微博事件故事线:
A1、根据步骤S2得到的每条微博的矢量表示,随机选取其中任一微博的矢量表示作为一条微博事件故事线;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610179286.3/2.html,转载请声明来源钻瓜专利网。