[发明专利]基于网络事件模型的新闻事件监测方法和装置在审
| 申请号: | 201610074912.2 | 申请日: | 2016-02-02 |
| 公开(公告)号: | CN105677894A | 公开(公告)日: | 2016-06-15 |
| 发明(设计)人: | 黄永峰;刘佳伟;吴方照;袁志刚;吴思行 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
| 地址: | 100084 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 事件 模型 新闻 监测 方法 装置 | ||
技术领域
本发明涉及网络数据挖掘领域,特别涉及一种基于网络事件模型的新闻事件检测方法 和装置。
背景技术
新闻事件检测是网络舆情分析处理的一个重要部分。新闻是指网络上各个新闻门户给 出的一篇新闻报道、分析、文章等,是网络新闻舆情的一个重要的载体,而事件是指一系 列报道相同事物的新闻的集合。
在对新闻事件检测的数据挖掘任务中,常常采用无监督学习的方法来确定一堆新闻数 据中的事件关系,即哪些新闻构成一个事件集合。当新闻能以事件的形式展现的时候,使 舆情监测的任务得到极大的简化,毕竟用户是为了了解某一个事件的相关信息而查找和阅 读相关的新闻报道。经过新闻事件检测分析之后,新闻以各个事件集合的形式呈现给用户, 用户只需要关注自己感兴趣的事件,即可高效、聚焦、全面地获取到自己希望获得的信息。
其中,传统的新闻事件检测方法,是基于比较两篇新闻文本相似度来实现的,然而, 在面对网络上每天成千上万的新闻流数据,传统方法的处理速度在新闻流数据流很大时难 以得到实时的分析结果,并且准确性也不高,这两点对于网络舆情监测来说是极大的缺陷。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于网络事件模型的新闻事件检测方法,该方 法能够实时得到新闻分析结果,在保证实时、准确的分析处理能力的同时还提高了检测新 闻的效率,从而提升了网络舆情分析处理的效果。
本发明的第二目的在于提出一种基于网络事件模型的新闻事件检测装置。
为实现上述目的,本发明第一方面实施例提出了一种基于网络事件模型的新闻事件检 测方法,包括以下步骤:实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息, 其中,所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息,L、M均为 正整数;对第i个新闻的网页文本信息进行分析,提取所述第i个新闻的第一特征信息, 其中,i为正整数,且1≤i≤M;根据所述第i个新闻的第一特征信息计算所述第i个新闻 与N个预先建立的事件簇的N个相似度值,其中,N为正整数;以及根据所述N个相似度 值检测所述第i个新闻是否属于所述N个预先建立的事件簇。
根据本发明实施例的基于网络事件模型的新闻事件检测方法,首先实时获取L个媒体 新闻门户网站发布的M个新闻的网页文本信息,然后对第i个新闻的网页文本信息进行分 析,提取第i个新闻的第一特征信息,而后根据第i个新闻的第一特征信息计算第i个新 闻与N个预先建立的事件簇的N个相似度值,最后根据N个相似度值检测第i个新闻是否 属于N个预先建立的事件簇。因此,该方法能够实时得到新闻分析结果,在保证实时、准 确的分析处理能力的同时还提高了检测新闻的效率,从而提升了网络舆情分析处理的效果。
另外,根据本发明上述基于网络事件模型的新闻事件检测方法还可以具有如下附加的 技术特征:
在本发明的一个实施例中,所述根据所述N个相似度值检测所述第i个新闻是否属于 所述N个预先建立的事件簇,包括:获取所述N个相似度值中的最大相似度值;判断所述 最大相似度值是否大于或等于第一预设阈值;如果所述最大相似度值大于或等于所述第一 预设阈值,则判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇;如 果所述最大相似度值小于所述第一预设阈值,则判断所述第i个新闻属于新的事件。
在本发明的一个实施例中,其中,第一特征信息包括时间信息、内容信息、地点信息 和人物信息,所述对第i个新闻的网页文本信息进行分析,提取所述第i个新闻的第一特 征信息,包括:对所述第i个新闻的标题和文本内容信息进行分词处理,得到所述第i个 新闻的多个语素;对所述多个语素进行识别以确定对应的词性,并根据所述词性提取所述 第i个新闻的内容信息、地点信息和人物信息;对所述第i个新闻的网页文本信息进行解 析以得到所述第i个新闻的发布时间戳,并将所述发布时间戳作为所述第i个新闻的时间 信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610074912.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应急楼梯扶手
- 下一篇:一种经络脉冲气流美容仪





