[发明专利]基于元数据分析的新闻事件检测方法无效

专利信息
申请号: 200710178687.8 申请日: 2007-12-04
公开(公告)号: CN101174273A 公开(公告)日: 2008-05-07
发明(设计)人: 李涓子;常诚;张阔;李军;张鹏;唐杰;许斌 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 代理人: 刘萍
地址: 1000*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 分析 新闻 事件 检测 方法
【说明书】:

技术领域

基于元数据分析的新闻事件检测方法属于数据挖掘领域

背景技术

新闻报道常常被看作人们最重要的信息来源,新闻信息具有数量大、增长快、时效强、关联性高等特性。人们越来越迫切的希望从海量新闻中快速准确地获得更多自己感兴趣的高层次新闻信息,虽然目前各大门户网站及主要的搜索引擎公司都提供了在线新闻阅读服务,Google和百度等网站还支持基本的新闻分类(如国内,国外,政治,体育等)浏览功能,用户可以通过这些服务浏览当日或者过去所发生的新闻。但是,由于新闻报道的更新频繁,及其庞大的数据量,使得用户常常有信息过量的感觉,他们很难快速准确的检索到高质量的新闻信息。除了简单的分类浏览以外,目前仍然没有进一步辅助用户阅读相对粒度更细的新闻事件的工具。

目前,新闻事件检测技术通过利用文本聚类等技术可以将新闻报道按照相关事件有机的进行组织,方便用户浏览和选择使用。新闻事件检测技术的应用主要体现在以海量文本处理为核心的内容管理系统中,利用新闻事件检测技术用户在检索新闻时可以更直观的浏览检索结果的概貌。对于各大新闻通讯社,事件检测技术还可以帮助记者和编辑更为方便的完成新闻报道的采写工作。

目前已知的新闻事件检测技术可以被归类为两种形式:也就是回溯事件检测和在线事件检测(或称为新事件检测)。前者是在历史新闻报道中发现尚未被确认的事件,后者则是实时的从新闻流中识别新事件的开始,即新事件的第一个新闻。这两种事件检测方法都不需要有关(新)事件的任何先验知识,但都需要访问未经标注的历史新闻报道作为分析之用。

现有的事件检测技术检测事件的精度不高,划分事件较宽泛,而且事件所包含的新闻在时间和内容上的内聚性不强,在新闻信息的建模和相似度计算中仍然没有较好的利用时间、地点等元数据信息,而描述某个新闻事件的新闻报道往往与事件所发生的时间和地点等信息强烈相关。基于元数据分析的事件检测方法则试图借助新闻报道中提取的时间、类别信息以及新闻的内容和标题,利用层次聚类的方式改进回溯事件检测的效果,更准确的识别出新闻报道所对应的新闻事件。

发明内容

本发明的目的在于提供一种基于元数据分析的新闻事件检测方法。

本发明的特征在于:采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,修改了新闻特征词的IDF(逆文本频率指数)计算方式,在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,并且利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。并且在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,使得由新闻报道所构成的聚类簇对应为相应的新闻事件。与现有的新闻事件检测技术相比,基于时间特性相似度计算的聚类方式可以更加有效的划分新闻事件。该方法是在计算机上依次按下列步骤实现的:

(1)预处理

将新闻报道全部输入计算机,首先进行预处理。这里新闻报道的具体表现形式是XML文档,目前世界上主要的新闻机构都采用XML文档来描述新闻稿件。本文中介绍的方法主要是对新闻XML文档进行预处理,进行预处理的过程包括利用XML解析器将新闻的元数据(包括新闻的内容和标题、时间和类别信息)从新闻文档中提取出来,并利用中文分词程序包(中科院计算所的ICTCLAS)对新闻的内容和标题分别进行分词,在计算词频(即词在文档中出现的次数)时,标题中词的词频给以3-5倍的加权。预处理的结果可表示为如下的集合S:

S={(di,ti)},i=1...|S|

其中S中的任一个元组(di,ti)表示集合S中第i个时间(本文中提到的时间皆为新闻文档中提取的时间信息即文档的撰写时间)为ti(形如YYYY/MM/DD hh:mm:ss)的文档。这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wi,...,wn},wi则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为后面利用TF-IDF(单文本词汇频率/逆文本频率指数)公式计算的结果。本发明提出的方法同样可以应用于其他新闻数据,只要在新闻数据预处理时根据不同的新闻标准更换文档的解析器即可。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710178687.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top