[发明专利]基于元数据分析的新闻事件检测方法无效
申请号: | 200710178687.8 | 申请日: | 2007-12-04 |
公开(公告)号: | CN101174273A | 公开(公告)日: | 2008-05-07 |
发明(设计)人: | 李涓子;常诚;张阔;李军;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 | 代理人: | 刘萍 |
地址: | 1000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 分析 新闻 事件 检测 方法 | ||
技术领域
基于元数据分析的新闻事件检测方法属于数据挖掘领域
背景技术
新闻报道常常被看作人们最重要的信息来源,新闻信息具有数量大、增长快、时效强、关联性高等特性。人们越来越迫切的希望从海量新闻中快速准确地获得更多自己感兴趣的高层次新闻信息,虽然目前各大门户网站及主要的搜索引擎公司都提供了在线新闻阅读服务,Google和百度等网站还支持基本的新闻分类(如国内,国外,政治,体育等)浏览功能,用户可以通过这些服务浏览当日或者过去所发生的新闻。但是,由于新闻报道的更新频繁,及其庞大的数据量,使得用户常常有信息过量的感觉,他们很难快速准确的检索到高质量的新闻信息。除了简单的分类浏览以外,目前仍然没有进一步辅助用户阅读相对粒度更细的新闻事件的工具。
目前,新闻事件检测技术通过利用文本聚类等技术可以将新闻报道按照相关事件有机的进行组织,方便用户浏览和选择使用。新闻事件检测技术的应用主要体现在以海量文本处理为核心的内容管理系统中,利用新闻事件检测技术用户在检索新闻时可以更直观的浏览检索结果的概貌。对于各大新闻通讯社,事件检测技术还可以帮助记者和编辑更为方便的完成新闻报道的采写工作。
目前已知的新闻事件检测技术可以被归类为两种形式:也就是回溯事件检测和在线事件检测(或称为新事件检测)。前者是在历史新闻报道中发现尚未被确认的事件,后者则是实时的从新闻流中识别新事件的开始,即新事件的第一个新闻。这两种事件检测方法都不需要有关(新)事件的任何先验知识,但都需要访问未经标注的历史新闻报道作为分析之用。
现有的事件检测技术检测事件的精度不高,划分事件较宽泛,而且事件所包含的新闻在时间和内容上的内聚性不强,在新闻信息的建模和相似度计算中仍然没有较好的利用时间、地点等元数据信息,而描述某个新闻事件的新闻报道往往与事件所发生的时间和地点等信息强烈相关。基于元数据分析的事件检测方法则试图借助新闻报道中提取的时间、类别信息以及新闻的内容和标题,利用层次聚类的方式改进回溯事件检测的效果,更准确的识别出新闻报道所对应的新闻事件。
发明内容
本发明的目的在于提供一种基于元数据分析的新闻事件检测方法。
本发明的特征在于:采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,修改了新闻特征词的IDF(逆文本频率指数)计算方式,在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,并且利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。并且在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,使得由新闻报道所构成的聚类簇对应为相应的新闻事件。与现有的新闻事件检测技术相比,基于时间特性相似度计算的聚类方式可以更加有效的划分新闻事件。该方法是在计算机上依次按下列步骤实现的:
(1)预处理
将新闻报道全部输入计算机,首先进行预处理。这里新闻报道的具体表现形式是XML文档,目前世界上主要的新闻机构都采用XML文档来描述新闻稿件。本文中介绍的方法主要是对新闻XML文档进行预处理,进行预处理的过程包括利用XML解析器将新闻的元数据(包括新闻的内容和标题、时间和类别信息)从新闻文档中提取出来,并利用中文分词程序包(中科院计算所的ICTCLAS)对新闻的内容和标题分别进行分词,在计算词频(即词在文档中出现的次数)时,标题中词的词频给以3-5倍的加权。预处理的结果可表示为如下的集合S:
S={(di,ti)},i=1...|S|
其中S中的任一个元组(di,ti)表示集合S中第i个时间(本文中提到的时间皆为新闻文档中提取的时间信息即文档的撰写时间)为ti(形如YYYY/MM/DD hh:mm:ss)的文档。这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wi,...,wn},wi则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为后面利用TF-IDF(单文本词汇频率/逆文本频率指数)公式计算的结果。本发明提出的方法同样可以应用于其他新闻数据,只要在新闻数据预处理时根据不同的新闻标准更换文档的解析器即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178687.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种富营养水处理工艺
- 下一篇:一种植入式双面柔性微阵列电极的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置