[发明专利]基于元数据分析的新闻事件检测方法无效

申请号：	200710178687.8	申请日：	2007-12-04
公开（公告）号：	CN101174273A	公开（公告）日：	2008-05-07
发明（设计）人：	李涓子;常诚;张阔;李军;张鹏;唐杰;许斌	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京思海天达知识产权代理有限公司	代理人：	刘萍
地址：	1000***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于，它是采用多维向量空间模型来表示新闻文档，在特征表示的权重计算时充分考虑的新闻的时间特性，并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式，并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息，利用关键字抽取对新闻文档进行预处理，有效地降低了向量的维度。在此基础上，利用层次聚类方法将新闻报道进行聚类，通过对聚类结果树的动态划分，将由新闻报道聚类，并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。
搜索关键词：	基于数据分析新闻事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于元数据分析的新闻事件检测方法，其特征在于，包括步骤：(1)预处理将新闻报道全部输入计算机，进行预处理，预处理的结果可表示为如下的集合S：S＝{(di，ti)}，i＝1...|S|其中S中的任一个元组(di，ti)表示集合S中第i个时间为ti的文档；这里di表示第i个新闻文档，具体为由文档特征词构成的多维特征向量{w1，w2，...，wi，...，wn}，wi则为每个特征词的权重，其值在预处理中先为词在文档中的词频，计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果；使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性；(2)结合时间信息计算新闻信息的向量模型：向量空间模型的基本思想是以向量来表示文本：(w1，w2，...，wi，...wn)，其中wi 为第i个特征项的权重，其计算方法采用TF-IDF公式，需要对新闻文档按时间顺序进行升序排序，得到新闻序列：(d1，d2，d3，...，dn-1，dn)按照升序排列，即最近发生的新闻其序号n越大；排序后新闻文档所对应的序号表示其撰写时间，对某个特征词c，其IDF的计算方式为：

IDF (c) = lo g_{2} (\frac{N}{1 + Σ_{j = 2}^{dc} lo g_{2} (x_{j} - x_{j - 1} + 1)})

其中，xj表示特征词c出现的文档所对应的发生时间，即排序后新闻文档所对应的序号，dc表示在新闻序列中出现特征词c的文档的个数，N是所有新闻文档的个数；(3)计算相似度在计算相似度时，包括新闻内容、新闻时间和新闻的分类，最后利用加权求和的方式得到最终的新闻相似度计算方式；新闻间的相似度可由下面的公式得出：Sim(di，dj)＝αSimCat(di，dj)+βSimTime(di，dj)+γSimContent(di，dj)其中新闻内容的相似度为SimContent(di，dj)新闻报道的时间之间相似度为SimTime(di，dj)新闻分类间的相似度为SimCat(di，dj)α，β，γ是由实验得出的参数，α，β，γ对应的范围分别为[6，6.5]、[2.7，3.5]和[9，9.7]；(4)聚类输入：新闻间相似度构成的二维矩阵M[1..N][1…N]，N即为所有新闻文档的个数输出：聚类簇的集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710178687.8/，转载请声明来源钻瓜专利网。

上一篇：一种富营养水处理工艺
下一篇：一种植入式双面柔性微阵列电极的制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于元数据分析的新闻事件检测方法无效

专利文献下载