[发明专利]基于元数据分析的新闻事件检测方法无效

申请号：	200710178687.8	申请日：	2007-12-04
公开（公告）号：	CN101174273A	公开（公告）日：	2008-05-07
发明（设计）人：	李涓子;常诚;张阔;李军;张鹏;唐杰;许斌	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京思海天达知识产权代理有限公司	代理人：	刘萍
地址：	1000***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据分析新闻事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于元数据分析的新闻事件检测方法，其特征在于，包括步骤：

(1)预处理

将新闻报道全部输入计算机，进行预处理，预处理的结果可表示为如下的集合S：

S＝{(d_i，t_i)}，i＝1...|S|

其中S中的任一个元组(d_i，t_i)表示集合S中第i个时间为t_i的文档；这里d_i表示第i个新闻文档，具体为由文档特征词构成的多维特征向量{w₁，w₂，...，w_i，...，w_n}，w_i则为每个特征词的权重，其值在预处理中先为词在文档中的词频，计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果；

使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性；

(2)结合时间信息计算新闻信息的向量模型：

向量空间模型的基本思想是以向量来表示文本：(w₁，w₂，...，w_i，...w_n)，其中w_i为第i个特征项的权重，其计算方法采用TF-IDF公式，需要对新闻文档按时间顺序进行升序排序，得到新闻序列：

(d₁，d₂，d₃，...，d_n-1，d_n)

按照升序排列，即最近发生的新闻其序号n越大；排序后新闻文档所对应的序号表示其撰写时间，对某个特征词c，其IDF的计算方式为：

IDF(c)=log2(N1+Σj=2dclog2(xj-xj-1+1))]]>