[发明专利]基于元数据分析的新闻事件检测方法无效

专利信息
申请号: 200710178687.8 申请日: 2007-12-04
公开(公告)号: CN101174273A 公开(公告)日: 2008-05-07
发明(设计)人: 李涓子;常诚;张阔;李军;张鹏;唐杰;许斌 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 代理人: 刘萍
地址: 1000*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。
搜索关键词: 基于 数据 分析 新闻 事件 检测 方法
【主权项】:
1.一种基于元数据分析的新闻事件检测方法,其特征在于,包括步骤:(1)预处理将新闻报道全部输入计算机,进行预处理,预处理的结果可表示为如下的集合S:S={(di,ti)},i=1...|S|其中S中的任一个元组(di,ti)表示集合S中第i个时间为ti的文档;这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wi,...,wn},wi则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果;使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性;(2)结合时间信息计算新闻信息的向量模型:向量空间模型的基本思想是以向量来表示文本:(w1,w2,...,wi,...wn),其中wi 为第i个特征项的权重,其计算方法采用TF-IDF公式,需要对新闻文档按时间顺序进行升序排序,得到新闻序列:(d1,d2,d3,...,dn-1,dn)按照升序排列,即最近发生的新闻其序号n越大;排序后新闻文档所对应的序号表示其撰写时间,对某个特征词c,其IDF的计算方式为:IDF(c)=log2(N1+Σj=2dclog2(xj-xj-1+1)) 其中,xj表示特征词c出现的文档所对应的发生时间,即排序后新闻文档所对应的序号,dc表示在新闻序列中出现特征词c的文档的个数,N是所有新闻文档的个数;(3)计算相似度在计算相似度时,包括新闻内容、新闻时间和新闻的分类,最后利用加权求和的方式得到最终的新闻相似度计算方式;新闻间的相似度可由下面的公式得出:Sim(di,dj)=αSimCat(di,dj)+βSimTime(di,dj)+γSimContent(di,dj)其中新闻内容的相似度为SimContent(di,dj)新闻报道的时间之间相似度为SimTime(di,dj)新闻分类间的相似度为SimCat(di,dj)α,β,γ是由实验得出的参数,α,β,γ对应的范围分别为[6,6.5]、[2.7,3.5]和[9,9.7];(4)聚类输入:新闻间相似度构成的二维矩阵M[1..N][1…N],N即为所有新闻文档的个数输出:聚类簇的集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710178687.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top