[发明专利]基于元数据分析的新闻事件检测方法无效
申请号: | 200710178687.8 | 申请日: | 2007-12-04 |
公开(公告)号: | CN101174273A | 公开(公告)日: | 2008-05-07 |
发明(设计)人: | 李涓子;常诚;张阔;李军;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 | 代理人: | 刘萍 |
地址: | 1000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 分析 新闻 事件 检测 方法 | ||
1.一种基于元数据分析的新闻事件检测方法,其特征在于,包括步骤:
(1)预处理
将新闻报道全部输入计算机,进行预处理,预处理的结果可表示为如下的集合S:
S={(di,ti)},i=1...|S|
其中S中的任一个元组(di,ti)表示集合S中第i个时间为ti的文档;这里di表示第i个新闻文档,具体为由文档特征词构成的多维特征向量{w1,w2,...,wi,...,wn},wi则为每个特征词的权重,其值在预处理中先为词在文档中的词频,计算结束时为步骤(2)中利用TF-IDF单文本词汇频率/逆文本频率指数公式计算的结果;
使用关键词抽取的方式降低所选取的特征词的数量使其更具代表性;
(2)结合时间信息计算新闻信息的向量模型:
向量空间模型的基本思想是以向量来表示文本:(w1,w2,...,wi,...wn),其中wi为第i个特征项的权重,其计算方法采用TF-IDF公式,需要对新闻文档按时间顺序进行升序排序,得到新闻序列:
(d1,d2,d3,...,dn-1,dn)
按照升序排列,即最近发生的新闻其序号n越大;排序后新闻文档所对应的序号表示其撰写时间,对某个特征词c,其IDF的计算方式为:
其中,xj表示特征词c出现的文档所对应的发生时间,即排序后新闻文档所对应的序号,dc表示在新闻序列中出现特征词c的文档的个数,N是所有新闻文档的个数;
(3)计算相似度
在计算相似度时,包括新闻内容、新闻时间和新闻的分类,最后利用加权求和的方式得到最终的新闻相似度计算方式;
新闻间的相似度可由下面的公式得出:
Sim(di,dj)=αSimCat(di,dj)+βSimTime(di,dj)+γSimContent(di,dj)
其中新闻内容的相似度为
SimContent(di,dj)
新闻报道的时间之间相似度为
SimTime(di,dj)
新闻分类间的相似度为
SimCat(di,dj)
α,β,γ是由实验得出的参数,α,β,γ对应的范围分别为[6,6.5]、[2.7,3.5]和[9,9.7];
(4)聚类
输入:新闻间相似度构成的二维矩阵M[1..N][1…N],N即为所有新闻文档的个数
输出:聚类簇的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178687.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种富营养水处理工艺
- 下一篇:一种植入式双面柔性微阵列电极的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置