[发明专利]一种基于互联网海量信息的随机事件演化即时跟踪方法有效
申请号: | 201210353440.6 | 申请日: | 2012-09-20 |
公开(公告)号: | CN102929927A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 郭皓明;武群惠;张秀红;刘允桢;刘海;梁峰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。该方法以基本特征要素构成事件的初始空间向量,在跟踪过程中,以这一初始空间向量为基础,对互联网增量信息的高频词熵值进行计算与统计,将这一熵值作为事件演化动力,确定事件空间特征向量的增长与结构性变化,利用增量信息向量与事件临界空间向量的熵值对比实现新事件空间的稳定裂解,实现衍生/次生事件的识别与跟踪。本发明提供的方法以增量信息的熵值作为事件演化的动力,能够有效满足具有突发性、随机性事件的跟踪、预警/预测等工作的需要;同时,具有高度的专题性,避免海量信息处理活动中计算节点与网络负载较重的普遍现象,具有良好的可靠性与可扩展性。 | ||
搜索关键词: | 一种 基于 互联网 海量 信息 随机 事件 演化 即时 跟踪 方法 | ||
【主权项】:
一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤:步骤1:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长;进行事件空间的增长的方法是:提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量Vj的某个主题词的词频大于0,则更新该特征向量Vj的命中篇频,并存储当前文本对象Ti对该主题词的词频;步骤2:从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是:提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征集合初始为空;步骤3:从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是:判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4;步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5;步骤5:从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;步骤6:将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S2,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S2中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前 事件空间中对应的特征向量,完成裂解;步骤7:以事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210353440.6/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置