[发明专利]一种基于互联网海量信息的随机事件演化即时跟踪方法有效
申请号: | 201210353440.6 | 申请日: | 2012-09-20 |
公开(公告)号: | CN102929927A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 郭皓明;武群惠;张秀红;刘允桢;刘海;梁峰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 海量 信息 随机 事件 演化 即时 跟踪 方法 | ||
1.一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤:
步骤1:从当前互联网搜索引擎采集第i篇页面文本对象Ti,进行事件空间的增长;进行事件空间的增长的方法是:提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第j个特征向量Vj的某个主题词的词频大于0,则更新该特征向量Vj的命中篇频,并存储当前文本对象Ti对该主题词的词频;
步骤2:从当前文本对象Ti中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是:提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象Ti中的词频,若第k个历史特征向量hk的某个主题词的词频大于0,则更新该历史特征向量hk的命中篇频,并存储当前文本对象Ti对该主题词的词频;所述的历史特征集合初始为空;
步骤3:从当前文本对象Ti中删除当前历史特征集合中的全部主题词,然后从当前文本对象Ti中提取新特征向量;从当前文本对象Ti中提取新特征向量的方法是:判断当前文本对象Ti中是否存在词频超过阈值A的新词,若不存在,执行步骤4;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4;
步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5;
步骤5:从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;
步骤6:将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S2,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S2中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前事件空间中对应的特征向量,完成裂解;
步骤7:以事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。
2.根据权利要求1所述的随机事件演化即时跟踪方法,其特征在于,步骤3中所述的阈值A为0.3。
3.根据权利要求1所述的随机事件演化即时跟踪方法,其特征在于,步骤4中所述的m,其值的确定方法是:设历史特征向量NV的命中篇频为S1,则m通过对S1的30%取整得到。
4.根据权利要求1所述的随机事件演化即时跟踪方法,其特征在于,步骤5中所述的阈值C大于0.34。
5.根据权利要求1所述的随机事件演化即时跟踪方法,其特征在于,步骤6中所述的阈值D大于0.29。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210353440.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置