[发明专利]一种基于互联网海量信息的随机事件演化即时跟踪方法有效
申请号: | 201210353440.6 | 申请日: | 2012-09-20 |
公开(公告)号: | CN102929927A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 郭皓明;武群惠;张秀红;刘允桢;刘海;梁峰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 海量 信息 随机 事件 演化 即时 跟踪 方法 | ||
技术领域
本发明属于信息处理领域,涉及一种信息提取方法,具体涉及一种基于互联网海量信息的随机事件演化即时跟踪方法,实现海量数据的快速提取、分析、研判。
背景技术
近年来,众多研究人员对基于互联网文本处理的事件演化跟踪方法开展深入研究工作。话题发现与追踪技术研究是这一领域中的热点,一方面基于TDT(Topic Detection and Tracking)语料的话题研究仍在继续,另一方面新应用背景下的话题研究也得到了积极的开展,文献分别探讨了在普通网页、网络搜索结果中的话题组织和发现问题。随着TDT研究的发展和深入,一些新的研究动向也为TDT带来了新的问题和研究思路,例如:数据流挖掘、热点话题发现、基于话题的多文档摘要等。数据流挖掘,主要指对实时、动态、按时间排序的信息流进行的一系列相关研究。TDT的研究对象也是一种动态数据流,两个领域的发展是相互促进的。热点话题发现、基于话题的多文档摘要稍有不同,是对数据流经过TDT相关技术处理后所得结果的进一步整理,以更方便人们对信息的使用。热点话题发现对话题的受关注度进一步分析,进而过滤出热点话题。国内TDT研究起步较晚,多在评测之后,主要集中在层次化话题发现、话题追踪、和新事件发现几个研究内容上,热点话题发现也是较多关注的焦点。
上述的文本处理研究工作,为海量互联网信息中事件演化跟踪提供了一定的技术基础。然而,事件的跟踪过程中,信息处理活动需要以事件特征为分析的基本出发点,将事件自身的演化过程作为研究分析的对象。事件演化过程受各种自然与社会环境因素影响,而非人的主观因素。因此,上述的一些研究成果存在一定的不足之处。
多数情况下,事件是客观发展的事务对象,对其的发展跟踪需要结合相关要素开展分析。神经网络因具有较强的学习能力,其能够逼近复杂非线性函数等特点在事件演化跟踪分析研究中得到广泛应用。神经网络以有限集为基本输入,围绕有限集情况下单隐藏层前馈神经网络(SLFN,Single-hidden Layer Feedforward Neural Network)的学习能力问题,Huang和Babri等开展了研究工作。基于以上研究,Huang为SLFN提出了ELM(Extreme Learning Machine)学习方法:通过隐藏层结点数设置,输入权和隐藏层偏差进行随机赋值获得输出结果。与BP(Back Propagation)相比,其在效率方面具有显著的优势。邓万宇等借鉴ELM的一次学习思想并基于结构风险最小化理论提出一种快速学习方法(RELM,Regularized Extreme Learning Machine),RELM打破了传统BP算法的参数迭代调整的思想,从而获得了快速学习的能力,RELM比BP、SVM(Support Vector Machine)速度提高很多倍,提高泛化性能,为神经网络应用到实时环境提供了有效途径,为神经网络技术在事件演化跟踪领域的应用提供了基础(参考文件1:邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J]计算机学报,2010,33(2):279-287.)。为了便于对大规模数据进行归纳处理,传统的KDD(Knowledge Discovery in Databases)研究人员提出了对数据进行采样处理,将数据分割后分布并行处理的逐步放大(Scaling up)学习方法。然而这类方法在面临处理算法过于复杂的难题,同时也面临因数量大导致的欠处理难题。针对这一问题,田大新等提出了基于Hebb规则的分布神经网络学习方法,Hebb规则的局部特征使被分割到各个子集的部分知识能够在分布处理阶段得到保留,并在集中处理阶段被提取出来。这一方法以神经网络为基础,解决了大规模数据知识提取与信息处理的基本难题(参考文件2:田大新,刘衍珩,李宾,吴静.基于Hebb规则的分布神经网络学习算法.计算机学报,2007,30(8):1379-1388.)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210353440.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置