[发明专利]一种实时多角度网络热点事件分析装置及分析方法有效
| 申请号: | 200910071484.8 | 申请日: | 2009-03-04 |
| 公开(公告)号: | CN101488150A | 公开(公告)日: | 2009-07-22 |
| 发明(设计)人: | 杨武;王巍;苘大鹏 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150001黑龙江省哈尔滨市南岗区南通*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实时 角度 网络 热点 事件 分析 装置 方法 | ||
(一)技术领域
本发明涉及的是一种利用计算机技术辅助网络信息智能分析或舆情管理的技术,其特别涉及利用自然语言处理和数据挖掘技术来发现网络热点事件的系统和方法,具体地讲是一种支持从海量网络信息中实时地、多角度地发现网络热点事件的系统和方法。
(二)背景技术
网络热点事件发现是通过对目标网站信息的自动抓取、主题检测来发现具有一定影响力的网络话题,达到对网络信息实施高效管理的目的。网络热点事件发现的基本思路是采用文本挖掘技术处理互联网信息数据。
目前国内外在网络热点事件发现方面取得了较多的研究成果。Umass根据词法特征自动生成多个分类器,并且每类事件由包含查询语法和阈值的分类器来识别,最后根据标准化后的相似分值确定事件的类别归属(Allan J,Papka R.On-lineNew Event Detection and Tracking.In the Proceedings of ACM SIGIR 1998.Melbourne:Association for Computing Machinery Press,1998:37-45)。CMU使用Single-pass算法进行新事件的探测,Single-Pass算法虽然计算简单、运算速度快,但它的探测性能过分依赖于新闻语料的处理顺序(Seo Y W,Sycara K.TextClustering for Topic Detection.Technical Report CMU-RI-TR-04-03,RoboticsInstitue,Carnegie Mellon University,2004)。雷震等人提出一种改进的K均值算法(IIKM)用于热点事件发现,该算法使用密度函数法进行聚类中心的初始化以使客观地选择初始聚类中心,既可以用于在线探测也可以用于回溯探测,并且执行结果受新闻语料被处理顺序的影响较小,主要应用于热点新闻事件检测(雷震,吴玲达,雷蕾等.初始化类中心的增量K均值法及其在新闻事件探测中的应用.情报学报ISSN 1000-0135.2006,25(3):289-295页)。Ron Papka和James Allan提出利用Single-Pass聚类算法来实现在线新事件发现系统(Ron Papka and James Allan.On-Line New Event Detection using Single Pass Clustering.UMASS ComputerScience Technical Report UM-CS-1998-021,Amherst:Department of ComputerScience,University of Massachusetts,Amherst,1998)。Giridhar Kumaran和JamesAllan利用文本分类技术和命名实体识别技术来提高新事件(New EventDetection)的识别率,提出一个基于多文档表示的空间向量模型,首先创建三个文档,第一个文档只表示包含文档中除了停用词之外的所有特征项(James Allan,Victor Lavrenko,and Hubert Jin.First Story Detection In TDT Is Hard.InProceedings of the Ninth International Conference on Information and KnowledgeManagement CIKM.Washington:ACM Press,2000:374-381)。第二个文档则仅含有命名实体,第三个文档则仅含有非命名实体。当两篇文章进行比较时,仅比较与之相应的文本表示。骆卫华等人在传统Single-Pass的基础上提出分治多层聚类的思想,该算法旨将数据分组来减少大规模数据处理时系统负荷,在话题检测领域取得了一定成果(骆卫华,于满泉,许洪波.基于多策略优化的分治多层聚类算法的话题发现研究.全国第八届计算语言学联合学术会议(JSCL-2005)论文集,中国南京,2005:362-368)。邱立坤等人提出了层次化话题与层次聚类的概念,层次化聚类开始逐渐显露出优质的聚类效果,并开始应用于事件检测领域(邱立坤,龙志祎,钟华.层次化话题发现与跟踪方法及系统实现.广西师范大学学报(自然科学版).2007(02):157-160页)。
分析已有网络热点事件发现技术可以看出,实现网络热点事件发现的技术路线主要有两条:
1.首先收集互联网中发布的信息数据并存储到本地,然后采用相关的数据挖掘技术对收集到的信息进行分析,发现其中包含的热点事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910071484.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示胎儿超声检查结论相关信息的方法
- 下一篇:网络文件下载服务器及方法





