[发明专利]一种基于互联网开放信息的事件发生风险预测并预警方法有效
申请号: | 201210501872.7 | 申请日: | 2012-11-29 |
公开(公告)号: | CN103854063B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 杨风雷;黎建辉 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 开放 信息 事件 发生 风险 预测 预警 方法 | ||
1.一种基于互联网开放信息的事件发生风险预测并预警方法,其步骤为:
1)建立一食品安全事件信息本体,并对本体中的每个实例分别建立一附加表;
2)对爬取的网页信息进行垃圾过滤,得到非垃圾网页信息;
3)对过滤后的网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所述食品安全事件信息本体中区域维度的本体实例名称、属性采用模式匹配方法对解析后的网页信息进行处理,将网页信息归入匹配成功的区域;
4)对网页信息进行过滤,得到与食品安全相关的网页信息;然后针对每一设定的对象类别,利用回归分析模型对过滤后的网页信息进行处理,判断每一网页信息相关的对象类别;
5)根据步骤3)、4)确定出的网页信息所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续设定时间超过设定阈值则对该事件进行预警;
6)如果某区域出现一设定对象事件预警,基于矩阵分析和回归预测模型定期计算目标区域发生该设定事件的可能性以及可能的发生时间,并进行不同级别的风险预警。
2.如权利要求1所述的方法,其特征在于对爬取的网页信息中的欺骗性垃圾意见进行过滤的方法为:
21)爬取所选用户生成内容信息源的网页,并根据爬取的网页建立一用户意见信息集合;对用户意见信息集合进行聚类,得到若干个信息区域,并计算每一信息区域中所有信息的特征向量均值,作为该信息区域的标志向量;
22)对每一信息区域中的用户意见信息进行样本抽样,得到每个信息区域的样本集合;
23)对每一信息区域的样本集合中的样本进行标注,得到每个信息区域的欺骗性垃圾意见样本集合和无标注意见信息样本集合;
24)对每一样本,寻找各信息区域的样本集合中与其最相似的P个样本,基于该P个样本的类别标识、及其与该样本之间的相似度值,得到该样本的最终特征向量;
25)基于每个样本的最终特征向量,选择机器学习方法针对每个信息区域建立一欺骗性垃圾意见检测模型;
26)利用欺骗性垃圾意见检测模型对用户意见信息集合中的信息进行过滤。
3.如权利要求2所述的方法,其特征在于得到所述每个信息区域的样本集合的方法为:先对所述用户意见信息集合中确定为欺骗性垃圾意见的信息进行标注,建立一准确的欺骗性垃圾意见信息集合;然后对意见信息分区后,在样本抽样过程中对每一分区按照随机抽样的方法进行多次抽取,并根据所建欺骗性垃圾意见信息集合选择所抽取样本中欺骗性垃圾意见数最多的一次抽取为该分区的最终样本,得到每个信息区域的样本集合。
4.如权利要求2或3所述的方法,其特征在于对每一样本,以样本的内容和链接纬度的特征参数形成其初始特征向量,寻找各信息区域的样本集合中与其最相似的P个样本。
5.如权利要求2所述的方法,其特征在于利用欺骗性垃圾意见检测模型对用户意见信息集合中的信息进行过滤过程中,以意见信息和各信息区域的距离为基础建立加权系数,将每一欺骗性垃圾意见检测模型对用户意见信息的检测结果进行综合加权,得到最终的检测结果;根据最终的检测结果对用户意见信息进行标注。
6.如权利要求2所述的方法,其特征在于所述样本最终特征向量的计算方法为:
A)首先对抽取出来的样本意见信息内容进行分词,去掉停用词,并经过降维后形成内容特征向量Qj,j为样本编号;
B)计算样本意见信息的链接特征,并将各项连接特征参数加权计算得到总的数值,设为Lj;
C)计算Mj=Lj*Qj,得到基于内容、链接的表征样本意见信息的初始特征向量Mj;
D)对信息区域中的每一样本Sample,基于该样本的初始特征向量,计算其与各信息区域中每一样本信息的相似值,并将各样本信息按照相似值从大到小排序,得到其相似样本序列;
E)将样本序列中前P个样本信息的类别标识与对应相似值分别相乘,形成一个纬数为P的向量N,作为样本Sample的最终特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210501872.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置