[发明专利]一种基于互联网信息的事件预警方法有效
| 申请号: | 201110430949.1 | 申请日: | 2011-12-20 |
| 公开(公告)号: | CN103176983A | 公开(公告)日: | 2013-06-26 |
| 发明(设计)人: | 杨风雷;黎建辉 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 互联网 信息 事件 预警 方法 | ||
技术领域
本发明属于信息技术领域,尤其涉及一种采用特定步骤监控、爬取、分析互联网信息,并基于此提取食品安全事件相关信息和进行预警的方法,主要应用于食品安全等非常规突发事件应急处理所需的互联网信息监控、信息预警等工作中。
背景技术
近年来,食品安全事件诸如瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了关注,这就需要提前发现这些事件的信息,及时预警并快速处理。这里面,获取信息是应急处理的关键和源头。
随着Intemet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交流形成了一个虚拟的社会,它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
从现实的角度看,注意到多数食品安全事件发生前,在互联网上总是已经存在一些零星的线索,为此,可以采取采集、分析互联网上的相关信息后以预警的方式为这些食品安全事件的应急管理提供直接的信息来源。为及时、准确、全面获取、掌握所需要的特定互联网目标信息,就需要用到互联网信息监控、爬取、分析和预警等相关技术。
比如有研究工作利用互联网信息进行风险预警,但该研究中对收集的信息如何处理,采取何种措施,都需要人工的参与和决定。也有研究工作可以自动的基于互联网信息针对添加剂和补充剂等进行食品安全风险预警,但其过程中所采集的信息主要是新闻信息,没有考虑目前正在快速发展的Web2.0应用诸如博客信息,同时也没有考虑信息的质量问题,没有对采集的垃圾信息进行过滤-这会影响预警的准确性;信息采集过程中没有考虑信息采集的及时、主题性等问题-这会影响预警的时效性和准确性;及事件信息发现过程中直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息对应的主体不一致等问题。从实际的测试结果看,其信息分类、预警的准确性、全面性、及时性等方面尚存在需要进一步提高的地方。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定步骤监控、爬取、过滤、分析互联网信息,并基于此提取食品安全事件信息和及时进行预警的方法,以有效的应对食品安全事件的应急管理需要。方法的步骤如下所述。
一、信息配置
在明确风险预警的目标和信息采集范围的基础上,通过预先的通用网页信息爬取(非主题爬取)和网页信息分析等工作,确定信息的存在区域、存在特点,并据此对数据源、风险预警目标等进行系统配置,为后面的信息监控、爬取、分析等步骤奠定基础。
二、信息爬取
在前面信息配置的基础上,通过预先的频繁页面信息爬取等工作,建立目标网站导航页面变化的时间序列预测模型以及页面主题相关等的判断模型,据此进行网页信息的及时和主题爬取,将相关信息进行保存,并在此基础上及时进行判断模型等的更新。
三、垃圾信息过滤
对爬取得到的网页信息进行垃圾信息过滤。其中对于欺骗性垃圾意见,首先采用启发式方法、正反向确认的方式建立准确的欺骗性垃圾意见集合,并在此基础上通过“从正例和无标注数据中学习”的机器学习方法建立欺骗性垃圾意见检测模型;基于此即可进行垃圾意见的检测识别(包括黑名单识别、反向识别、模型识别),并定期进行后期的样本、模型更新。对于其他类型的垃圾信息(包括通过内容作弊、链接作弊等方式生成的垃圾页面、以及用户生成内容中的无关意见和低质量意见等),通过标注正反例样本后采用机器学习方法建立检测模型进行识别(信息特征主要包括内容、内容分布、链接三个纬度)。
四、事件信息发现
对于经过垃圾信息过滤后的信息,在建立的食品安全事件信息本体基础上,通过信息分类、事件区分、趋势追踪和信息预警等技术,提取得到食品安全事件的相关信息并进行保存(含预警结果)。
五、信息服务
经过信息爬取、垃圾信息过滤、事件信息发现等步骤后,将识别发现的食品安全事件相关信息等保存到数据库中,并基于此通过信息展示、检索等方式提供给相关人员或直接提供给决策支持系统使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430949.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种及时高效的互联网信息爬取方法
- 下一篇:优化数据库中访问路径的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





