[发明专利]基于Storm的产品评论信息实时采集方法有效
申请号: | 201610313091.3 | 申请日: | 2016-05-11 |
公开(公告)号: | CN106021391B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 郝志峰;骆魁永;蔡瑞初;陈炳丰;袁琴 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 张文 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于Storm的产品评论信息实时采集方法,该方法在基于Storm平台的采集系统进行,该方法包括产品抓取模块周期性的从网络中抓取数据,预处理模块根据产品Id初始化产品的属性参数,调度模块将数据封装成Tuple发射到Storm集群中,更新检测模块检查是否有新的评论产生,将其送到评论信息抓取模块,评论信息抓取模块检测到有评论信息更新的产品进行分布式抓取,访问间隔调整模块动态调整产品下一次采集的时间等。本发明将传统的网络爬虫与开源分布式流处理框架Storm相结合,使得传统的网络爬虫能够运行在流处理平台上,在实时信息采集性能上得到极大提高,具有很强的实际价值和现实意义。 | ||
搜索关键词: | 基于 storm 产品 评论 信息 实时 采集 方法 | ||
【主权项】:
1.基于Storm的产品评论信息实时采集方法,其特征在于:该方法在基于Storm平台的采集系统进行,所述的采集系统包括产品抓取模块、预处理模块、调度模块、更新检测模块、评论信息抓取模块、HBase数据存储模块、访问间隔调整模块;该方法包括:a.产品抓取模块由时间触发服务器激活,周期性的从网络中抓取数据,获取产品的属性参数并存入到HBase数据存储模块中,同时检查新抓取到的产品Id是否已经存在待爬队列,如果已经存在则忽略,否则将其送到预处理模块进行预处理;b.预处理模块根据产品Id初始化产品的属性参数,将初始化后的产品Id经过url链接优化处理后放入待爬队列fetcher_queue;c.调度模块不断的从fetcher_queue队列中读取数据,并将数据封装成Tuple发射到Storm集群中;d.更新检测模块检查是否有新的评论产生,如果该产品有新评论产生,就将其送到评论信息抓取模块;e.评论信息抓取模块对更新检测模块检测到有评论信息更新的产品进行分布式抓取;f.访问间隔调整模块动态调整产品下一次采集的时间,包括以下步骤:S1.获取产品历史最小更新频率fl、最大更新频率fu以及采集间隔interval;S2.获取产品当前的采集次数nt、评论信息发生更新次数nc,计算出产品当前的更新频率fc=nc/nt;S3.根据下列公式来调整产品的采集间隔interval,next_interval=interval+Δt (公式1)
其中μ(x)是单位阶跃函数,
S4.通过产品当前的评论量n、最近一次评论信息产生的时间间隔t1以及最近一次采集的产品评论信息的最大滞后时间t2作为其优先级量化因子,分别对n、t1、t2做0~1区间的归一化操作,按下式计算该产品此时的优先级p,重新放入待爬队列fetcher_queue;![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610313091.3/,转载请声明来源钻瓜专利网。