[发明专利]适用于大数据分析互联网数据抓取方法在审
申请号: | 202010212831.0 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111460253A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 相辉;张永力;苏睿清;张弘媛;蔡鹏飞;张静;卢焱;杨青卓;李昊兰 | 申请(专利权)人: | 国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 数据 分析 互联网 抓取 方法 | ||
本发明公开了适用于大数据分析互联网数据抓取方法,包括以下步骤:S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户。本发明将储存的数据进行程序筛选和人工筛选,由此提高了数据的价值性,减低假冒诈骗的信息的流传,从而有利于产业的健康发展。
技术领域
本发明涉及互联网大数据技术领域,尤其涉及适用于大数据分析互联网数据抓取方法。
背景技术
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术有三个层次,一是用于数据管理的底层技术。第二个层次就是人工智能技术。互联网大数据当前发展的三大趋势,第一个趋势是“个性化”;第二个趋势是“智能化”;第三个趋势是“产业化”。
现有的互联网大数据在抓取时,其数据的由来一般是互联网+物联网的结合,所以其产生的大数据是及其复杂的,而且很多大数据是无用的。然而现有的互联网大数据在抓取时主要是为了更好的为产业服务,向客户推荐更准确的产品,然而在海量的无用以及干扰数据的影响下,会严重影响大数据的正确推送和安全抓取,从而不利于产业的健康发展,因此当前正是缺少这种安全而高效的大数据抓取方法来解决此类问题,为此我们提出了适用于大数据分析互联网数据抓取方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的适用于大数据分析互联网数据抓取方法。
为了实现上述目的,本发明采用了如下技术方案:
适用于大数据分析互联网数据抓取方法,包括以下步骤:
S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;
S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;
S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入下一步人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
优选的,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时主要产生位置信息、状态信息和设备信息,计算机终端在使用时主要产生软件平台信息和IP地址信息,而手持终端在使用时则主要产生软件平台信息、位置信息、状态信息和IP 地址信息。
优选的,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。
优选的,所述程序筛选包括关键字检索和敏感图像检索两大类。
优选的,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态 Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和 DeepWeb数据获取技术进行数据分析检索。
优选的,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司,未经国家电网有限公司;国网河北省电力有限公司物资分公司;国网河北招标有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212831.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置