[发明专利]一种基于互联网金融大数据处理方法在审

专利信息
申请号: 201910071436.2 申请日: 2019-01-25
公开(公告)号: CN109948022A 公开(公告)日: 2019-06-28
发明(设计)人: 刘海峰 申请(专利权)人: 华存数据信息技术有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958;G06Q40/00
代理公司: 北京华仲龙腾专利代理事务所(普通合伙) 11548 代理人: 李静
地址: 200127 上海市浦东新区中国(上海)*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抓取 爬虫 数据处理 大数据 数据网站 数据处理过程 数据处理模块 互联网技术 准确度 链接过滤 匹配效率 属性内容 数据采集 数据模块 网页内容 整体系统 复杂度 互联网 整合 抽取 金融 存储 取出 网页 采集
【说明书】:

发明涉及互联网技术领域,尤其为一种基于互联网金融大数据处理方法,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块,3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块,4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块,本发明对数据采集链接过滤的方法复杂度较低,能更快的进行数据处理,数据处理过程中的整合步骤使得匹配效率得到了很大的提升,同时准确度也得到了保障。

技术领域

本发明涉及互联网技术领域,尤其涉及一种基于互联网金融大数据处理方法。

背景技术

在互联网新兴技术普及应用的过程中,越来越多的用户数据产生、散布在互联网的各个角落,产生了大体量(Volume)、多样化(Variety)、高速度(Velocity)和低价值(Value)等大数据概念(big data),并渗透到每一个行业和业务职能领域,为下一步商业和金融服务创新浪潮奠定了数据基础。传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。互联网网页数据是大数据领域的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对互联网网页的大数据处理流程和技术进行探索具有重要意义。互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术,因此需要一种基于互联网金融大数据处理方法对上述问题做出改善。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网金融大数据处理方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于互联网金融大数据处理方法,包括以下步骤:

S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块;4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;

S2:大数据的采集包括以下几个步骤:1、Web爬虫模块将需要抓取数据的金融网站的URL信息写入爬虫URL队列模块;2、从爬虫URL队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、Web爬虫模块从Internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对URL信息进行过滤,将当前的URL信息和已经抓取过的URL信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、Web爬虫模块将从网页中抽取出的数据写入数据模块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华存数据信息技术有限公司,未经华存数据信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910071436.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top