[发明专利]一种基于互联网金融大数据处理方法在审
申请号: | 201910071436.2 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109948022A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 刘海峰 | 申请(专利权)人: | 华存数据信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06Q40/00 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙) 11548 | 代理人: | 李静 |
地址: | 200127 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及互联网技术领域,尤其为一种基于互联网金融大数据处理方法,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块,3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块,4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块,本发明对数据采集链接过滤的方法复杂度较低,能更快的进行数据处理,数据处理过程中的整合步骤使得匹配效率得到了很大的提升,同时准确度也得到了保障。 | ||
搜索关键词: | 抓取 爬虫 数据处理 大数据 数据网站 数据处理过程 数据处理模块 互联网技术 准确度 链接过滤 匹配效率 属性内容 数据采集 数据模块 网页内容 整体系统 复杂度 互联网 整合 抽取 金融 存储 取出 网页 采集 | ||
【主权项】:
1.一种基于互联网金融大数据处理方法,其特征在于,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块;4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;S2:大数据的采集包括以下几个步骤:1、Web爬虫模块将需要抓取数据的金融网站的URL信息写入爬虫URL队列模块;2、从爬虫URL队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、Web爬虫模块从Internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对URL信息进行过滤,将当前的URL信息和已经抓取过的URL信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、Web爬虫模块将从网页中抽取出的数据写入数据模块;S3,大数据的处理包括以下几个步骤:1、对抓取来的网页内容进行分词;2、将分词处理的结果写入数据模块;3、对抓取来的网页内容进行排除重复项处理:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重,输出是一个C位的二进制签名S,①初始化一个C维向量Q为0,C位的二进制签名S为0;②对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H,对1<=i<=C,如果H的第i位为1,则Q的第i个元素加上该特征的权重,否则,Q的第i个元素减去该特征的权重;③如果Q的第i个元素大于0,则S的第i位为1,否则为0;④返回签名S;⑤每篇文档算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可;4、将排除重复项处理后的数据写入数据模块;5、根据之前的处理结果,对数据进行整合;6、将整合后的结果写入数据模块,即可得到该金融网站的互联网大数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华存数据信息技术有限公司,未经华存数据信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910071436.2/,转载请声明来源钻瓜专利网。