[发明专利]一种基于互联网金融大数据处理方法在审
申请号: | 201910071436.2 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109948022A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 刘海峰 | 申请(专利权)人: | 华存数据信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06Q40/00 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙) 11548 | 代理人: | 李静 |
地址: | 200127 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 爬虫 数据处理 大数据 数据网站 数据处理过程 数据处理模块 互联网技术 准确度 链接过滤 匹配效率 属性内容 数据采集 数据模块 网页内容 整体系统 复杂度 互联网 整合 抽取 金融 存储 取出 网页 采集 | ||
1.一种基于互联网金融大数据处理方法,其特征在于,包括以下步骤:
S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块;4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;
S2:大数据的采集包括以下几个步骤:1、Web爬虫模块将需要抓取数据的金融网站的URL信息写入爬虫URL队列模块;2、从爬虫URL队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、Web爬虫模块从Internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对URL信息进行过滤,将当前的URL信息和已经抓取过的URL信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、Web爬虫模块将从网页中抽取出的数据写入数据模块;
S3,大数据的处理包括以下几个步骤:1、对抓取来的网页内容进行分词;2、将分词处理的结果写入数据模块;3、对抓取来的网页内容进行排除重复项处理:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重,输出是一个C位的二进制签名S,①初始化一个C维向量Q为0,C位的二进制签名S为0;②对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H,对1<=i<=C,如果H的第i位为1,则Q的第i个元素加上该特征的权重,否则,Q的第i个元素减去该特征的权重;③如果Q的第i个元素大于0,则S的第i位为1,否则为0;④返回签名S;⑤每篇文档算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可;4、将排除重复项处理后的数据写入数据模块;5、根据之前的处理结果,对数据进行整合;6、将整合后的结果写入数据模块,即可得到该金融网站的互联网大数据。
2.根据权利要求1所述的一种基于互联网金融大数据处理方法,其特征在于,所述S1,Web爬虫模块包含有四个模块:网站页面、链接抽取、链接过滤、内容抽取。
3.根据权利要求1所述的一种基于互联网金融大数据处理方法,其特征在于,所述S2,对URL信息进行过滤的步骤为:已经抓取过的每个URL,经过k个hash函数的计算,得出k个值,再和一个巨大bit数组的这k个位置的元素对应起来(这些位置数组元素的值被设置为1),在需要判断某个URL是否被抓取过时,先用k个hash函数对该URL计算出k个值,然后查询巨大的bit数组内这k个位置上的值,如果全为1,则是已经被抓取过,否则没有被抓取过。
4.根据权利要求1所述的一种基于互联网金融大数据处理方法,其特征在于,所述S2,海明距离在3以内的可以认为相似度比较高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华存数据信息技术有限公司,未经华存数据信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910071436.2/1.html,转载请声明来源钻瓜专利网。