[发明专利]一种手机号码的海量提取方法及系统有效
| 申请号: | 201610970408.0 | 申请日: | 2016-10-28 |
| 公开(公告)号: | CN106570152B | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 欧阳涛 | 申请(专利权)人: | 金华市智甄通信设备有限公司 |
| 主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/215;G06F16/2458;H04L29/08 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 裴金华 |
| 地址: | 321015 浙江省金华市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种手机号码的海量提取方法,包括以下步骤:S10、利用分布式web服务器框架,分别将各URL中的子文本数据收集到本地文件池;S20、将所述本地文件池内累加得到的号码文本数据上传至hadoop的云端分布式文件系统hdfs1;S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内号码文本数据中分布式提取URL的手机号码。本发明在大数据应用场景下,将各子文本数据汇聚到本地文件池中后,将号码文本数据上传到云端分布式文件系统中,再利用hive进行分布式计算来进行分布式提取;从而实现高效提取海量手机号码,且具有消耗资源低等优点。 | ||
| 搜索关键词: | 一种 手机号码 海量 提取 方法 系统 | ||
【主权项】:
一种手机号码的海量提取方法,其特征在于,包括以下步骤:S10、利用分布式web服务器框架,分别将各URL中的子文本数据收集到本地文件池;S20、将所述本地文件池内累加得到的号码文本数据上传至hadoop的云端分布式文件系统hdfs1;S40、利用hadoop的数据仓库工具hive从所述云端分布式文件系统hdfs1内号码文本数据中分布式提取URL的手机号码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金华市智甄通信设备有限公司,未经金华市智甄通信设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610970408.0/,转载请声明来源钻瓜专利网。
- 上一篇:数据备份及传输方法及移动终端
- 下一篇:一种实时采集滚动日志的方法及系统





