[发明专利]一种家庭宽带WiFi下手机号码特征自动提取方法在审

申请号：	201810285458.4	申请日：	2018-04-03
公开（公告）号：	CN108650145A	公开（公告）日：	2018-10-12
发明（设计）人：	王攀;金石	申请（专利权）人：	南京邮电大学
主分类号：	H04L12/26	分类号：	H04L12/26;H04L29/06
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	杨晓玲
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种家庭宽带WiFi下手机号码特征自动提取方法，采用DPI(深度包检测)技术、Hyperscan高速字符串匹配、Hadoop分布式架构、分布式爬虫等技术，可以更加快速准确的识别出固网WiFi下用户手机号码特征。
搜索关键词：	家庭宽带手机号码自动提取用户手机号码分布式架构深度包检测字符串匹配爬虫固网
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种家庭宽带WiFi下手机号码特征自动提取方法，其特征是，包括如下步骤：步骤1)通过深度包检测技术解析数据包，提取相关信息，判断数据包协议类型，清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包；对剩下的HTTP数据包进行HTTP应用层报文解析，提取字段内容；步骤2)对报文进行二次过滤，丢弃uri字段中资源类型不符合的数据包；步骤3)利用Hyperscan技术对数据包进行高效快速匹配，发现其中的疑似手机号，并与其他相关信息形成初步分析结果记录，整理成数据清单送入大数据分析模块进行分析；步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取，匹配出ua信息；当匹配出非手机型号的终端，判断此11位数字并非真的手机号，此手机号码特征关键字是无效的；步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系，匹配出手机号码关键字出自于哪种app应用，将同种应用产生出的许多不同host主机名的情况归为同一种应用，将来自未知应用的噪声数据记录剔除出去；步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数，利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数；通过设置应用阈值和时间阈值，所述应用阈值为出现次数阈值，时间阈值为app应用启动时间阈值，当应用阈值和时间阈值均不满足时，继续累积数据，否则归类进手机号码特征关键字库中；步骤7)采用黑名单的方式进行过滤，过滤黑名单关键字后再检查关键字，验证是否属于手机号码特征黑名单中，如否，则进入下一步，否则再次过滤黑名单关键字；步骤8)输出最终结果，形成手机号码特征结果表，包括手机号码特征关键字和手机号码特征对应app名称。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810285458.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种家庭宽带WiFi下手机号码特征自动提取方法在审

专利文献下载