[发明专利]一种基于域名区文件的网站数量判定方法和系统有效
申请号: | 201810442457.6 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108600054B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 肖建芳;孙从友;杨学;卢剑鸣;邓桂英;王利军;杨磊;张立坤 | 申请(专利权)人: | 中国互联网络信息中心 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/12 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 域名 文件 网站 数量 判定 方法 系统 | ||
获取域名区文件,并从中提取域名信息列表;通过对各域名区文件中权威记录进行处理提取全部域名信息列表;
将所述域名信息列表转化为探测任务;
执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;执行探测任务获取探测数据包括:下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据;
通过对所述探测数据统计和分析,获得探测结果;所述获得探测结果包括获取网站数量,网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量。
2.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述获取域名区文件包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件。
3.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。
4.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述将所述域名信息列表转化为探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务分割为探测子任务。
5.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述获得探测结果还包括:识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。
6.如权利要求5所述基于域名区文件的网站数量判定方法,其特征在于,网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。
7.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,还包括:根据探测结果生成探测报告,所述探测报告包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
8.一种采用权利要求1~7中任一权利要求所述方法的基于域名区文件的网站数量判定系统,其特征在于,包括:
域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;
探测任务生成模块,用以将所述域名信息列表转化为探测任务;
探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;
数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。
9.如权利要求8所述基于域名区文件的网站数量判定系统,其特征在于,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
10.如权利要求8所述基于域名区文件的网站数量判定系统,其特征在于,还包括:
任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;
数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;
监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;
配置模块,用于对系统部署环境进行配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810442457.6/1.html,转载请声明来源钻瓜专利网。