[发明专利]网址净化方法及装置有效
申请号: | 201310632492.1 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103793462A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 周雷;高扬;姜鑫;牛杏媛;蒋英雪 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京工信联合知识产权代理事务所(普通合伙) 11266 | 代理人: | 郭一斐 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网址 净化 方法 装置 | ||
技术领域
本发明涉及一种网址净化方法及其装置,尤其涉及一种对网址形式较多的网站中的网址进行净化的方法。
背景技术
URL(Uniform Resoure Locator:统一资源定位器)是网络资源的地址,也称为网址。在本发明中,以中文的“网址”和英文缩写“URL”表示同一个概念。它从左到右由下述部分组成:
·Internet资源类型(scheme):指出WWW客户程序用来操作的工具。如“http://”表示WWW服务器,“ftp://”表示FTP服务器,“gopher://”表示Gopher服务器,而“new:”表示Newgroup新闻组。
·服务器地址(host):指出WWW页所在的服务器域名。
·端口(port):有时(并非总是需要),对某些资源的访问来说,需给出相应的服务器提供端口号。
·路径(path):指明服务器上某资源的位置(其格式与DOS系统中的格式一样,通常有目录/子目录/文件名这样结构组成)。与端口一样,路径并非总是需要的。
URL地址格式排列为:scheme://host:port/path,例如http://www.microsoft.com:80/products就是一个典型的URL地址。
现如今天随着网站推广手段的日愈丰富,广大网站为了统计当前URL的流量来源,会对URL做一些额外的处理,有的会在URL主体后面加上一些额外的信息,有的则是变化了URL的形式,这些额外的形式提高了网站的效率,但是对于搜索引擎的爬虫来说,却是噩梦,因为现有技术的爬虫在抓取的时候,并不会主动区分这些额外的信息,而会分别对这些变化的URL进行抓取,但是抓取的内容却是指向同一个网页。对于爬虫来说,则浪费了URL调度模块的存储空间,带宽,以及计算的资源,导致爬虫的实际使用效率不高。
发明内容
鉴于上述问题,需要提升搜索引擎的爬虫抓取有效网页的能力及爬虫的实际使用效率,从而节省各种资源等(例如存储空间、带宽、CPU、内存等)。
因此,依据本发明的一个方面,提供了一种网址净化方法,该方法包括以下步骤:
将原始网址与可净化的域名集合中的域名进行匹配;
根据匹配成功的域名定位到对应的网址模板集合;
将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;
判断正则表达式匹配成功的模板中是否包含命令字;若是则根据命令字对网址进行处理,转到输出净化后的新网址步骤,否则返回原始网址;
输出净化后的新网址。
可选地,当判断正则表达式匹配成功的模板中包含的命令字为goodsid,且所述正则表达式匹配成功的模板中包含自定义形式时,则根据命令字对网址进行处理,包括抽取出goodsid,根据自定义标准形式,生成新的网址。
可选地,当判断正则表达式匹配成功的模板中包含的命令字为truncate时,则抽取匹配成功的正则表达式中分组匹配部分,将这些部分组合成新的网址。
可选地,当判断正则表达式匹配成功的模板中包含的命令字为分组命令时,则将分组字符串处理后重新拼成新的网址。
可选地,当所述分组命令包括low_n命令,则表示第n组转换成小写形式;当所述分组命令包括up_n命令,则表示第n组转换成大写形式。
可选地,当判断正则表达式匹配成功的模板中包含的命令字为goodsid,但所述正则表达式匹配成功的模板中不包含自定义形式时,则进一步判断该正则表达式匹配成功的模板中是否包含命令字truncate,若是,则抽取匹配成功的正则表达式中分组匹配部分,将这些部分组合成新的网址;否则进一步判断该正则表达式匹配成功的模板中是否包含命令字分组命令,若是,则将分组字符串处理后重新拼成新的网址;否则返回原始网址。
可选地,所述域名集合中包括一个或多个域名,所述网址模板集合中包括一个或多个网址模板。
可选地,所述网址模板包括域名、正则表达式和命令字。
可选地,所述网址模板还包括自定义形式。
根据本发明的另一方面,本发明还提出了一种网址净化装置,该装置包括以下模块:
域名匹配模块,将原始网址与可净化的域名集合中的域名进行匹配;
定位模块,根据匹配成功的域名定位到对应的网址模板集合;
模板匹配模块,将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310632492.1/2.html,转载请声明来源钻瓜专利网。