[发明专利]网址净化方法及装置有效
申请号: | 201310632492.1 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103793462A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 周雷;高扬;姜鑫;牛杏媛;蒋英雪 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京工信联合知识产权代理事务所(普通合伙) 11266 | 代理人: | 郭一斐 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网址 净化 方法 装置 | ||
1.一种网址净化方法,其特征在于包括以下步骤:
将原始网址与可净化的域名集合中的域名进行匹配;
根据匹配成功的域名定位到对应的网址模板集合;
将所述原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;
判断正则表达式匹配成功的模板中是否包含命令字;若是,则根据命令字对网址进行处理,否则返回原始网址;
输出净化后的新网址。
2.根据权利要求1所述的网址净化方法,其特征在于:
当判断正则表达式匹配成功的模板中包含的命令字为goodsid,且所述正则表达式匹配成功的模板中包含自定义形式时,则根据命令字对网址进行处理,包括抽取出goodsid,根据自定义形式标准,生成新的网址。
3.根据权利要求1所述的网址净化方法,其特征在于:
当判断正则表达式匹配成功的模板中包含的命令字为truncate时,则抽取匹配成功的正则表达式中分组匹配部分,将这些部分组合成新的网址。
4.根据权利要求1所述的网址净化方法,其特征在于:
当判断正则表达式匹配成功的模板中包含的命令字为分组命令时,则将分组字符串处理后重新拼成新的网址。
5.根据权利要求4所述的网址净化方法,其特征在于:
当所述分组命令包括low_n命令,则表示第n组转换成小写形式;当所述分组命令包括up_n命令,则表示第n组转换成大写形式。
6.根据权利要求1所述的网址净化方法,其特征在于:
当判断正则表达式匹配成功的模板中包含的命令字为goodsid,但所述正则表达式匹配成功的模板中不包含自定义形式时,则进一步判断该正则表达式匹配成功的模板中是否包含命令字truncate,若是,则抽取匹配成功的正则表达式中分组匹配部分,将这些部分组合成新的网址;否则进一步判断该正则表达式匹配成功的模板中是否包含命令字分组命令,若是,则将分组字符串处理后重新拼成新的网址;否则返回原始网址。
7.根据权利要求1-6之一所述的网址净化方法,其特征在于:
所述域名集合中包括一个或多个域名,所述网址模板集合中包括一个或多个网址模板。
8.根据权利要求1-7之一所述的网址净化方法,其特征在于:
所述网址模板包括域名、正则表达式和命令字。
9.根据权利要求8所述的网址净化方法,其特征在于:
所述网址模板还包括自定义形式。
10.一种网址净化装置,其特征在于包括以下模块:
域名匹配模块,将原始网址与可净化的域名集合中的域名进行匹配;
定位模块,根据匹配成功的域名定位到对应的网址模板集合;
模板匹配模块,将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;
命令字处理模块,判断正则表达式匹配成功的模板中是否包含命令字;若是则根据命令字对网址进行处理,否则返回原始网址;
输出模块,输出净化后的新网址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310632492.1/1.html,转载请声明来源钻瓜专利网。