[发明专利]一种基于URL的网页分类器构建方法及其分类方法有效
申请号: | 201811025751.3 | 申请日: | 2018-09-04 |
公开(公告)号: | CN109284465B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 孙玉霞;赵晶晶;仇之 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/35;G06F40/289 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑浦娟 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 网页 分类 构建 方法 及其 | ||
1.一种基于URL的网页分类器构建方法,其特征在于,步骤如下:
步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;
步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;选定的字符包括“?”,“=”,“.”,“”,“-”和“#”;
步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器;
所述步骤S1中,从良性以及恶意URL仓库中获取多个网页的URL,训练样本集中包括一定数量的网页属性为恶意的URL以及一定数量的网页属性为良性的URL;
所述步骤S1获取到训练样本集后,针对训练样本集进行去重处理,具体如下:首先N选取一个初始值,获取训练样本集中各训练样本的前N个字符,针对于训练样本集中前N个字符相同的URL,进行去重处理后仅剩一个,然后判断训练样本集中训练样本的总数是否小于等于阈值,若否,则减小N的值,并做上述同样的处理,直到训练样本集中训练样本的总数减少到小于等于阈值;针对于去重处理后得到的最终训练样本集,通过选定的字符对训练样本集中各训练样本进行分词处理,然后转换成词向量。
2.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,针对于各训练样本分词处理后的结果,使用Word2vec转换成词向量。
3.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,在使用Word2vec转换得到词向量时,设置以下参数:词嵌入维度embeding-size、上下文窗口大小window和最小词频数min_count。
4.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,卷积神经网络构建为从输入到输出,依次包括第一部分、第二部分、第三部分、第四部分和第五部分;其中:
所述第一部分为输入层,用于输入各训练样本的词向量;
所述第二部分从输入到输出方向,依次包括第一卷积层、第一池化层、第二卷积层和第二池化层,用于提取各种程度的上下文语义;其中第一卷积层和第二卷积层均包含三种大小的卷积核,第一卷积层和第二卷积层的尺寸相同;
所述第三部分为向量合并层,用于将第二部分各卷积核卷积以后的结果合并为一个特征向量;
所述第四部分为全连接层,包括第一全连接层和第二全连接层,第一全连接层针对特征向量进行Dropout处理,第二全连接层通过分类器得到特征向量对应的分数最高的类别;
所述第五部分为输出层,用于输出分类结果。
5.根据权利要求1所述的基于URL的网页分类器构建方法,所述N取至20~30中的整数。
6.一种基于URL的网页分类方法,其特征在于,步骤如下:
步骤X1、针对于需要进行分类的网页,首先获取该网页的URL,作为测试样本;然后通过选定的字符对测试样本进行分词处理,最后转换成词向量;
步骤X2、将测试样本的词向量输入到权利要求1至5中任一项所述方法构建得到的网页分类器中,通过网页分类器输出分类结果。
7.根据权利要求6所述的基于URL的网页分类方法,其特征在于,
所述步骤X1中,通过选定的字符“?”,“=”,“.”,“”,“-”和“#”对各测试样本进行分词处理;
所述步骤X1中,针对于各测试样本分词处理后的结果,使用Word2vec转换成词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811025751.3/1.html,转载请声明来源钻瓜专利网。