[发明专利]一种网页分类方法、装置、电子设备及存储介质在审
| 申请号: | 202010467507.3 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN113742785A | 公开(公告)日: | 2021-12-03 |
| 发明(设计)人: | 杨荣海;何嘉伟 | 申请(专利权)人: | 深信服科技股份有限公司 |
| 主分类号: | G06F21/64 | 分类号: | G06F21/64;G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
| 地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 分类 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种网页分类方法,所述网页分类方法包括对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模型执行网页分类操作。本申请能够提高网页分类的准确率。本申请还公开了一种网页分类装置、一种电子设备及一种存储介质,具有以上有益效果。
技术领域
本申请涉及网络安全技术领域,特别涉及一种网页分类方法、装置、一 种电子设备及一种存储介质。
背景技术
网络安全监控通过实时监控主机活动分析用户和系统的行为,进而识别 攻击行为。网络安全监控能够使管理员有效地监视、控制和评估网络或主机 系统的安全状态。
在网络安全监控的过程中,可以通过对网页进行分类确定网页类型,进 而判断该网页是否受到黑客攻击。相关技术中,基于关键词匹配统计网页中 命中词语的词频和概率分布来实现网页分类,但是这种仅关注网页文本内容 的检测方式的分类准确率较低。
因此,如何提高网页分类的准确率是本领域技术人员目前需要解决的技 术问题。
发明内容
本申请的目的是提供一种网页分类方法、装置、一种电子设备及一种存 储介质,能够提高网页分类的准确率。
为解决上述技术问题,本申请提供一种网页分类方法,该网页分类方法 包括:
对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页 信息组包括网页标签和所述网页标签对应的文本内容;
对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;
根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所 述文本语义向量执行向量整合操作,得到标签文本对语义向量;
利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页 分类模型执行网页分类操作。
可选的,所述对目标网页执行网页内容解析操作,得到网页信息组包括:
获取所述目标网页的网页源代码,将所述网页源代码中的关键字标签设 置为所述网页标签;
确定所述目标网页中与所述网页标签对应的文本内容;
根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。
可选的,将所述网页源代码中的关键字标签设置为所述网页标签包括:
将所述网页源代码与预设关键字表进行匹配操作;
将所述网页源代码中匹配命中的内容作为所述关键字标签,并将所述关 键字标签设置为网页标签。
可选的,对所述网页信息组执行编码操作,得到标签语义向量和文本语 义向量,包括:
对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向 量;
对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向 量。
可选的,根据所述网页标签和所述文本内容的对应关系对所述标签语义 向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量,包 括:
根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页 标签的标签语义向量和文本内容的文本语义向量执行向量整合操作,得到所 述标签文本对语义向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010467507.3/2.html,转载请声明来源钻瓜专利网。





