[发明专利]一种页面分类方法、装置、设备及存储介质在审
| 申请号: | 202010428417.3 | 申请日: | 2020-05-20 |
| 公开(公告)号: | CN111611457A | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 万千 | 申请(专利权)人: | 北京金山云网络技术有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/957 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;丁芸 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 页面 分类 方法 装置 设备 存储 介质 | ||
本公开实施例提供了一种页面分类方法、装置、设备及存储介质,涉及云计算领域。本方法包括:获取待分类页面;对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。上述过程中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
技术领域
本公开涉及一种页面分类方法、装置、设备及存储介质。
背景技术
为了便于页面的管理,通常需要对页面进行类别划分。
目前,进行页面分类的一般方法为:对待识别页面进行指纹识别,得到分类结果,即:获取待识别页面中的待识别数据,然后通过正则匹配算法或者信息-摘要算法等,将上述待识别数据与预先建立的指纹库中的分类规则进行匹配,确定出与待识别页面匹配成功的目标分类规则,并将与该目标分类规则对应的页面类型确定为该待识别页面的页面类型。
上述分类方法,依赖于预先建立的指纹库。由于企业业务种类不同,所使用的服务和架构种类较多,导致指纹库中分类规则的种类和数量也较多,同时,随着服务和框架版本的不断更新,分类规则也需要随之更新,而分类规则的设定、维护和更新主要依靠人工实现,因此,上述页面分类方法中人工成本较高。
发明内容
本公开实施例的目的在于提供一种页面分类方法、装置、设备及存储介质,以降低页面分类过程中的人工成本。具体技术方案如下:
第一方面,本公开实施例提供了一种页面分类方法,所述方法包括:
获取待分类页面;
对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。
进一步的,所述聚类模型的训练过程包括:
建立初始聚类模型;
获取各样本页面;
对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据;
将所述各样本页面的样本特征数据输入所述初始聚类模型,进行聚类训练,得到所述聚类模型。
进一步的,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的所述预设特征属性对应的特征属性值序列;
基于所述特征属性值序列和所述各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成所述各样本页面的样本特征向量,作为所述各样本页面的样本特征数据;
所述对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据的步骤,包括:
获取所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值;
基于所述特征属性值序列和所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值,生成所述待分类页面的待分类特征向量,作为待分类特征数据。
进一步的,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山云网络技术有限公司,未经北京金山云网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010428417.3/2.html,转载请声明来源钻瓜专利网。





