[发明专利]网站分类方法、装置、计算机设备及存储介质在审
| 申请号: | 202011451067.9 | 申请日: | 2020-12-10 |
| 公开(公告)号: | CN112579848A | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 陈诚 | 申请(专利权)人: | 北京知道创宇信息技术股份有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李莎 |
| 地址: | 100000 北京市朝阳区阜*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网站 分类 方法 装置 计算机 设备 存储 介质 | ||
1.一种网站分类方法,其特征在于,应用于计算机设备,所述方法包括:
获取待分类网站的网站关键字;
计算所述网站关键字与预设标签之间的相似度;
若所述相似度大于第一预设阈值,则将所述预设标签作为所述待分类网站的类别标签。
2.如权利要求1所述的网站分类方法,其特征在于,所述网站关键字对应一个权重,所述预设标签对应多个预设关键字,所述计算所述网站关键字与预设标签之间的相似度的步骤包括:
计算所述网站关键字与每一所述预设关键字之间的初始相似度;
将大于第二预设阈值的所述初始相似度作为目标相似度;
根据所述目标相似度及对应的网站关键字的权重,计算所述目标相似度的加权平均数,得到所述网站关键字与所述预设标签之间的相似度。
3.如权利要求1所述的网站分类方法,其特征在于,所述方法还包括:
获取待分类网站的网页文本;
对所述网页文本进行关键字提取,得到所述待分类网站的网站关键字及所述网站关键字对应的权重。
4.如权利要求1所述的网站分类方法,其特征在于,所述预设标签对应多个预设关键字,所述方法还包括:
依据待分类网站的网站关键字及所述类别标签对所述预设标签的预设关键字进行扩充。
5.如权利要求4所述的网站分类方法,其特征在于,所述依据待分类网站的网站关键字及所述类别标签对所述预设标签的关键字进行扩充的步骤包括:
统计每一所述类别标签对应的所述网站关键字出现的次数;
从所述次数最大的预设个数的所述网站关键字中确定目标关键字;
将与所述目标关键字的类别标签一致的预设标签作为待扩充标签;
将所述目标关键字添加至所述待扩充标签。
6.如权利要求1所述的网站分类方法,其特征在于,所述计算机设备预先存储有网站信息数据库,所述网站信息数据库包括预设网站信息与对应的类别标签,所述方法还包括:
基于订阅者预先设置的订阅标签,从所述网站信息数据库中确定与所述订阅标签一致的目标类别标签;
将与所述目标类别标签对应的目标预设网站信息推送至所述订阅者。
7.一种网站分类装置,其特征在于,应用于计算机设备,所述装置包括:
获取模块,用于获取待分类网站的网站关键字;
计算模块,计算所述网站关键字与预设标签之间的相似度;
分类模块,若所述相似度大于第一预设阈值,则将所述预设标签作为所述待分类网站的类别标签。
8.如权利要求7所述的网站分类装置,其特征在于,所述网站关键字对应一个权重,所述预设标签对应多个预设关键字,所述计算模块具体用于包括:
计算所述网站关键字与每一所述预设关键字之间的初始相似度;
将大于第二预设阈值的所述初始相似度作为目标相似度;
根据所述目标相似度及对应的网站关键字的权重,计算所述目标相似度的加权平均数,得到所述网站关键字与所述预设标签之间的相似度。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的网站分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的网站分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道创宇信息技术股份有限公司,未经北京知道创宇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451067.9/1.html,转载请声明来源钻瓜专利网。





