[发明专利]用户标识识别方法、装置、计算机设备及存储介质有效
| 申请号: | 202010075694.0 | 申请日: | 2020-01-22 |
| 公开(公告)号: | CN111259252B | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户 标识 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种用户标识识别方法,其特征在于,所述方法包括:
获取用户标识的多条搜索数据,所述搜索数据为词语或者句子;
根据所述多条搜索数据的语义,将所述多条搜索数据划分为多个类别,每个类别包括至少一条搜索数据;
根据所述多条搜索数据,获取所述多个类别对应的搜索次数;
根据所述多个类别对应的搜索次数中各个类别所占的比例,获取所述用户标识的分值,所述分值为所述多条搜索数据的信息熵,所述信息熵用于表示所述多条搜索数据所属类别之间的复杂程度;
根据所述分值,确定所述用户标识的识别结果,所述识别结果用于表示所述用户标识是否为异常用户标识;
其中,所述信息熵基于以下公式计算得到:
x为搜索数据对应的类别,n为类别的总数量,i表示n个类别中的第i个类别,1≤i<n,i为正整数,H(X)为所述信息熵,p(xi)为所述第i个类别xi对应的概率,即所述第i个类别xi对应的比例,-logp(xi)为信息量。
2.根据权利要求1所述的方法,其特征在于,所述将所述多条搜索数据划分为多个类别,每个类别包括至少一条搜索数据之前,所述方法还包括:
响应于所述多条搜索数据的总搜索次数大于预设次数,执行将所述多条搜索数据划分为多个类别,每个类别包括至少一条搜索数据的步骤。
3.根据权利要求1所述的方法,其特征在于,所述获取用户标识的多条搜索数据,包括:
获取所述用户标识在当前时间点之前的预设时长内的多条搜索数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述多条搜索数据划分为多个类别,包括:
获取所述多条搜索数据的特征向量;
根据所述多条搜索数据的特征向量,对所述多条搜索数据进行聚类,确定所述多个类别。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多条搜索数据,获取所述多个类别对应的搜索次数,包括:
将每个类别中的每条搜索数据对应的搜索次数进行累加,得到所述每个类别对应的搜索次数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个类别对应的搜索次数,获取所述用户标识的分值,包括:
根据所述多个类别对应的搜索次数,获取每个类别的搜索次数所占的比例;
根据所述每个类别对应的比例,获取所述用户标识的分值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述分值,确定所述用户标识的识别结果,包括:
响应于所述分值小于预设阈值,则确定所述用户标识为异常用户标识;或者,
响应于所述分值不小于所述预设阈值,则确定所述用户标识为正常用户标识。
8.根据权利要求1所述的方法,其特征在于,所述根据所述分值,确定所述用户标识的识别结果之后,所述方法还包括:
将所述用户标识的识别结果确定为所述多条搜索数据的识别结果。
9.根据权利要求8所述的方法,其特征在于,所述将所述用户标识的识别结果确定为所述多条搜索数据的识别结果之后,所述方法还包括:
响应于所述多条搜索数据的识别结果为正常搜索数据,将所述多条搜索数据添加至目标模型的样本数据集合,所述目标模型包括数据推荐模型或数据点击率预测模型中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010075694.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示屏及电子设备
- 下一篇:一种环保型细粒煤化学脱灰设备及方法





