[发明专利]标签挖掘方法、装置、服务器和存储介质有效
申请号: | 201811509733.2 | 申请日: | 2018-12-11 |
公开(公告)号: | CN111310016B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 刘鹏;司学峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;H04L67/55 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 挖掘 方法 装置 服务器 存储 介质 | ||
1.一种标签挖掘方法,其特征在于,包括:
根据各用户端中安装的应用程序和/或各用户端的设备型号,确定各用户的终端属性;
将各用户端访问内容的内容标签作为各用户的内容标签;
根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集;
其中,所述根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集,包括:
根据各用户的终端属性以及内容标签,确定各终端属性与内容标签之间的相关性特征;
根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集;
其中,所述相关性特征包括提升度、共现度、前置信度、后置信度和支持度中的至少一个;所述共现度是任意一组终端属性与内容标签在所有的终端属性和内容标签中共同出现的次数或频率;所述前置信度是任意一组终端属性与内容标签共现度与该组终端属性在所有终端属性中出现频次的商;所述后置信度是任意一组终端属性与内容标签共现度与该组内容标签在所有内容标签中出现频次的商;所述支持度是表示任意一组终端属性与内容标签在所有的关联关系中同时出现的次数与所有关联关系的总个数的商;所述提升度是度量终端属性和内容标签的关联关系是否有效的指标。
2.根据权利要求1所述的方法,其特征在于,根据各用户端中安装的应用程序,确定各用户的终端属性,包括:
确定各用户端中安装的各应用程序所属的应用程序类型;
根据各用户端关联的应用程序类型,确定各用户的终端属性。
3.根据权利要求1所述的方法,其特征在于,根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,包括:
若任一内容标签与终端属性之间的提升度大于提升度阈值,则将该内容标签作为该终端属性关联的内容标签。
4.根据权利要求1所述的方法,其特征在于,根据所述各终端属性与内容标签之间的相关性特征,确定各终端属性所关联的内容标签集,包括:
根据各时间窗口内所述各终端属性与内容标签之间的相关性特征,确定在所述各时间窗口内各终端属性所关联的候选内容标签集;
对所述各终端属性所关联的候选内容标签集求交集,得到各终端属性所关联的内容标签集。
5.根据权利要求1所述的方法,其特征在于,根据各用户的终端属性以及内容标签,确定各终端属性所关联的内容标签集之后,还包括:
根据目标用户终端中安装的应用程序和/或目标用户端的设备型号,确定目标用户的目标终端属性;
根据所述目标用户的目标终端属性,以及所述各终端属性所关联的内容标签集,确定目标终端属性关联的候选内容标签集;
采用目标用户的标签排序模型对所述目标终端属性关联的候选内容标签集中的候选内容标签进行排序;
其中,所述目标用户的标签排序模型是根据目标用户的历史终端属性和目标用户的历史内容标签训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811509733.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:检测无人机歪斜的方法、装置及系统
- 下一篇:一种数据处理方法和装置