[发明专利]标签生成方法、装置、电子设备及计算机可读存储介质在审
| 申请号: | 202011058978.5 | 申请日: | 2020-09-30 | 
| 公开(公告)号: | CN112214556A | 公开(公告)日: | 2021-01-12 | 
| 发明(设计)人: | 罗洋;晏存;贾诺;陈海涛 | 申请(专利权)人: | 招商局金融科技有限公司 | 
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06F16/2455;G06F16/951 | 
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 | 
| 地址: | 518000 广东省深圳市福田区华富街*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 标签 生成 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明涉及大数据技术,揭露了一种标签生成方法,包括:获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;根据所述共用指标集和所述特殊指标集生成用户初始标签表;利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。本发明还提出了标签生成装置、设备及计算机可读存储介质。本发明可以提高标签生成的效率。
技术领域
本发明涉及大数据技术领域,尤其涉及一种标签生成方法、装置、电子设备及计算机可读存储介质。
背景技术
个性化服务是指针对不同用户提供不同的服务。通常,根据用户画像可以制定出适合用户的服务,而标签是用户画像的基础,通过一个个的标签可以得到用户画像,从而得到用户的个性特征,为用户提供个性化服务。
目前的标签开发方式是直接通过脚本生成标签,并将标签保存在HIVE表中。但这种方式在进行标签更新或维护时,必须通过修改脚本后重新发版来实现,效率较低;同时这种方式对于标签生成的数据取数口径不统一,使得代码冗长繁杂,不利于重复利用,浪费计算机资源。
发明内容
本发明提供一种标签生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高标签生成的效率。
为实现上述目的,本发明提供的一种标签生成方法,包括:
获取原始用户数据集,并对所述原始用户数据集进行数据清洗,得到标准数据集;
根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集;
根据所述共用指标集和所述特殊指标集生成用户初始标签表;
利用预设的标签合成规则,将所述用户初始标签表进行标签合并,得到用户的结果标签。
可选地,所述对所述原始用户数据集进行数据清洗,得到标准数据集,包括:
对所述原始用户数据集进行过滤,删除所述原始用户数据集中的无效数据和异常数据,得到有效用户数据集;
对所述有效用户数据集进行查重,并删除重复数据,得到标准数据集。
可选地,所述根据预设的基础标签库,将所述标准数据集划分为共用指标集和特殊指标集,包括:
根据预设的配置文件将所述标准数据集中的字段与所述基础标签库中各标签领域进行匹配;
若所述字段与两个及两个以上的标签领域匹配成功,则将所述字段划分到共用指标集;
若所述字段只与一个标签领域匹配成功,则将所述字段划分到该标签领域下的特殊指标集。
可选地,所述根据所述共用指标集和所述特殊指标集生成用户初始标签表,包括:
通过遍历操作依次从所述特殊指标集中选择其中一个特殊指标;
确定所述特殊指标的标签领域;
从所述配置文件中获取与所述标签领域对应的标签生成规则;
以所述共用指标集和选择的所述特殊指标为参数执行所述标签生成规则,得到对应的基础标签;
保存得到的基础标签,生成用户初始标签表。
可选地,所述将所述用户初始标签表进行标签合并,得到用户的结果标签之前,该方法还包括:
将所述用户初始标签表中的基础标签作为节点,构建有向有权图;
根据权重计算公式计算所述有向有权图中每一个节点的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商局金融科技有限公司,未经招商局金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011058978.5/2.html,转载请声明来源钻瓜专利网。





