[发明专利]标签联合概率分析方法及系统有效
申请号: | 202110454629.3 | 申请日: | 2021-04-26 |
公开(公告)号: | CN112990985B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 吴新宇;孙静 | 申请(专利权)人: | 北京楚梵基业科技有限公司 |
主分类号: | G06Q30/0201 | 分类号: | G06Q30/0201;G06F16/2457;G06N3/0464 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 牛晴 |
地址: | 101149 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 联合 概率 分析 方法 系统 | ||
本发明涉及一种标签联合概率分析方法及系统,包括通过多种渠道获取标签数据,根据每个渠道对应的渠道权重计算标签数据的概率分布,生成标签概率统计表;对所有标签数据进行分组组合,根据标签组合对标签概率统计表进行拆分得到多个标签概率子表,计算所有标签概率子表的联合概率;综合所有标签概率子表的联合概率计算获取标签概率矩阵。本发明通过通过对标签的概率表达,能够处理解决现有0‑1标签区分度不足的问题,估算完整联合概率,充分利用所有已知条件,提高算法标签的精度。
技术领域
本发明属于数据分析技术领域,具体涉及一种标签联合概率分析方法及系统。
背景技术
大数据时代,通过多渠道收集用户/产品信息建立标签系统有越来越广泛的应用,比如精准投放,精细化运营等。标签主要分为以下三类:
事实标签(统计标签):最为基础也最为常见的标签类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。
聚合标签(规则标签):该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定。
算法标签:该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。
标签采集后,会存储在适合业务场景的数据库中。数据库进一步支持编辑,迭代,用户画像产品化的视图查询,多维分析,聚类功能,从而指导经营分析,精准营销,和个性化推荐与服务。
相关技术中,目前主流标签系统主要存在以下问题:
对用户标签属性区分度不足:多数标签采用确定状态判别,比如用0-1表示是或非。比如用户A是某产品的忠实用户,用户B只是偶然咨询过该产品,如果给他们打同样的产品标签显然没有足够的区分度。即使是同样是B用户,他的购买意愿也会呈现周期性的变化,简单的0-1划分显然不够精确。
人工编写标签规则的天然缺陷:除了聚合标签采集完全依赖人工制规则外,我们时常需要对各种未知标签进行推理和预测。传统上这也是通过人工编写规则实现的。比如高收入人群更可能买奢侈品,买化妆品的人可能对珠宝感兴趣。这些条件关系通常是合理有效的,但是在数据爆炸的时代,这种人工方法存在一些难以克服的缺陷。
人工编写的规则缺乏量化手段。比如高收入人群有更大可能性购买豪华轿车,追求性价比的人又可能对豪华轿车没有那么强的倾向性。那么一个收入很高,又讲究性价比的人有多大可能性会买奔驰呢?人工编写的假设关系很难去量化人的购买意愿。
人工规则过于简单。人工定制的标签相关性规则通常没有太高的复杂度。很难想象可以人工构建一条含有超过10种以上标签的有效规则。然而现实是我们往往能通过各种途径积累大量关于客户方方面面的标签,却不能充分利用这些数据的潜力。整体行业急需有效手段去统筹考虑各种标签来更精准地把握用户。
人工规则不易处理残缺不齐的标签数据。我们的数据是海量的,但往往是不规则的,用户A我们可能知道一些性别年龄职业之类的个人属性信息,用户B可能是一些停车场记录,用户C可能是最近购买的书籍。人工手段几乎无法把这些信息有效统一起来得出对数据的综合理解。
人工规则缺乏有效的反馈机制。通常我们会根据这些规则对标签数据做出一些预测来指导实践。等我们观察到实践效果后当然希望可以反过来调整我们的规则。但是人工规则相对难以制定有效反馈机制来做出相应调整,尤其当标签组合比较复杂以后。
除此之外,现有技术中的标签算法实施不够充分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京楚梵基业科技有限公司,未经北京楚梵基业科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110454629.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蒸饭机用开水器
- 下一篇:一种基于预训练模型和位置信息的文本结构化方法