[发明专利]用户分类方法、装置、电子设备及存储介质在审
申请号: | 202110949830.9 | 申请日: | 2021-08-18 |
公开(公告)号: | CN113656584A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 黄莉莉 | 申请(专利权)人: | 维沃移动通信有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/02 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 乔珊珊 |
地址: | 523863 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 分类 方法 装置 电子设备 存储 介质 | ||
本申请公开一种用户分类方法、装置、电子设备及存储介质,该方法包括:根据用户文本数据,获取每个词类的词类特征,其中,所述词类是基于所述用户文本数据中的关键词聚类得到的;根据生成的词类特征,以及每个用户与词类之间的关系,生成每个用户的词类特征向量,其中,所述词类特征向量为N维的向量,N为词类的总数;根据每个用户的词类特征向量,获取每个用户关于预设各主题的概率分布;对于每个用户,根据预设的词类与预设各业务场景的映射关系、词类在预设各主题下的概率分布,以及所述用户关于预设各主题的概率分布,生成所述用户关于预设各业务场景的概率分布。
技术领域
本申请属于计算机技术领域,具体涉及一种用户分类方法、装置、电子设备及存储介质。
背景技术
随着互联网用户人数的逐步增加,精细化运营已成为主流的运营方式,如何对用户进行精细的分类,并配以细分的运营策略,将合适的产品精准推送给用户,已成为每一位产品或运营人员亟待解决的问题。
现有技术中,主要使用已有的画像标签或单个关键词作为输入,使用k-means方法对用户进行分类。
然而,由于有些场景下的词汇种类丰富,有些则偏少,或者同义词/近似词/新词较多,因此将关键词作为直接输入,最终的输出会有较大不稳定性或潜在倾向。例如,将热度场景下的关键词或者流行的关键词作为输入,最终的输出会倾向这类关键词表现出的信息,输出有不客观的嫌疑,导致分类结果不准确。
发明内容
本申请实施例的目的是提供一种用户分类方法、装置、电子设备及存储介质,能够解决现有技术中存在的分类结果不准确的问题。
第一方面,本申请实施例提供了一种用户分类方法,所述方法包括:
根据用户文本数据,获取每个词类的词类特征,其中,所述词类是基于所述用户文本数据中的关键词聚类得到的;
根据生成的词类特征,以及每个用户与词类之间的关系,生成每个用户的词类特征向量,其中,所述词类特征向量为N维的向量,N为词类的总数;
根据每个用户的词类特征向量,获取每个用户关于预设各主题的概率分布;
对于每个用户,根据预设的词类与预设各业务场景的映射关系、词类在预设各主题下的概率分布,以及所述用户关于预设各主题的概率分布,生成所述用户关于预设各业务场景的概率分布。
第二方面,本申请实施例提供了一种用户分类装置,所述装置包括:
第一获取模块,用于根据用户文本数据,获取每个词类的词类特征,其中,所述词类是基于所述用户文本数据中的关键词聚类得到的;
第一生成模块,用于根据生成的词类特征,以及每个用户与词类之间的关系,生成每个用户的词类特征向量,其中,所述词类特征向量为N维的向量,N为词类的总数;
第二获取模块,用于根据每个用户的词类特征向量,获取每个用户关于预设各主题的概率分布;
第二生成模块,用于对于每个用户,根据预设的词类与预设各业务场景的映射关系、词类在预设各主题下的概率分布,以及所述用户关于预设各主题的概率分布,生成所述用户关于预设各业务场景的概率分布。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司,未经维沃移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110949830.9/2.html,转载请声明来源钻瓜专利网。