[发明专利]用户兴趣的挖掘方法及系统有效
申请号: | 202010063555.6 | 申请日: | 2020-01-20 |
公开(公告)号: | CN113139085B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 牛心怡;吴安新;王瑜 | 申请(专利权)人: | 上海哔哩哔哩科技有限公司 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/78;G06F16/783;G06F40/284 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 邓小玲;邓应山 |
地址: | 200433 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 兴趣 挖掘 方法 系统 | ||
本发明公开了一种用户兴趣的挖掘方法及系统,该方法包括:获取用户在预设时间内输入的多种视频操作和每种视频操作对应的视频信息;根据所述视频信息确定所述视频信息所属的兴趣类别;统计每个用户在每种兴趣类别中执行每种视频操作的次数和每种视频操作的总执行次数;根据每种视频操作的总执行次数,计算每个用户在每种兴趣类别的分值;根据所述分值确定与所述分值对应的用户对应的兴趣类别。本发明能够充分利用用户的视频数据,有效的挖掘用户的客观兴趣偏好,进而提高兴趣类别的召回率和人群区分度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种用户兴趣的挖掘方法及系统。
背景技术
随着科学技术的迅猛发展,互联网已经成为人们生活中不可或缺的重要组成部分。通过互联网收集用户操作视频的行为,可对具有类似视频操作行为的用户进行对应互联网产品的投放。现有技术中,根据用户兴趣类别对用户进行互联网产品的投放是各大互联网投放平台使用率最高的投放依据。因此,挖掘用户的兴趣类别,丰富用户画像,对于提高客户投放效率具有重要意义。
现有的用户兴趣挖掘方案大多基于用户的广告行为数据来挖掘用户的兴趣类别,但是存在以下缺陷:
1)、广告数据投放不均匀,导致用户的广告行为不均匀,不具有客观性;
2)、对于没有投放记录的兴趣类别的广告,无法召回相应的用户;
3)、对于有投放记录的兴趣类别的广告,大多数的兴趣类别存在严重过度召回的问题,使得标签人群没有区分度。
发明内容
本发明的目的在于提供一种用户兴趣的挖掘方法、系统、计算机设备及可读存储介质,用于解决现有技术中由于兴趣类别标签少,兴趣类别标签无法召回,标签人群区分度低的缺陷。
根据本发明的一个方面,提供了一种用户兴趣的挖掘方法,该方法包括如下步骤:
获取用户在预设时间内输入的多种视频操作和每种视频操作对应的视频信息;
根据所述视频信息确定所述视频信息所属的兴趣类别;
统计每个用户在每种兴趣类别中执行每种视频操作的次数和每种视频操作的总执行次数;
根据每个用户在每种兴趣类别中执行每种视频操作的次数和每种视频操作的总执行次数,计算每个用户在每种兴趣类别的分值;
根据所述分值确定与所述分值对应的用户对应的兴趣类别。
可选的,所述根据所述视频信息确定所述视频信息所属的兴趣类别,包括:
将所述视频信息进行处理,以从所述视频信息中提取出核心词;
将所述核心词与预设的多个兴趣类别中的预设核心词进行相似度计算,以根据计算结果确定所述视频信息所属的兴趣类别。
可选的,所述将所述视频信息进行处理,以从所述视频信息中提取出核心词,包括:
将所述视频信息进行分词处理以得到分词结果;
将所述分词结果进行词义识别,以筛选出具有词义的关键词;
将所述关键词与预设词库中的词语进行匹配;
当匹配成功时,则确定所述关键词为所述核心词。
可选的,所述将所述核心词与预设的多个兴趣类别中的预设核心词进行相似度计算,以根据计算结果确定所述视频信息所属的兴趣类别,包括:
将所述核心词与所述预设核心词分别进行词向量处理,以得到与所述核心词对应的第一词向量和与所述预设核心词对应的第二词向量;
利用余弦相似度算法计算所述第一词向量和所述第二词向量的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海哔哩哔哩科技有限公司,未经上海哔哩哔哩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010063555.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:海绵红球菌来源的抗病原菌活性化合物的制备及用途
- 下一篇:套管系统