[发明专利]游戏商品的推荐方法、装置及可读存储介质有效
申请号: | 201910406926.3 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110135951B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 杜鑫 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 310052 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 游戏 商品 推荐 方法 装置 可读 存储 介质 | ||
1.一种游戏商品的推荐方法,其特征在于,包括:
获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;
将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;
将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐;
所述将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量,包括:
根据当前状态集中的玩家自身的特征向量调用相应的属性预测矩阵集合;其中,所述属性预测矩阵集合中包括有每一属性的概率矩阵;
针对当前游戏商品的各属性特征向量,利用相应的概率矩阵进行预测处理,获得各属性预测特征向量。
2.根据权利要求1所述的游戏商品的推荐方法,其特征在于,所述将所述玩家的当前状态集输入强化学习算法模型之前,还包括:
判断所述玩家是否触发对游戏商品的推荐请求;
若是,则执行所述将所述玩家的当前状态集输入强化学习算法模型的步骤。
3.根据权利要求2所述的游戏商品的推荐方法,其特征在于,当所述玩家未触发对游戏商品的推荐请求时,所述游戏商品的推荐方法还包括:
获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量;
将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中与玩家相应的属性预测矩阵集合进行更新。
4.根据权利要求3所述的游戏商品的推荐方法,其特征在于,所述将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中与玩家相应的属性预测矩阵集合进行更新,包括:
在预设的奖励函数中确定所述对当前游戏商品的行为作所对应的奖励值;
利用更新公式,对玩家相应的属性预测矩阵集合中每一属性的概率矩阵进行更新,所述更新公式为Qnew(s,α)=(1-lr)·Q(s,α)+lr·[R+γ·maxQ(α,α')];
其中,所述Qnew(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的更新后概率值,Q(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的概率值,maxQ(α,α')表示概率矩阵Q在前一游戏商品的特征向量为α时,当前游戏商品的各属性特征向量的概率值中的概率最大值,所述lr为预设的算法学习率,所述R为所述奖励值,所述γ为预设的折现因子。
5.根据权利要求1所述的游戏商品的推荐方法,其特征在于,所述将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,包括:
将所述各属性预测特征向量作为各约束条件,并利用各约束条件在预设的游戏商品库中获得推荐游戏商品,以进行推荐。
6.根据权利要求5所述的游戏商品的推荐方法,其特征在于,将所述各属性预测特征向量作为约束条件,并利用该约束条件在预设的游戏商品库中获得推荐游戏商品,包括:
将所述各属性预测特征向量作为约束条件,并获取每一预测特征向量的权重;
根据每一约束条件以及相应的权重在预设的游戏商品库中获得推荐游戏商品。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910406926.3/1.html,转载请声明来源钻瓜专利网。