[发明专利]基于Double DQN算法的产品推荐方法及装置有效
申请号: | 202110452994.0 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113129108B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王光臣;张衡;张盼盼;王宇;潘宇光 | 申请(专利权)人: | 山东大学 |
主分类号: | G06Q30/0601 | 分类号: | G06Q30/0601;G06N3/0464;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 double dqn 算法 产品 推荐 方法 装置 | ||
1.基于Double DQN算法的产品推荐方法,其特征是,包括:
获取目标用户的基本信息;
对目标用户的基本信息进行处理,提取其特征;
将代表目标用户基本信息的特征,输入到训练后的深度强化学习模型中,得到每个产品的预测满意度,其中,产品的预测满意度是指通过Double DQN算法的最优Q值函数得到的值;
具体地,
在每个时间点t,智能体当前所处的状态特征为χ(st),此时智能体执行操作at,从环境中得到奖励rt并观察到新的状态特征χ(st+1);
智能体学习的目标是选择策略π最大化期望总奖励,定义策略π是在每个时刻t采取的操作at的总集合,即,π={at,at+1,at+2,…aT},其中T是设定的终端时刻;
最大化期望回报即使得未来的累积折扣奖励最多,即使得:
rt+γrt+1+γ2rt+2+…+γT-trT最大,其中0≤γ≤1为折扣率,
把策略π在状态特征χ(s)下采取操作a的价值记作:
E[rt+γrt+1+γ2rt+2+…+γT-trT|χ(St)=χ(s),at=a],
其表示根据策略π,从状态特征χ(s)开始,执行操作a之后,所有可能的决策序列的期望总奖励;
同时定义最优Q值函数:
Q*(χ(s),a)=maxπQπ(χ(s),a)=maxπE[rt+γrt+1+γ2rt+2+…+γT-trT|χ(st)=χ(s),at=a],
其表示在状态特征χ(s)下执行操作a之后,按照最优策略去决策的期望总奖励;
通过迭代的方式来得到每个状态特征χ(s)下的最优Q值函数Q*(χ(s),a)的过程:
由Bellman公式得到:
Q*(χ(s),a)=E[rt+γmaxa'Q*(χ(s'),a')|χ(st)=χ(s),at=a];
因此,由上式,用函数近似器Q(χ(s),a;θ)来估计Q*(χ(s),a),通过随机梯度下降法(SGD)迭代θ即可,
其中θ-每k步更新一次,也就是在每k步时更新然后在其他步θ-保持不变;
按照预测满意度由大到小的顺序对产品进行排序,将排序后的产品推荐给目标用户;
其中,深度强化学习模型,是指Double DQN算法;
所述将训练集中用户基本信息进行预处理,具体包括:
将训练集中用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和价格波动数据,均以N个时间单位进行分割,得到分割后的若干个数据st,下标t表示时间点,以此来记录该状态表示的数据的时间区间;
将分割后的同一个时间单位下的所有数据,均通过卷积神经网络CNN来进行特征提取,得到月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征;
将月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征进行串联拼接,得到同一个时间单位对应的状态特征χ(st),同理,得到所有时间单位下的状态特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110452994.0/1.html,转载请声明来源钻瓜专利网。