[发明专利]基于Double DQN算法的产品推荐方法及装置有效

申请号：	202110452994.0	申请日：	2021-04-26
公开（公告）号：	CN113129108B	公开（公告）日：	2023-05-30
发明（设计）人：	王光臣;张衡;张盼盼;王宇;潘宇光	申请（专利权）人：	山东大学
主分类号：	G06Q30/0601	分类号：	G06Q30/0601;G06N3/0464;G06N3/08
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250061 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 double dqn 算法产品推荐方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Double DQN算法的产品推荐方法，其特征是，包括：

获取目标用户的基本信息；

对目标用户的基本信息进行处理，提取其特征；

将代表目标用户基本信息的特征，输入到训练后的深度强化学习模型中，得到每个产品的预测满意度，其中，产品的预测满意度是指通过Double DQN算法的最优Q值函数得到的值；

具体地，

在每个时间点t，智能体当前所处的状态特征为χ(s_t)，此时智能体执行操作a_t，从环境中得到奖励r_t并观察到新的状态特征χ(s_t+1)；

智能体学习的目标是选择策略π最大化期望总奖励，定义策略π是在每个时刻t采取的操作a_t的总集合，即，π＝{a_t，a_t+1，a_t+2，…a_T}，其中T是设定的终端时刻；

最大化期望回报即使得未来的累积折扣奖励最多，即使得：

r_t+γr_t+1+γ²r_t+2+…+γ^T-tr_T最大，其中0≤γ≤1为折扣率，

把策略π在状态特征χ(s)下采取操作a的价值记作：

E[r_t+γr_t+1+γ²r_t+2+…+γ^T-tr_T|χ(S_t)＝χ(s)，a_t＝a]，

其表示根据策略π，从状态特征χ(s)开始，执行操作a之后，所有可能的决策序列的期望总奖励；

同时定义最优Q值函数：

Q_*(χ(s)，a)＝max_πQ_π(χ(s)，a)＝max_πE[r_t+γr_t+1+γ²r_t+2+…+γ^T-tr_T|χ(s_t)＝χ(s)，a_t＝a]，

其表示在状态特征χ(s)下执行操作a之后，按照最优策略去决策的期望总奖励；

通过迭代的方式来得到每个状态特征χ(s)下的最优Q值函数Q*(χ(s)，a)的过程：

由Bellman公式得到：

Q_*(χ(s),a)＝E[r_t+γmax_a'Q_*(χ(s'),a')|χ(s_t)＝χ(s),a_t＝a]；

因此，由上式，用函数近似器Q(χ(s),a；θ)来估计Q_*(χ(s),a)，通过随机梯度下降法(SGD)迭代θ即可，

其中θ^-每k步更新一次，也就是在每k步时更新然后在其他步θ^-保持不变；

按照预测满意度由大到小的顺序对产品进行排序，将排序后的产品推荐给目标用户；

其中，深度强化学习模型，是指Double DQN算法；

所述将训练集中用户基本信息进行预处理，具体包括：

将训练集中用户的月平均收入、历史产品购买次数、历史产品购买频率、历史购买产品的风险等级和价格波动数据，均以N个时间单位进行分割，得到分割后的若干个数据s_t，下标t表示时间点，以此来记录该状态表示的数据的时间区间；

将分割后的同一个时间单位下的所有数据，均通过卷积神经网络CNN来进行特征提取，得到月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征；

将月平均收入特征、历史产品购买次数特征、历史产品购买频率特征、历史购买产品的风险等级特征和价格波动数据特征进行串联拼接，得到同一个时间单位对应的状态特征χ(s_t)，同理，得到所有时间单位下的状态特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110452994.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载