[发明专利]一种基于强化学习的个性化搜索方法有效

申请号：	202010069230.9	申请日：	2020-01-21
公开（公告）号：	CN111241407B	公开（公告）日：	2023-07-28
发明（设计）人：	窦志成;姚菁;文继荣	申请（专利权）人：	中国人民大学
主分类号：	G06F16/9535	分类号：	G06F16/9535
代理公司：	北京纪凯知识产权代理有限公司 11245	代理人：	冀志华
地址：	100872 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习个性化搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的个性化搜索方法，其特征在于包括以下步骤：

1)建立基于强化学习的个性化搜索模型；

2)基于所有用户的历史查询数据，采用强化学习中的策略梯度算法对建立的个性化搜索模型进行训练，得到最优个性化搜索模型；

3)采用最优个性化搜索模型对线上用户的查询过程进行动态跟踪，根据各用户新的查询日志对最优个性化搜索模型进行持续更新，使得更新后的最优个性化搜索模型能够生成符合相应用户兴趣的个性化搜索结果；

所述步骤1)中，建立所述基于强化学习的个性化搜索模型的方法，包括以下步骤：

1.1)用符号将个性化搜索问题描述为一个强化学习的交互过程；

1.2)采用马尔科夫决策过程为描述的交互过程进行建模，得到的分层MDP即为个性化搜索模型，其中，分层MDP包括上层MDP和下层MDP，且上层MDP以查询和文档列表为单位与用户进行交互，下层MDP以文档对为单位训练模型；

1.3)根据建立的个性化搜索模型，确定该个性化搜索模型所对应的五元组以及个性化排序模型。

2.如权利要求1所述的一种基于强化学习的个性化搜索方法，其特征在于：所述步骤1.1)中，用符号将个性化搜索问题描述为一个强化学习的交互过程的方法，包括以下步骤：

1.1.1)确定当前时刻T的交互中，个性化搜索引擎面对的当前环境{q_T，D_T，H_T}，其中，q_T为用户u在智能体中输入的新查询；D_T为非个性化的搜索引擎根据该新查询返回的候选文档列表；H_T为该用户u之前的搜索历史；

1.1.2)根据当前时刻的环境{q_T，D_T，H_T}，个性化搜索引擎利用当前的个性化排序模型M_T基于用户的搜索历史H_T和输入的查询q_T对候选文档列表D_T排序，生成个性化的排序列表D′_T返回给用户u；

1.1.3)将用户u根据该个性化的排序列表D′_T进行的点击情况作为反馈r_T，返回给个性化搜索引擎；

1.1.4)个性化搜索引擎基于反馈r_T将当前的个性化排序模型M_T更新为M_T+1，当用户输入新的查询q_T+1时，当前环境{q_T，D_T，H_T}更新为{q_T+1，D_T+1，H_T+1}，其中，H_T+1为下一时刻T+1的交互时的搜索历史，且H_T+1＝H_T+{q_T+D′_T}；q_T+1为下一时刻T+1用户u输入的查询；D_T+1为下一时刻T+1的候选文档列表；

1.1.5)重复步骤1.1.2)～1.1.4)，基于用户的动态反馈持续地对个性化排序模型进行更新直到收敛至最优。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010069230.9/1.html，转载请声明来源钻瓜专利网。

上一篇：松解保护剂及其制备高存活率单细胞悬液的方法及其应用
下一篇：一种修正角度对数曲折波导慢波装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的个性化搜索方法有效

专利文献下载