[发明专利]一种基于强化学习的个性化搜索方法有效

专利信息
申请号: 202010069230.9 申请日: 2020-01-21
公开(公告)号: CN111241407B 公开(公告)日: 2023-07-28
发明(设计)人: 窦志成;姚菁;文继荣 申请(专利权)人: 中国人民大学
主分类号: G06F16/9535 分类号: G06F16/9535
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 冀志华
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 个性化 搜索 方法
【权利要求书】:

1.一种基于强化学习的个性化搜索方法,其特征在于包括以下步骤:

1)建立基于强化学习的个性化搜索模型;

2)基于所有用户的历史查询数据,采用强化学习中的策略梯度算法对建立的个性化搜索模型进行训练,得到最优个性化搜索模型;

3)采用最优个性化搜索模型对线上用户的查询过程进行动态跟踪,根据各用户新的查询日志对最优个性化搜索模型进行持续更新,使得更新后的最优个性化搜索模型能够生成符合相应用户兴趣的个性化搜索结果;

所述步骤1)中,建立所述基于强化学习的个性化搜索模型的方法,包括以下步骤:

1.1)用符号将个性化搜索问题描述为一个强化学习的交互过程;

1.2)采用马尔科夫决策过程为描述的交互过程进行建模,得到的分层MDP即为个性化搜索模型,其中,分层MDP包括上层MDP和下层MDP,且上层MDP以查询和文档列表为单位与用户进行交互,下层MDP以文档对为单位训练模型;

1.3)根据建立的个性化搜索模型,确定该个性化搜索模型所对应的五元组以及个性化排序模型。

2.如权利要求1所述的一种基于强化学习的个性化搜索方法,其特征在于:所述步骤1.1)中,用符号将个性化搜索问题描述为一个强化学习的交互过程的方法,包括以下步骤:

1.1.1)确定当前时刻T的交互中,个性化搜索引擎面对的当前环境{qT,DT,HT},其中,qT为用户u在智能体中输入的新查询;DT为非个性化的搜索引擎根据该新查询返回的候选文档列表;HT为该用户u之前的搜索历史;

1.1.2)根据当前时刻的环境{qT,DT,HT},个性化搜索引擎利用当前的个性化排序模型MT基于用户的搜索历史HT和输入的查询qT对候选文档列表DT排序,生成个性化的排序列表D′T返回给用户u;

1.1.3)将用户u根据该个性化的排序列表D′T进行的点击情况作为反馈rT,返回给个性化搜索引擎;

1.1.4)个性化搜索引擎基于反馈rT将当前的个性化排序模型MT更新为MT+1,当用户输入新的查询qT+1时,当前环境{qT,DT,HT}更新为{qT+1,DT+1,HT+1},其中,HT+1为下一时刻T+1的交互时的搜索历史,且HT+1=HT+{qT+D′T};qT+1为下一时刻T+1用户u输入的查询;DT+1为下一时刻T+1的候选文档列表;

1.1.5)重复步骤1.1.2)~1.1.4),基于用户的动态反馈持续地对个性化排序模型进行更新直到收敛至最优。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010069230.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top