[发明专利]一种基于强化学习的个性化搜索方法有效
申请号: | 202010069230.9 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111241407B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 窦志成;姚菁;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 冀志华 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 个性化 搜索 方法 | ||
1.一种基于强化学习的个性化搜索方法,其特征在于包括以下步骤:
1)建立基于强化学习的个性化搜索模型;
2)基于所有用户的历史查询数据,采用强化学习中的策略梯度算法对建立的个性化搜索模型进行训练,得到最优个性化搜索模型;
3)采用最优个性化搜索模型对线上用户的查询过程进行动态跟踪,根据各用户新的查询日志对最优个性化搜索模型进行持续更新,使得更新后的最优个性化搜索模型能够生成符合相应用户兴趣的个性化搜索结果;
所述步骤1)中,建立所述基于强化学习的个性化搜索模型的方法,包括以下步骤:
1.1)用符号将个性化搜索问题描述为一个强化学习的交互过程;
1.2)采用马尔科夫决策过程为描述的交互过程进行建模,得到的分层MDP即为个性化搜索模型,其中,分层MDP包括上层MDP和下层MDP,且上层MDP以查询和文档列表为单位与用户进行交互,下层MDP以文档对为单位训练模型;
1.3)根据建立的个性化搜索模型,确定该个性化搜索模型所对应的五元组以及个性化排序模型。
2.如权利要求1所述的一种基于强化学习的个性化搜索方法,其特征在于:所述步骤1.1)中,用符号将个性化搜索问题描述为一个强化学习的交互过程的方法,包括以下步骤:
1.1.1)确定当前时刻T的交互中,个性化搜索引擎面对的当前环境{qT,DT,HT},其中,qT为用户u在智能体中输入的新查询;DT为非个性化的搜索引擎根据该新查询返回的候选文档列表;HT为该用户u之前的搜索历史;
1.1.2)根据当前时刻的环境{qT,DT,HT},个性化搜索引擎利用当前的个性化排序模型MT基于用户的搜索历史HT和输入的查询qT对候选文档列表DT排序,生成个性化的排序列表D′T返回给用户u;
1.1.3)将用户u根据该个性化的排序列表D′T进行的点击情况作为反馈rT,返回给个性化搜索引擎;
1.1.4)个性化搜索引擎基于反馈rT将当前的个性化排序模型MT更新为MT+1,当用户输入新的查询qT+1时,当前环境{qT,DT,HT}更新为{qT+1,DT+1,HT+1},其中,HT+1为下一时刻T+1的交互时的搜索历史,且HT+1=HT+{qT+D′T};qT+1为下一时刻T+1用户u输入的查询;DT+1为下一时刻T+1的候选文档列表;
1.1.5)重复步骤1.1.2)~1.1.4),基于用户的动态反馈持续地对个性化排序模型进行更新直到收敛至最优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010069230.9/1.html,转载请声明来源钻瓜专利网。