[发明专利]具有多门专家混合软演员评论家的视频推荐在审
| 申请号: | 202080005171.7 | 申请日: | 2020-07-15 |
| 公开(公告)号: | CN114190102A | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 李定成;李旭;王君;李平 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司;百度(美国)有限责任公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F16/70;G06F16/957 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
| 地址: | 100080 北京市海淀区东*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 具有 专家 混合 演员 评论家 视频 推荐 | ||
本文中描述了基于强化学习的大规模多目标排序系统的实施方式。本系统的实施方式可用于优化视频共享平台上的短视频推荐。用户反馈中的多重竞争排序目标和隐式选择偏差是现实世界平台中的主要挑战。为了解决这些挑战,将多门专家混合(MMoE)和软演员评论家(SAC)一起集成为MMoE_SAC系统。实验结果表明,与仅基于单个策略的系统相比,MMoE_SAC系统的实施方式可大大降低损失函数。
技术领域
本公开总体上涉及用于计算机学习的系统和方法,其可以提供改进的计算机性能、特征和使用。更具体地,本公开涉及用于视频推荐的计算机学习的系统和方法。
背景技术
深度神经网络在诸如计算机视觉、自然语言处理,推荐系统等领域取得了巨大的成功。
随着短视频应用的兴起,已构建各种短视频推荐系统以增加用户的参与。通常,常规推荐系统涉及具有候选项生成和排序的两阶段设计。在这两个阶段中,良好的排序策略与用户行为直接相关,因此在保持用户观看视频方面起到了必要的作用。排序策略首先试图吸引用户点击短视频,然后在完成观看之后,其次吸引用户点击推荐给他们的视频。在该阶段中,推荐器具有经由候选项生成检索的多个候选项,并且将大容量模型应用到排序。最后,它推荐用户选择最上面的一个或几个视频。在推荐系统中存在两个主要挑战。首先,待优化的目标通常是不同的,甚至可能是冲突的,因为用户的偏好不同。其次,系统往往具有隐含的选择偏差。例如,用户可能已经点击并观看了视频,这仅仅是因为它排序在前而不是他真正喜欢它。如何有效和高效地解决这些问题是成功的推荐系统的关键。
因此,所需要的是用于视频推荐的计算机学习的系统和方法。
发明内容
本公开的实施方式提供了一种用于多目标排序的计算机实施的方法、一种用于多目标排序的系统以及一种非暂时性计算机可读介质或媒质。
根据第一方面,本公开的一些实施方式提供了一种用于多目标排序的计算机实施的方法,该方法包括:在包括多个专家和门控网络的多门专家混合(MMoE)层处,接收与一个或多个状态和一个或多个动作相对应的隐藏嵌入;由使用软演员评论家(SAC)的多个专家中的每个,基于隐藏嵌入生成预测,每个预测均包括分别对应于一个或多个动作的一个或多个预测参数;根据由门控网络为每个专家生成的权重,获取多个专家预测的加权和;以及基于加权和,从MMoE层生成MMoE布局输出。
根据第二方面,本公开的一些实施方式提供了一种用于多目标排序的系统,该系统包括:一个或多个处理器;以及非暂时性计算机可读介质或媒质,其包括一组或多组指令,所述一组或多组指令在由一个或多个处理器中的至少一个执行时使得执行以下步骤,所述步骤包括:将来自一个或多个数据源的特征转换为隐藏嵌入;在包括多个专家和门控网络的多门专家混合(MMoE)层处接收隐藏嵌入;由使用软演员评论家(SAC)的多个专家中的每个,基于输入生成预测,每个预测均包括分别对应于一个或多个动作的一个或多个预测参数;根据由门控网络为每个专家生成的权重,获取多个专家预测的加权和;以及基于加权和,从MMoE层生成MMoE布局输出。
根据第三方面,本公开的一些实施方式提供了一种包括一个或多个指令序列的非暂时性计算机可读介质或媒质,所述指令序列在由至少一个处理器执行时引起用于多目标排序的步骤,所述步骤包括:将来自一个或多个数据源的特征转换为隐藏嵌入;在包括多个专家和门控网络的多门专家混合(MMoE)层处接收隐藏嵌入;由使用软演员评论家(SAC)的多个专家中的每个,基于输入生成预测,每个预测均包括分别对应于一个或多个动作的一个或多个预测参数;根据由门控网络为每个专家生成的权重,获取多个专家预测的加权和;以及基于加权和,从MMoE层生成MMoE布局输出。
附图说明
将参考本公开的实施方式,其示例可在附图中示出。这些附图是说明性的,而非限制性的。尽管在这些实施方式的上下文中一般性地描述了本公开,但是应当理解,其并不旨在将本公开的范围限制于这些特定实施方式。图中的项目可能不是按比例绘制的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司;百度(美国)有限责任公司,未经百度时代网络技术(北京)有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080005171.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车身装配结构
- 下一篇:监管饮食行为的方法和装置





