[发明专利]具有多门专家混合软演员评论家的视频推荐在审
| 申请号: | 202080005171.7 | 申请日: | 2020-07-15 |
| 公开(公告)号: | CN114190102A | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 李定成;李旭;王君;李平 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司;百度(美国)有限责任公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F16/70;G06F16/957 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
| 地址: | 100080 北京市海淀区东*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 具有 专家 混合 演员 评论家 视频 推荐 | ||
1.一种用于多目标排序的计算机实施的方法,包括:
在包括多个专家和门控网络的多门专家混合(MMoE)层处,接收与一个或多个状态和一个或多个动作相对应的隐藏嵌入;
由使用软演员评论家(SAC)的多个专家中的每个,基于所述隐藏嵌入生成预测,每个预测均包括分别对应于一个或多个动作的一个或多个预测参数;
根据由所述门控网络为每个专家生成的权重,获取所述多个专家预测的加权和;以及
基于所述加权和,从所述MMoE层生成MMoE布局输出。
2.如权利要求1所述的计算机实施的方法,其中,所述隐藏嵌入通过以下步骤生成:
将所述一个或多个状态和所述一个或多个动作的多个特征划分成分类特征和数字特征;以及
限定通用动态特征嵌入词典,以将所述多个特征映射或投影到用于所述隐藏嵌入的统一嵌入空间中。
3.如权利要求2所述的计算机实施的方法,其中,限定通用动态特征嵌入词典以将所述多个特征映射或投影到统一嵌入空间中包括:
对于针对分类特征的每个嵌入查找,使用单热或多热矢量;以及
使用变换权重矩阵,将所述分类特征从稀疏特征变换为密集特征。
4.如权利要求1所述的计算机实施的方法,其中,每个专家均为经训练的深度神经网络(DNN),其使用对应于一个或多个状态的嵌入作为所述每个专家的输入,并且使用对应于一个或多个动作的嵌入作为用于训练的标记。
5.如权利要求4所述的计算机实施的方法,其中,在训练过程期间,所述一个或多个动作中的每个的损失计算彼此独立。
6.如权利要求4所述的计算机实施的方法,其中,所述训练过程包括以下步骤:
将每个动作视作为任务;
向用于每个动作的策略函数中添加熵正则化项;
导出软策略迭代,以交替地重复软策略评估和软策略改进;
通过使软Bellman残差最小化来学习软函数参数;以及
通过使所述策略函数与通过将所述软Q-函数的指数与分配函数相除而获得的商之间的KL散度最小化来学习策略参数。
7.如权利要求6所述的计算机实施的方法,其中,在所述软策略迭代期间,对每个策略改进步骤采用多个Q-函数之中具有最小Q值的Q-函数。
8.一种用于多目标排序的系统,包括:
一个或多个处理器;以及
非暂时性计算机可读介质或媒质,包括一组或多组指令,所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤,所述步骤包括:
将来自一个或多个数据源的特征转换为隐藏嵌入;
在包括多个专家和门控网络的多门专家混合(MMoE)层处接收所述隐藏嵌入;
由使用软演员评论家(SAC)的多个专家中的每个,基于所述输入生成预测,每个预测均包括分别对应于一个或多个动作的一个或多个预测参数;
根据由所述门控网络为每个专家生成的权重,获取所述多个专家预测的加权和;以及
基于所述加权和,从所述MMoE层生成MMoE布局输出。
9.如权利要求8所述的系统,其中,将来自一个或多个数据源的特征转换为隐藏嵌入包括以下步骤:
将所述特征划分成分类特征和数字特征;以及
限定通用动态特征嵌入词典,以将所述特征映射或投影到用于所述隐藏嵌入的统一嵌入空间中。
10.如权利要求9所述的系统,其中,限定通用动态特征嵌入词典以将输入特征映射或投影到统一嵌入空间中包括以下步骤:
对于针对分类特征的每个嵌入查找,使用单热或多热矢量;以及
使用变换权重矩阵,将所述分类特征从稀疏特征变换为密集特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司;百度(美国)有限责任公司,未经百度时代网络技术(北京)有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080005171.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车身装配结构
- 下一篇:监管饮食行为的方法和装置





