[发明专利]用于模拟复杂的强化学习环境的系统和方法在审
| 申请号: | 201910354811.4 | 申请日: | 2019-04-29 |
| 公开(公告)号: | CN110175678A | 公开(公告)日: | 2019-08-27 |
| 发明(设计)人: | T.W.E.莱;S.S.纳韦卡;C.E.保蒂利尔 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 输出 计算系统 模拟实体 强化学习 实体模型 响应 代理模型 资源分配 简档 分配 实体分配 资源简档 偏好 配置 更新 | ||
1.一种用于模拟向多个实体分配资源的计算系统,所述计算系统包括:
一个或多个处理器;
强化学习代理模型,被配置为接收描述模拟实体的偏好或要求中的至少一个的实体简档,并且响应于接收到所述实体简档,输出描述对所述多个实体的所述模拟实体的资源分配的分配输出;
实体模型,被配置为接收描述至少一个资源的数据,并且响应于接收描述所述至少一个资源的数据,模拟描述所述模拟实体对描述所述至少一个资源的数据的响应的模拟响应输出;
一个或多个共同存储指令的非暂时性计算机可读介质,当由一个或多个处理器运行时,所述指令使所述计算系统执行操作,所述操作包括:
将所述实体简档输入到所述强化学习代理模型;
接收作为所述强化学习代理模型的输出的分配输出,所述分配输出描述了对所述模拟实体的资源分配;
基于由所述分配输出描述的资源分配,选择要提供给所述实体模型的所述至少一个资源;
向所述实体模型提供所述至少一个资源;
接收作为所述实体模型的输出的模拟响应输出,所述模拟响应输出描述所述模拟实体对所述至少一个资源的响应;以及
基于所述模拟响应输出,更新描述所述至少一个资源的资源简档或实体简档中的至少一个。
2.如权利要求1所述的计算系统,其中,所述强化学习代理模型包括强化学习代理,所述强化学习代理基于作为所述模拟响应输出的函数的奖励而被学习。
3.如权利要求1所述的计算系统,其中:
所述模拟实体包括计算任务或计算任务的源中的至少一个;以及
所述至少一个资源包括被配置为运行所述计算任务的工作者。
4.如权利要求1所述的计算系统,其中:
所述模拟实体包括工业过程;以及
所述至少一个资源包括对所述工业过程的输入。
5.如权利要求1所述的计算系统,其中,所述模拟实体包括模拟的人类用户,并且所述实体简档包括描述所模拟的人类用户的兴趣或偏好中的至少一个的用户简档。
6.如权利要求5所述的计算系统,其中,所述模拟响应输出描述了参与度量,所述参与度量描述所模拟的人类用户对所述至少一个资源的交互时间或评级中的至少一个。
7.如权利要求1所述的计算系统,其中,基于所述模拟响应输出来更新所述资源简档或所述实体简档中的至少一个包括提供描述所述模拟响应输出的数据给生成更新的一组用户隐藏状态特征的用户转变模型,并基于所述用户隐藏状态特征更新所述实体配置文件。
8.如权利要求1所述的计算系统,其中,所述至少一个资源包括至少一个文档,所述文档包括文本、音频或图形内容中的至少一个。
9.如权利要求1所述的计算系统,还包括:资源模型,被配置为接收描述包括所述至少一个资源的多个资源的数据,并且响应于接收描述所述多个资源的数据,输出资源可观察特征,并且其中,所述训练强化学习代理模型至少部分地基于所述资源可观察特征来选择分配输出,并且其中所述操作还包括:
将描述所述多个资源的数据输入到所述资源模型中;
接收作为所述资源模型的输出的资源可观察特征;以及
将所述资源可观察特征输入到所述强化学习代理模型中。
10.如权利要求1所述的计算系统,其中:
所述至少一个资源包括多个资源项;以及
所述模拟响应输出描述了少于所有所述多个资源项的选择。
11.如权利要求10所述的计算系统,其中,所述实体模型包括离散选择模型。
12.如权利要求11所述的计算系统,其中,所述离散选择模型包括多项比例函数、多项logit函数或指数级联函数中的至少一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354811.4/1.html,转载请声明来源钻瓜专利网。





