[发明专利]数据处理设备、数据处理方法以及程序无效
申请号: | 201110294226.3 | 申请日: | 2011-09-27 |
公开(公告)号: | CN102567616A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 莲尾高志;佐部浩太郎;河本献太;吉池由纪子 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;陈炜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 设备 方法 以及 程序 | ||
1.一种数据处理设备,包括:
状态值计算单元,其基于每个行动的状态转移模型,对于所述状态转移模型的每个状态,计算将所述状态转移模型的预定状态设置为基准的状态值,其中状态转移到所述预定状态附近的状态的概率越高,所述状态值的值越大,在所述状态转移模型中,通过能够行动的主体执行的行动对状态进行转移;
行动值计算单元,其基于所述状态转移模型和将所述预定状态设置为基准的状态值,对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到具有高的将所述预定状态设置为基准的状态值的状态的概率越高,所述行动值的值越大;
目标状态设置单元,其基于所述行动值,将所述状态转移模型的状态当中的、所述行动值的波动大的状态设置为目标状态,所述目标状态是通过所述主体执行的行动要到达的目标;以及
行动选择单元,其选择所述主体的行动以便向所述目标状态移动。
2.根据权利要求1所述的数据处理设备,还包括:
状态识别单元,其基于所述主体从外部观测到的观测值,在所述状态转移模型的状态当中识别作为观测到所述观测值的状态的当前状态,
其中,所述预定状态是所述当前状态;并且
其中,所述状态值计算单元计算将所述当前状态设置为基准的状态值,其中状态转移到所述当前状态附近的状态的概率越高,所述状态值的值越大。
3.根据权利要求2所述的数据处理设备,其中,所述行动选择单元基于所述状态转移模型,对于所述状态转移模型的每个状态,计算将所述目标状态设置为基准的状态值,其中状态转移到所述目标状态附近的状态的概率越高,所述状态值的值越大;基于所述状态转移模型和将所述目标状态设置为基准的状态值,对于所述状态转移模型的每个状态和所述主体能够执行的每个行动计算行动值,其中转移到具有高的将所述目标状态设置为基准的状态值的状态的概率越高,所述行动值的值越大;并且基于所述当前状态的行动值,选择所述主体的行动以便向所述目标状态移动。
4.根据权利要求3所述的数据处理设备,还包括:
模型更新单元,其基于到所述当前状态的状态转移,更新用于所述主体的行动的状态转移模型,在所述状态转移模型中,发生到所述当前状态的状态转移。
5.根据权利要求4所述的数据处理设备,
其中,用于预定行动的状态转移模型表示所述主体在第一状态中通过所述预定行动转移到第二状态的频率,并且
其中,所述模型更新单元通过增大所述频率来更新所述状态转移模型。
6.根据权利要求5所述的数据处理设备,
其中,假定预定空间作为所述主体进行行动的行动环境,主体在所述行动环境中行动,并且观测所述主体在所述行动环境中的位置作为所述观测值,并且
其中,所述状态表示通过将所述行动环境划分成小区域而获得的这样的小区域。
7.根据权利要求6所述的数据处理设备,其中,所述行动选择单元确定所述当前状态是否与所述目标状态一致,并且当所述当前状态与所述目标状态不一致时,基于所述当前状态的行动值而选择所述主体的行动以便向所述目标状态移动。
8.根据权利要求7所述的数据处理设备,其中,当所述当前状态与所述目标状态一致时,所述状态值计算单元基于所述状态转移模型而重新计算将所述当前状态设置为基准的状态值,所述行动值计算单元基于所述状态转移模型和将所述当前状态设置为基准的状态值而重新计算所述行动值,并且所述目标状态设置单元基于所述行动值而重新设置所述目标状态。
9.根据权利要求2所述的数据处理设备,其中,所述目标状态设置单元对于所述状态转移模型的每个状态获得所述行动值的方差,并且在所述行动值的方差等于或高于预定阈值的状态当中,把能够从所述当前状态通过预定次数内的状态转移而到达的状态设置为所述目标状态。
10.根据权利要求3所述的数据处理设备,其中,所述行动选择单元基于所述当前状态的行动值,利用ε-greedy方法或softmax方法,选择所述主体的行动以便向所述目标状态移动。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110294226.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用