[发明专利]一种信息处理方法和电子设备有效
| 申请号: | 201410645826.3 | 申请日: | 2014-11-12 |
| 公开(公告)号: | CN105589742B | 公开(公告)日: | 2019-03-26 |
| 发明(设计)人: | 张勇 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F17/16 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 任媛;蒋雅洁 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息处理 方法 电子设备 | ||
本发明公开了一种信息处理方法和电子设备,其中,所述方法包括:检测所述电子设备的状态;当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上次状态转移的第一动作at+n‑1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1;将所述目标状态集合T中的状态确定为目标状态。
技术领域
本发明涉及计算机技术,尤其涉及一种信息处理方法和电子设备。
背景技术
在增强学习领域,存在一种被称为人工智能的强化学习的技术,例如Q-Learning技术,该技术是让电子设备在与环境的不断交互过程中进行学习,从而发现使电子设备从任意状态出发达到目标状态的最优操作序列。
这种技术首先将所要解决的问题形式化为马尔科夫决策问题(Markov DecisionProblem,MDP)。MDP问题可以描述为:状态集合S、动作集合A、状态转移模型T。
状态集合S中每一个元素都是一个N维向量,用来表示一个特定状态,假设电子设备在时刻t的状态为st=(x1,x2,...,xN),st∈S,S也称为状态空间。
动作集合A是定义在状态空间上的集合,A(st)表示当处于状态st时电子设备可执行的所有动作的集合。
状态转移模型T是定义在状态空间和动作集合上的,T(st,at)表示在状态st下执行了动作at之后后继状态的概率分布。
如图1所示,该技术的特点是在已知目标状态的情况下,能够自动找到从任意状态出发抵达目标状态的最优操作序列。但是,目标状态并不总是提前预知的,当目标状态未知时,电子设备无法利用上述技术找到从任意状态出发抵达目标状态的最优操作序列。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法和电子设备。
本发明实施例提供的一种信息处理方法,应用于电子设备,所述电子设备设置有初始化为空集的目标状态集合T,所述方法包括:
检测所述电子设备的状态;
当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;
当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;
当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1;
将所述目标状态集合T中的状态确定为目标状态。
其中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410645826.3/2.html,转载请声明来源钻瓜专利网。





