[发明专利]决策方法有效

申请号：	201810330510.3	申请日：	2018-04-13
公开（公告）号：	CN110378460B	公开（公告）日：	2022-03-08
发明（设计）人：	张德兆;王肖;李晓飞;张放;霍舒豪	申请（专利权）人：	北京智行者科技有限公司
主分类号：	G06N3/00	分类号：	G06N3/00
代理公司：	北京慧诚智道知识产权代理事务所(特殊普通合伙) 11539	代理人：	李楠
地址：	100096 北京市昌平区回***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种决策方法，其特征在于，所述方法包括：

获取场景信息；

第一系统根据所述场景信息，生成第一动作；

计算所述第一动作的第一评价指标；

第二系统根据所述场景信息，生成第二动作；

计算所述第二动作的第二评价指标；

比较所述第一评价指标和所述第二评价指标，当所述第一评价指标大于所述第二评价指标时，输出第一动作；当所述第一评价指标小于所述第二评价指标时，输出第二动作，并将所述场景信息分别和第一动作、第二动作进行关联，存储所述场景信息和第一动作以及所述场景信息和第二动作，生成场景信息-第一动作对以及场景信息-第二动作对；

其中，所述第一系统为分层强化学习决策系统，所述第二系统为规则约束决策系统。

2.根据权利要求1所述的决策方法，其特征在于，所述场景信息包括：

障碍物信息、动态障碍物预测轨迹信息、车道线信息、交通灯信息中的一个或其任意组合。

3.根据权利要求1所述的决策方法，其特征在于，所述计算所述第一动作的第一评价指标，包括：

利用公式计算第一动作的第一评价指标；其中，s为场景信息；g为第一动作；r_t为第t次迭代中，执行当前动作获得的奖励值大小，γ为折扣率。

4.根据权利要求1所述的决策方法，其特征在于，所述方法之前还包括：

获取第一原始场景信息；

根据所述第一原始场景信息，生成第一原始动作集，所述第一原始动作集包括至少一个原始动作；

根据所述第一原始场景信息和所述第一原始动作集，计算所述第一原始动作集中的每个原始动作对应的第一原始评价指标，获得第一原始评价指标集；

将所述第一原始评价指标集中数值最大的一个确定为目标第一原始评价指标，该目标第一原始评价指标对应的原始动作为目标第一原始动作；

根据所述目标第一原始动作，获得第二原始场景信息；

根据所述第二原始场景信息和所述第一原始动作集，计算所述第一原始动作集中的每个原始动作对应的第二原始评价指标，获得第二原始评价指标集；