[发明专利]一种基于深度强化学习的EFSM输入序列生成方法在审
申请号: | 202210392312.6 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114691518A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 舒挺;吴崔屏 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 杭州昊泽专利代理事务所(特殊普通合伙) 33449 | 代理人: | 黄前泽 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 efsm 输入 序列 生成 方法 | ||
1.一种基于深度强化学习的EFSM输入序列生成方法,其特征在于:具体步骤如下:
(1)基于EFSM抽象模型搭建深度强化学习算法所需的深度强化学习环境:从软件的规格说明中提取出EFSM抽象模型,按照深度强化学习算法的组成要素,设计将EFSM抽象模型作为深度强化学习环境要实现的奖赏函数、状态空间和动作空间,对状态空间和动作空间进行初始化,并完成reset()和step()方法的实现,其中,reset()方法用于在每个回合重置深度强化学习环境的状态,step()方法接收来自智能体给出的动作以改变深度强化学习环境得到下一个时刻的深度强化学习环境状态,并调用奖赏函数给出当前动作的奖励反馈,来决定是否结束当前回合;
(2)智能体训练:将EFSM抽象模型中谓词判断条件包含输入参数的所有变迁提取出来,作为目标训练集,通过不断试错和交互,使智能体指导生成合适的输入参数来触发目标训练集中的每一条变迁;训练结束后,得到各个状态机的决策模型,决策模型中包含用于指导深度强化学习环境输入序列生成的高级决策信息;
(3)输入序列生成:使用训练好的智能体为已有的可执行测试路径生成相应的输入序列集。
2.根据权利要求1所述一种基于深度强化学习的EFSM输入序列生成方法,其特征在于:所述步骤(1)中奖赏函数的设计如下:
rt=F(IPDt-1)-F(IPDt)
其中,IPDt表示用来触发t时刻对应状态目标变迁的输入参数数据,IPDt-1全称表示用来触发t-1时刻对应状态目标变迁的输入参数数据,F是适应度函数,用来奖励能够满足谓词判断条件的输入参数数据,输入参数数据越容易触发目标变迁,F的值越小。
3.根据权利要求1所述一种基于深度强化学习的EFSM输入序列生成方法,其特征在于:所述步骤(1)中状态空间的设计如下:
st=(Tt,Dt)
其中Tt表示t时刻学习的目标变迁,Dt表示t时刻的偏差向量(d0,d1,d2,…,di,…,dn-1),偏差向量长度等于EFSM抽象模型的输入参数向量Vip的长度,而偏差向量Dt中的元素di取值为Vip中第i个输入参数为满足当前变迁谓词判断条件与上下文变量或者常量之间的偏差值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210392312.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种潜水泵
- 下一篇:一种自动轴承内圈沟道超精机