[发明专利]基于随机博弈增强学习的比特币矿池攻击策略学习方法有效
申请号: | 201910253160.X | 申请日: | 2019-03-29 |
公开(公告)号: | CN110460564B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 王骞;陈艳姣;吴双可;胡胜山 | 申请(专利权)人: | 武汉大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 齐晨涵;姜学德 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 博弈 增强 学习 比特 币矿池 攻击 策略 学习方法 | ||
1.一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于,包含以下步骤:
步骤1,输入初始网络状态,并初始化两个矿池的所有状态值;
步骤2,当t=0,计算随机探索概率参数其中,β0为初始随机探索概率参数,t为迭代次数;
步骤3,采取β探索方法,设置随机探索选择概率参数β,两个矿池分别以1-β的概率根据当前策略选择动作;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作;
步骤4,根据两个矿池的动作以及当前网络状态,计算各矿池的算力在本次迭代中占整个比特币网络的比例,得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率;
步骤5,根据动作更新网络状态;
步骤6,更新两个矿池的策略以及当前状态的状态值;
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则t增加1,返回步骤3。
2.根据权利要求1所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤1的具体过程为:
输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,矿工跳槽率的两种取值和矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò,最后初始比特币网络的状态即矿池1与矿池2的大小在所有离散状态下的状态值及策略对
3.根据权利要求2所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤3中两个矿池分别以1-β的概率根据当前策略选择动作以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作则所述步骤4具体为:根据两个矿池的动作以及当前网络状态计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为矿池2的算力在本次迭代中占整个比特币网络的比例为从而得出矿池1和矿池2本次迭代的期望收益分别为和再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为和因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为和其中再根据两个矿池的动作得出第t次迭代中跳槽率ht的概率分布为
最后,得到矿池1和矿池2在t轮迭代后矿池大小分别更新为和因此t+1轮迭代中的网络状态的转移概率为其中:
4.根据权利要求3所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤5具体为:根据更新矿池1的最佳策略根据更新矿池2的最佳策略
5.根据权利要求4所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤6具体为:根据更新矿池1在状态s下的状态值V1t+1(s);根据更新矿池2在状态s下的状态值其中δ∈[0,1)为矿池学习率,在第t次迭代中,大小为δ随着迭代次数的增加而减少,有助于算法后期的收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910253160.X/1.html,转载请声明来源钻瓜专利网。