[发明专利]一种基于相变存储器的资格迹计算器在审
| 申请号: | 202111141322.4 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113867639A | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 杨玉超;路英明 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F17/10;G06N3/08 |
| 代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 李稚婷 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 相变 存储器 资格 计算器 | ||
本发明公开了一种基于相变存储器的资格迹计算器,包括相变存储器阵列和结果转换器两部分。利用相变存储器的多值特性,将资格迹数据以电导的形式存储在存储器单元中,与传统的二值存储方式相比能够有效降低存储器单元的数量,实现高密度存储;利用相变存储器的电导漂移效应自发地实现随时间的衰减运算,无需使用其他运算电路,有效降低了运算的硬件开销;而且资格迹数据的存储和衰减运算都在相变存储器内部进行,避免了因频繁搬运数据产生的巨大能量消耗。此外,通过调节结果转换器中的参数,资格迹的衰减速度能够被灵活调整,从而适用于不同需求的强化学习任务。本发明还能够突破传统计算架构中存储墙的限制,促进强化学习的进一步发展。
技术领域
本发明属于新型计算技术领域,具体涉及一种基于相变存储器内在电导漂移效应的资格迹计算器。
背景技术
强化学习算法由于其优秀的性能,近年来得到众多科研人员的关注,它能够基于任务环境的奖惩从而生成解决问题的策略,通过多轮迭代生成的优化策略能够有效地完成众多领域内的复杂任务,而且不需要来自外界的指导或监督。经过不断优化的强化学习算法目前已经能够在自动驾驶、游戏对战等领域取得接近甚至超越人类水平的表现。强化学习算法强大的功能离不开一种有效且常用的机制——资格迹的支持,它能够以随时间衰减的方式记录下强化学习中智能体在一轮训练中经历的状态轨迹,并且基于这个轨迹的幅度指导不同状态对应的策略的更新幅度,从而加速最佳策略的形成,降低强化学习训练过程的代价并且提升最终的训练效果。
传统计算平台上实现的资格迹是通过计算大量的指数衰减函数得到的,这不仅需要进行大量的乘法运算,还需要频繁地在计算器和存储器之间进行数据搬运,能量消耗十分高昂,从而严重限制了复杂强化学习算法的实现。相变存储器是一类新型非易失型存储器,它依靠内部相变材料在晶态和非晶态之间显著的电导差异实现高速、高密度的数据存储,而不稳定的非晶态材料内部会自发地发生结构解体,生成电导更低的玻璃态,因此相变存储器的电导状态会随着时间发生衰减,被称为电导漂移。合理地利用相变存储器的电导漂移,就能够以存内计算的方式自动地实现资格迹的衰减机制,避免大量的数据搬运以及乘法运算,从而有效降低大型强化学习算法的开销。
发明内容
为了解决复杂强化学习算法中资格迹计算能量消耗太高昂的问题,本发明提供了一种基于相变存储器多值特性以及电导漂移特性的资格迹计算器,能够以存内计算的方式自发地实现资格迹的衰减,从而大幅降低了资格迹计算的能量消耗。利用相变存储器自发电导漂移效应,本发明能够自动地实现资格迹的衰减运算而不需要复杂的运算电路,有效降低了硬件开销;此外,资格迹的存储和运算都是相变存储器内完成的,避免了频繁的数据搬运,从而进一步降低了运算的能量消耗。因此与传统的资格迹实现方式相比,本发明在能量和硬件的开销上具有明显的优势。
本发明的资格迹计算器由两部分构成,参见图1,第一部分是可编程的相变存储器阵列,包括用于发生编程脉冲和读取器件电导的外围电路以及共地方式连接的相变存储器阵列单元;每个相变存储器阵列单元由一个相变存储器和一个晶体管组成,相变存储器的一端连接晶体管,另一端接地,由晶体管控制相变存储器与外围电路的通断;每个相变存储器以电导的形式存储一个对应的资格迹数据并自发进行衰减运算;第二部分是结果转换器,包括比较器和线性运算器,能够将从相变存储器阵列中读取出来的电导数据转化为资格迹数据,从而用于强化学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111141322.4/2.html,转载请声明来源钻瓜专利网。





