搜索【vpg】的结果

策略梯度(Policy Gradient, PG)方法的核心思想在于是能获得更好的回报的动作的采样概率不断提高，使获得更少回报的动作的采样概率不断降低，从而达到一个最优的策略。

2022-10-22 09:07:51 7KB libtorch vpg

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0-源码

使用Pytorch实现的深度RL算法算法列表：关于深入探讨实验结果：算法离散环境：LunarLander-v2 连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目：如果有时间，我将为使用RL的电梯添加一个简单的程序。更好的图形

2021-04-26 01:35:45 391KB algorithms ddpg sac ppo

个人信息

热门下载

最新下载

其他资源