实例|开源巨献:27个深度强化学习算法的实例项目( 二 )
CartPole与不同模型的混合<ahelp_4" name="help_4">
- CartPole, Policy Based Methods, Hill Climbing
- CartPole, Policy Gradient Methods, REINFORCE
- Cartpole with Deep Q-Learning
- Cartpole with Doouble Deep Q-Learning
- 有关Policy-Gradient Methods策略梯度方法,参见 1, 2, 3.
- 有关 REINFORCE,参见 1, 2, 3.
- 有关 PPO,参见 1, 2, 3, 4, 5.
- 有关 DDPG,参见 1, 2.
- 有关 Actor-Critic Methods和A3C,参见 1, 2, 3, 4.
- 有关 TD3,参见 1, 2, 3
- 有关 SAC,参见 1, 2, 3, 4, 5
- 有关 A2C,参见 1, 2, 3, 4, 5
深度Q网络中一对相互关联的神经网络
深度强化学习的三个方面:噪声,高估和探索
我在上述项目中开发的相关视频<ahelp_5" name="help_5">
- Four BipedalWalker Gaits
- BipedalWalker by Training Stages
- CarRacing by Training Stages
- Lucky Hopper
- Martian Ant
- Lunar Armada
- Wooden Snake
- Walking through the chess fields
- Artificial snake on the way
- Learned Long Snake
- Such a fast cheetah
- Four stages of Minitaur training
如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

文章插图
- 优化|微软亚洲研究院发布开源平台“群策 MARO” 用于多智能体资源调度优化
- 驱动|开源之系统:Ubuntu20.04电脑安装无线网卡驱动并解决包依赖关系
- Linux信号透彻分析理解与各种实例讲解
- 「开源资讯」Gradle 6.7 发布,增量构建改进
- 这款开源图表库让你的开发溜到飞起
- 亚马逊云服务推出EC2 Mac新实例 支持开发和原生运行macOS应用程序
- Linux系统网络性能实例分析
- 调度|微软亚研院开源MARO平台:解决多行业资源优化调度问题
- 视频内容|卧底抖音30天,用美食账号和剧情账号为你实例分析账号IP运营
- 微软亚研院开源MARO平台:解决多行业资源优化调度问题
