108 B
108 B
Optimizer for policy gradient methods
TODO:
vanilla
baseline
REINFORCE
TRPO
PPO
GAE
NAF
DPG
ACKTR
TODO:
vanilla
baseline
REINFORCE
TRPO
PPO
GAE
NAF
DPG
ACKTR