# Optimizer for policy gradient methods
TODO:
vanilla
introduce a baseline
REINFORCE
TRPO
PPO
GAE
NAF
DPG
ACKTR