hongshaorou/Tianshou

Tongzheng Ren 48b830eda6 TODO: policy optimizer

2017-11-06 13:50:35 +08:00

111 B

Raw Blame History

Optimizer for policy gradient methods

TODO: vanilla introduce a baseline REINFORCE TRPO PPO GAE NAF DPG ACKTR