hongshaorou/Tianshou

Tongzheng Ren 595e62e111 architecture design

2017-11-06 15:15:44 +08:00

108 B

Raw Blame History

Optimizer for policy gradient methods

TODO:

vanilla

baseline

REINFORCE

TRPO

PPO

GAE

NAF

DPG

ACKTR