Tianshou/test/continuous/test_trpo.py

import argparse
import os
import pprint

import gym
import numpy as np
import torch
from torch import nn
from torch.distributions import Independent, Normal
from torch.utils.tensorboard import SummaryWriter

from tianshou.data import Collector, VectorReplayBuffer
from tianshou.env import DummyVectorEnv
from tianshou.policy import TRPOPolicy
from tianshou.trainer import onpolicy_trainer
from tianshou.utils import TensorboardLogger
from tianshou.utils.net.common import Net
from tianshou.utils.net.continuous import ActorProb, Critic


def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('--task', type=str, default='Pendulum-v1')
    parser.add_argument('--reward-threshold', type=float, default=None)
    parser.add_argument('--seed', type=int, default=1)
    parser.add_argument('--buffer-size', type=int, default=50000)
    parser.add_argument('--lr', type=float, default=1e-3)
    parser.add_argument('--gamma', type=float, default=0.95)
    parser.add_argument('--epoch', type=int, default=5)
    parser.add_argument('--step-per-epoch', type=int, default=50000)
    parser.add_argument('--step-per-collect', type=int, default=2048)
    parser.add_argument(
        '--repeat-per-collect', type=int, default=2
    )  # theoretically it should be 1
    parser.add_argument('--batch-size', type=int, default=99999)
    parser.add_argument('--hidden-sizes', type=int, nargs='*', default=[64, 64])
    parser.add_argument('--training-num', type=int, default=16)
    parser.add_argument('--test-num', type=int, default=10)
    parser.add_argument('--logdir', type=str, default='log')
    parser.add_argument('--render', type=float, default=0.)
    parser.add_argument(
        '--device', type=str, default='cuda' if torch.cuda.is_available() else 'cpu'
    )
    # trpo special
    parser.add_argument('--gae-lambda', type=float, default=0.95)
    parser.add_argument('--rew-norm', type=int, default=1)
    parser.add_argument('--norm-adv', type=int, default=1)
    parser.add_argument('--optim-critic-iters', type=int, default=5)
    parser.add_argument('--max-kl', type=float, default=0.005)
    parser.add_argument('--backtrack-coeff', type=float, default=0.8)
    parser.add_argument('--max-backtracks', type=int, default=10)

    args = parser.parse_known_args()[0]
    return args


def test_trpo(args=get_args()):
    env = gym.make(args.task)
    args.state_shape = env.observation_space.shape or env.observation_space.n
    args.action_shape = env.action_space.shape or env.action_space.n
    args.max_action = env.action_space.high[0]
    if args.reward_threshold is None:
        default_reward_threshold = {"Pendulum-v0": -250, "Pendulum-v1": -250}
        args.reward_threshold = default_reward_threshold.get(
            args.task, env.spec.reward_threshold
        )
    # you can also use tianshou.env.SubprocVectorEnv
    # train_envs = gym.make(args.task)
    train_envs = DummyVectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.training_num)]
    )
    # test_envs = gym.make(args.task)
    test_envs = DummyVectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.test_num)]
    )
    # seed
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    train_envs.seed(args.seed)
    test_envs.seed(args.seed)
    # model
    net = Net(
        args.state_shape,
        hidden_sizes=args.hidden_sizes,
        activation=nn.Tanh,
        device=args.device
    )
    actor = ActorProb(
        net,
        args.action_shape,
        max_action=args.max_action,
        unbounded=True,
        device=args.device
    ).to(args.device)
    critic = Critic(
        Net(
            args.state_shape,
            hidden_sizes=args.hidden_sizes,
            device=args.device,
            activation=nn.Tanh
        ),
        device=args.device
    ).to(args.device)
    # orthogonal initialization
    for m in list(actor.modules()) + list(critic.modules()):
        if isinstance(m, torch.nn.Linear):
            torch.nn.init.orthogonal_(m.weight)
            torch.nn.init.zeros_(m.bias)
    optim = torch.optim.Adam(critic.parameters(), lr=args.lr)

    # replace DiagGuassian with Independent(Normal) which is equivalent
    # pass *logits to be consistent with policy.forward
    def dist(*logits):
        return Independent(Normal(*logits), 1)

    policy = TRPOPolicy(
        actor,
        critic,
        optim,
        dist,
        discount_factor=args.gamma,
        reward_normalization=args.rew_norm,
        advantage_normalization=args.norm_adv,
        gae_lambda=args.gae_lambda,
        action_space=env.action_space,
        optim_critic_iters=args.optim_critic_iters,
        max_kl=args.max_kl,
        backtrack_coeff=args.backtrack_coeff,
        max_backtracks=args.max_backtracks
    )
    # collector
    train_collector = Collector(
        policy, train_envs, VectorReplayBuffer(args.buffer_size, len(train_envs))
    )
    test_collector = Collector(policy, test_envs)
    # log
    log_path = os.path.join(args.logdir, args.task, 'trpo')
    writer = SummaryWriter(log_path)
    logger = TensorboardLogger(writer)

    def save_best_fn(policy):
        torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))

    def stop_fn(mean_rewards):
        return mean_rewards >= args.reward_threshold

    # trainer
    result = onpolicy_trainer(
        policy,
        train_collector,
        test_collector,
        args.epoch,
        args.step_per_epoch,
        args.repeat_per_collect,
        args.test_num,
        args.batch_size,
        step_per_collect=args.step_per_collect,
        stop_fn=stop_fn,
        save_best_fn=save_best_fn,
        logger=logger
    )
    assert stop_fn(result['best_reward'])

    if __name__ == '__main__':
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
        result = collector.collect(n_episode=1, render=args.render)
        rews, lens = result["rews"], result["lens"]
        print(f"Final reward: {rews.mean()}, length: {lens.mean()}")


if __name__ == '__main__':
    test_trpo()
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`import argparse`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`import os`
			`import pprint`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00
			`import gym`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`import numpy as np`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`import torch`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`from torch import nn`
			`from torch.distributions import Independent, Normal`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`from torch.utils.tensorboard import SummaryWriter`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`from tianshou.data import Collector, VectorReplayBuffer`
			`from tianshou.env import DummyVectorEnv`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`from tianshou.policy import TRPOPolicy`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`from tianshou.trainer import onpolicy_trainer`
Add Weights and Biases Logger (#427) - rename BasicLogger to TensorboardLogger - refactor logger code - add WandbLogger Co-authored-by: Jiayi Weng <trinkle23897@gmail.com> 2021-08-30 10:35:02 -04:00			`from tianshou.utils import TensorboardLogger`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`from tianshou.utils.net.common import Net`
			`from tianshou.utils.net.continuous import ActorProb, Critic`


			`def get_args():`
			`parser = argparse.ArgumentParser()`
upgrade gym version to >=0.21, fix related CI and update examples/atari (#534) Co-authored-by: Jiayi Weng <trinkle23897@gmail.com> 2022-02-25 07:40:33 +08:00			`parser.add_argument('--task', type=str, default='Pendulum-v1')`
Fixed hardcoded reward_treshold (#548) 2022-03-04 03:35:39 +01:00			`parser.add_argument('--reward-threshold', type=float, default=None)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`parser.add_argument('--seed', type=int, default=1)`
			`parser.add_argument('--buffer-size', type=int, default=50000)`
			`parser.add_argument('--lr', type=float, default=1e-3)`
			`parser.add_argument('--gamma', type=float, default=0.95)`
			`parser.add_argument('--epoch', type=int, default=5)`
			`parser.add_argument('--step-per-epoch', type=int, default=50000)`
			`parser.add_argument('--step-per-collect', type=int, default=2048)`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`parser.add_argument(`
			`'--repeat-per-collect', type=int, default=2`
			`) # theoretically it should be 1`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`parser.add_argument('--batch-size', type=int, default=99999)`
			`parser.add_argument('--hidden-sizes', type=int, nargs='*', default=[64, 64])`
			`parser.add_argument('--training-num', type=int, default=16)`
			`parser.add_argument('--test-num', type=int, default=10)`
			`parser.add_argument('--logdir', type=str, default='log')`
			`parser.add_argument('--render', type=float, default=0.)`
			`parser.add_argument(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`'--device', type=str, default='cuda' if torch.cuda.is_available() else 'cpu'`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# trpo special`
			`parser.add_argument('--gae-lambda', type=float, default=0.95)`
			`parser.add_argument('--rew-norm', type=int, default=1)`
			`parser.add_argument('--norm-adv', type=int, default=1)`
			`parser.add_argument('--optim-critic-iters', type=int, default=5)`
Add NPG policy (#344) 2021-04-21 09:52:15 +08:00			`parser.add_argument('--max-kl', type=float, default=0.005)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`parser.add_argument('--backtrack-coeff', type=float, default=0.8)`
			`parser.add_argument('--max-backtracks', type=int, default=10)`

			`args = parser.parse_known_args()[0]`
			`return args`


			`def test_trpo(args=get_args()):`
			`env = gym.make(args.task)`
			`args.state_shape = env.observation_space.shape or env.observation_space.n`
			`args.action_shape = env.action_space.shape or env.action_space.n`
			`args.max_action = env.action_space.high[0]`
Fixed hardcoded reward_treshold (#548) 2022-03-04 03:35:39 +01:00			`if args.reward_threshold is None:`
			`default_reward_threshold = {"Pendulum-v0": -250, "Pendulum-v1": -250}`
			`args.reward_threshold = default_reward_threshold.get(`
			`args.task, env.spec.reward_threshold`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# you can also use tianshou.env.SubprocVectorEnv`
			`# train_envs = gym.make(args.task)`
			`train_envs = DummyVectorEnv(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`[lambda: gym.make(args.task) for _ in range(args.training_num)]`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# test_envs = gym.make(args.task)`
			`test_envs = DummyVectorEnv(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`[lambda: gym.make(args.task) for _ in range(args.test_num)]`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# seed`
			`np.random.seed(args.seed)`
			`torch.manual_seed(args.seed)`
			`train_envs.seed(args.seed)`
			`test_envs.seed(args.seed)`
			`# model`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`net = Net(`
			`args.state_shape,`
			`hidden_sizes=args.hidden_sizes,`
			`activation=nn.Tanh,`
			`device=args.device`
			`)`
			`actor = ActorProb(`
			`net,`
			`args.action_shape,`
			`max_action=args.max_action,`
			`unbounded=True,`
			`device=args.device`
			`).to(args.device)`
			`critic = Critic(`
			`Net(`
			`args.state_shape,`
			`hidden_sizes=args.hidden_sizes,`
			`device=args.device,`
			`activation=nn.Tanh`
			`),`
			`device=args.device`
			`).to(args.device)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# orthogonal initialization`
			`for m in list(actor.modules()) + list(critic.modules()):`
			`if isinstance(m, torch.nn.Linear):`
			`torch.nn.init.orthogonal_(m.weight)`
			`torch.nn.init.zeros_(m.bias)`
Make trainer resumable (#350) - specify tensorboard >= 2.5.0 - add `save_checkpoint_fn` and `resume_from_log` in trainer Co-authored-by: Trinkle23897 <trinkle23897@gmail.com> 2021-05-06 08:53:53 +08:00			`optim = torch.optim.Adam(critic.parameters(), lr=args.lr)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00
			`# replace DiagGuassian with Independent(Normal) which is equivalent`
			`# pass *logits to be consistent with policy.forward`
			`def dist(*logits):`
			`return Independent(Normal(*logits), 1)`

			`policy = TRPOPolicy(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`actor,`
			`critic,`
			`optim,`
			`dist,`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`discount_factor=args.gamma,`
			`reward_normalization=args.rew_norm,`
			`advantage_normalization=args.norm_adv,`
			`gae_lambda=args.gae_lambda,`
			`action_space=env.action_space,`
			`optim_critic_iters=args.optim_critic_iters,`
			`max_kl=args.max_kl,`
			`backtrack_coeff=args.backtrack_coeff,`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`max_backtracks=args.max_backtracks`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`# collector`
			`train_collector = Collector(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`policy, train_envs, VectorReplayBuffer(args.buffer_size, len(train_envs))`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`test_collector = Collector(policy, test_envs)`
			`# log`
			`log_path = os.path.join(args.logdir, args.task, 'trpo')`
			`writer = SummaryWriter(log_path)`
Add Weights and Biases Logger (#427) - rename BasicLogger to TensorboardLogger - refactor logger code - add WandbLogger Co-authored-by: Jiayi Weng <trinkle23897@gmail.com> 2021-08-30 10:35:02 -04:00			`logger = TensorboardLogger(writer)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00
rename save_fn to save_best_fn to avoid ambiguity (#575) This PR also introduces `tianshou.utils.deprecation` for a unified deprecation wrapper. 2022-03-21 16:29:27 -04:00			`def save_best_fn(policy):`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))`

			`def stop_fn(mean_rewards):`
Fixed hardcoded reward_treshold (#548) 2022-03-04 03:35:39 +01:00			`return mean_rewards >= args.reward_threshold`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00
			`# trainer`
			`result = onpolicy_trainer(`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`policy,`
			`train_collector,`
			`test_collector,`
			`args.epoch,`
			`args.step_per_epoch,`
			`args.repeat_per_collect,`
			`args.test_num,`
			`args.batch_size,`
			`step_per_collect=args.step_per_collect,`
			`stop_fn=stop_fn,`
rename save_fn to save_best_fn to avoid ambiguity (#575) This PR also introduces `tianshou.utils.deprecation` for a unified deprecation wrapper. 2022-03-21 16:29:27 -04:00			`save_best_fn=save_best_fn,`
bump to v0.4.3 (#432) * add makefile * bump version * add isort and yapf * update contributing.md * update PR template * spelling check 2021-09-03 05:05:04 +08:00			`logger=logger`
			`)`
Add TRPO policy (#337) 2021-04-16 20:37:12 +08:00			`assert stop_fn(result['best_reward'])`

			`if __name__ == '__main__':`
			`pprint.pprint(result)`
			`# Let's watch its performance!`
			`env = gym.make(args.task)`
			`policy.eval()`
			`collector = Collector(policy, env)`
			`result = collector.collect(n_episode=1, render=args.render)`
			`rews, lens = result["rews"], result["lens"]`
			`print(f"Final reward: {rews.mean()}, length: {lens.mean()}")`


			`if __name__ == '__main__':`
			`test_trpo()`