Tianshou/examples/mujoco/mujoco_a2c.py

#!/usr/bin/env python3

import os
import gym
import torch
import pprint
import datetime
import argparse
import numpy as np
from torch import nn
from torch.optim.lr_scheduler import LambdaLR
from torch.utils.tensorboard import SummaryWriter
from torch.distributions import Independent, Normal

from tianshou.policy import A2CPolicy
from tianshou.utils import TensorboardLogger
from tianshou.env import SubprocVectorEnv
from tianshou.utils.net.common import Net
from tianshou.trainer import onpolicy_trainer
from tianshou.utils.net.continuous import ActorProb, Critic
from tianshou.data import Collector, ReplayBuffer, VectorReplayBuffer


def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('--task', type=str, default='HalfCheetah-v3')
    parser.add_argument('--seed', type=int, default=0)
    parser.add_argument('--buffer-size', type=int, default=4096)
    parser.add_argument('--hidden-sizes', type=int, nargs='*', default=[64, 64])
    parser.add_argument('--lr', type=float, default=7e-4)
    parser.add_argument('--gamma', type=float, default=0.99)
    parser.add_argument('--epoch', type=int, default=100)
    parser.add_argument('--step-per-epoch', type=int, default=30000)
    parser.add_argument('--step-per-collect', type=int, default=80)
    parser.add_argument('--repeat-per-collect', type=int, default=1)
    # batch-size >> step-per-collect means calculating all data in one singe forward.
    parser.add_argument('--batch-size', type=int, default=99999)
    parser.add_argument('--training-num', type=int, default=16)
    parser.add_argument('--test-num', type=int, default=10)
    # a2c special
    parser.add_argument('--rew-norm', type=int, default=True)
    parser.add_argument('--vf-coef', type=float, default=0.5)
    parser.add_argument('--ent-coef', type=float, default=0.01)
    parser.add_argument('--gae-lambda', type=float, default=0.95)
    parser.add_argument('--bound-action-method', type=str, default="clip")
    parser.add_argument('--lr-decay', type=int, default=True)
    parser.add_argument('--max-grad-norm', type=float, default=0.5)
    parser.add_argument('--logdir', type=str, default='log')
    parser.add_argument('--render', type=float, default=0.)
    parser.add_argument(
        '--device', type=str,
        default='cuda' if torch.cuda.is_available() else 'cpu')
    parser.add_argument('--resume-path', type=str, default=None)
    parser.add_argument('--watch', default=False, action='store_true',
                        help='watch the play of pre-trained policy only')
    return parser.parse_args()


def test_a2c(args=get_args()):
    env = gym.make(args.task)
    args.state_shape = env.observation_space.shape or env.observation_space.n
    args.action_shape = env.action_space.shape or env.action_space.n
    args.max_action = env.action_space.high[0]
    print("Observations shape:", args.state_shape)
    print("Actions shape:", args.action_shape)
    print("Action range:", np.min(env.action_space.low),
          np.max(env.action_space.high))
    # train_envs = gym.make(args.task)
    train_envs = SubprocVectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.training_num)],
        norm_obs=True)
    # test_envs = gym.make(args.task)
    test_envs = SubprocVectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.test_num)],
        norm_obs=True, obs_rms=train_envs.obs_rms, update_obs_rms=False)

    # seed
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    train_envs.seed(args.seed)
    test_envs.seed(args.seed)
    # model
    net_a = Net(args.state_shape, hidden_sizes=args.hidden_sizes,
                activation=nn.Tanh, device=args.device)
    actor = ActorProb(net_a, args.action_shape, max_action=args.max_action,
                      unbounded=True, device=args.device).to(args.device)
    net_c = Net(args.state_shape, hidden_sizes=args.hidden_sizes,
                activation=nn.Tanh, device=args.device)
    critic = Critic(net_c, device=args.device).to(args.device)
    torch.nn.init.constant_(actor.sigma_param, -0.5)
    for m in list(actor.modules()) + list(critic.modules()):
        if isinstance(m, torch.nn.Linear):
            # orthogonal initialization
            torch.nn.init.orthogonal_(m.weight, gain=np.sqrt(2))
            torch.nn.init.zeros_(m.bias)
    # do last policy layer scaling, this will make initial actions have (close to)
    # 0 mean and std, and will help boost performances,
    # see https://arxiv.org/abs/2006.05990, Fig.24 for details
    for m in actor.mu.modules():
        if isinstance(m, torch.nn.Linear):
            torch.nn.init.zeros_(m.bias)
            m.weight.data.copy_(0.01 * m.weight.data)

    optim = torch.optim.RMSprop(list(actor.parameters()) + list(critic.parameters()),
                                lr=args.lr, eps=1e-5, alpha=0.99)

    lr_scheduler = None
    if args.lr_decay:
        # decay learning rate to 0 linearly
        max_update_num = np.ceil(
            args.step_per_epoch / args.step_per_collect) * args.epoch

        lr_scheduler = LambdaLR(
            optim, lr_lambda=lambda epoch: 1 - epoch / max_update_num)

    def dist(*logits):
        return Independent(Normal(*logits), 1)

    policy = A2CPolicy(actor, critic, optim, dist, discount_factor=args.gamma,
                       gae_lambda=args.gae_lambda, max_grad_norm=args.max_grad_norm,
                       vf_coef=args.vf_coef, ent_coef=args.ent_coef,
                       reward_normalization=args.rew_norm, action_scaling=True,
                       action_bound_method=args.bound_action_method,
                       lr_scheduler=lr_scheduler, action_space=env.action_space)

    # load a previous policy
    if args.resume_path:
        policy.load_state_dict(torch.load(args.resume_path, map_location=args.device))
        print("Loaded agent from: ", args.resume_path)

    # collector
    if args.training_num > 1:
        buffer = VectorReplayBuffer(args.buffer_size, len(train_envs))
    else:
        buffer = ReplayBuffer(args.buffer_size)
    train_collector = Collector(policy, train_envs, buffer, exploration_noise=True)
    test_collector = Collector(policy, test_envs)
    # log
    t0 = datetime.datetime.now().strftime("%m%d_%H%M%S")
    log_file = f'seed_{args.seed}_{t0}-{args.task.replace("-", "_")}_a2c'
    log_path = os.path.join(args.logdir, args.task, 'a2c', log_file)
    writer = SummaryWriter(log_path)
    writer.add_text("args", str(args))
    logger = TensorboardLogger(writer, update_interval=100, train_interval=100)

    def save_fn(policy):
        torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))

    if not args.watch:
        # trainer
        result = onpolicy_trainer(
            policy, train_collector, test_collector, args.epoch, args.step_per_epoch,
            args.repeat_per_collect, args.test_num, args.batch_size,
            step_per_collect=args.step_per_collect, save_fn=save_fn, logger=logger,
            test_in_train=False)
        pprint.pprint(result)

    # Let's watch its performance!
    policy.eval()
    test_envs.seed(args.seed)
    test_collector.reset()
    result = test_collector.collect(n_episode=args.test_num, render=args.render)
    print(f'Final reward: {result["rews"].mean()}, length: {result["lens"].mean()}')


if __name__ == '__main__':
    test_a2c()
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`#!/usr/bin/env python3`

			`import os`
			`import gym`
			`import torch`
ppo benchmark (#330) 2021-03-30 11:50:35 +08:00			`import pprint`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`import datetime`
			`import argparse`
			`import numpy as np`
			`from torch import nn`
			`from torch.optim.lr_scheduler import LambdaLR`
			`from torch.utils.tensorboard import SummaryWriter`
			`from torch.distributions import Independent, Normal`

			`from tianshou.policy import A2CPolicy`
Add Weights and Biases Logger (#427) - rename BasicLogger to TensorboardLogger - refactor logger code - add WandbLogger Co-authored-by: Jiayi Weng <trinkle23897@gmail.com> 2021-08-30 10:35:02 -04:00			`from tianshou.utils import TensorboardLogger`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`from tianshou.env import SubprocVectorEnv`
			`from tianshou.utils.net.common import Net`
			`from tianshou.trainer import onpolicy_trainer`
			`from tianshou.utils.net.continuous import ActorProb, Critic`
			`from tianshou.data import Collector, ReplayBuffer, VectorReplayBuffer`


			`def get_args():`
			`parser = argparse.ArgumentParser()`
			`parser.add_argument('--task', type=str, default='HalfCheetah-v3')`
			`parser.add_argument('--seed', type=int, default=0)`
			`parser.add_argument('--buffer-size', type=int, default=4096)`
			`parser.add_argument('--hidden-sizes', type=int, nargs='*', default=[64, 64])`
			`parser.add_argument('--lr', type=float, default=7e-4)`
			`parser.add_argument('--gamma', type=float, default=0.99)`
			`parser.add_argument('--epoch', type=int, default=100)`
			`parser.add_argument('--step-per-epoch', type=int, default=30000)`
			`parser.add_argument('--step-per-collect', type=int, default=80)`
			`parser.add_argument('--repeat-per-collect', type=int, default=1)`
TRPO benchmark release (#340) 2021-04-19 17:05:06 +08:00			`# batch-size >> step-per-collect means calculating all data in one singe forward.`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`parser.add_argument('--batch-size', type=int, default=99999)`
			`parser.add_argument('--training-num', type=int, default=16)`
			`parser.add_argument('--test-num', type=int, default=10)`
			`# a2c special`
			`parser.add_argument('--rew-norm', type=int, default=True)`
			`parser.add_argument('--vf-coef', type=float, default=0.5)`
			`parser.add_argument('--ent-coef', type=float, default=0.01)`
			`parser.add_argument('--gae-lambda', type=float, default=0.95)`
			`parser.add_argument('--bound-action-method', type=str, default="clip")`
			`parser.add_argument('--lr-decay', type=int, default=True)`
			`parser.add_argument('--max-grad-norm', type=float, default=0.5)`
ppo benchmark (#330) 2021-03-30 11:50:35 +08:00			`parser.add_argument('--logdir', type=str, default='log')`
			`parser.add_argument('--render', type=float, default=0.)`
			`parser.add_argument(`
			`'--device', type=str,`
			`default='cuda' if torch.cuda.is_available() else 'cpu')`
			`parser.add_argument('--resume-path', type=str, default=None)`
			`parser.add_argument('--watch', default=False, action='store_true',`
			`help='watch the play of pre-trained policy only')`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`return parser.parse_args()`


			`def test_a2c(args=get_args()):`
			`env = gym.make(args.task)`
			`args.state_shape = env.observation_space.shape or env.observation_space.n`
			`args.action_shape = env.action_space.shape or env.action_space.n`
			`args.max_action = env.action_space.high[0]`
			`print("Observations shape:", args.state_shape)`
			`print("Actions shape:", args.action_shape)`
			`print("Action range:", np.min(env.action_space.low),`
			`np.max(env.action_space.high))`
			`# train_envs = gym.make(args.task)`
			`train_envs = SubprocVectorEnv(`
			`[lambda: gym.make(args.task) for _ in range(args.training_num)],`
			`norm_obs=True)`
			`# test_envs = gym.make(args.task)`
			`test_envs = SubprocVectorEnv(`
			`[lambda: gym.make(args.task) for _ in range(args.test_num)],`
			`norm_obs=True, obs_rms=train_envs.obs_rms, update_obs_rms=False)`

			`# seed`
			`np.random.seed(args.seed)`
			`torch.manual_seed(args.seed)`
			`train_envs.seed(args.seed)`
			`test_envs.seed(args.seed)`
			`# model`
			`net_a = Net(args.state_shape, hidden_sizes=args.hidden_sizes,`
			`activation=nn.Tanh, device=args.device)`
			`actor = ActorProb(net_a, args.action_shape, max_action=args.max_action,`
			`unbounded=True, device=args.device).to(args.device)`
			`net_c = Net(args.state_shape, hidden_sizes=args.hidden_sizes,`
			`activation=nn.Tanh, device=args.device)`
			`critic = Critic(net_c, device=args.device).to(args.device)`
			`torch.nn.init.constant_(actor.sigma_param, -0.5)`
			`for m in list(actor.modules()) + list(critic.modules()):`
			`if isinstance(m, torch.nn.Linear):`
			`# orthogonal initialization`
			`torch.nn.init.orthogonal_(m.weight, gain=np.sqrt(2))`
			`torch.nn.init.zeros_(m.bias)`
			`# do last policy layer scaling, this will make initial actions have (close to)`
			`# 0 mean and std, and will help boost performances,`
			`# see https://arxiv.org/abs/2006.05990, Fig.24 for details`
			`for m in actor.mu.modules():`
			`if isinstance(m, torch.nn.Linear):`
			`torch.nn.init.zeros_(m.bias)`
			`m.weight.data.copy_(0.01 * m.weight.data)`

Make trainer resumable (#350) - specify tensorboard >= 2.5.0 - add `save_checkpoint_fn` and `resume_from_log` in trainer Co-authored-by: Trinkle23897 <trinkle23897@gmail.com> 2021-05-06 08:53:53 +08:00			`optim = torch.optim.RMSprop(list(actor.parameters()) + list(critic.parameters()),`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`lr=args.lr, eps=1e-5, alpha=0.99)`

			`lr_scheduler = None`
			`if args.lr_decay:`
			`# decay learning rate to 0 linearly`
			`max_update_num = np.ceil(`
			`args.step_per_epoch / args.step_per_collect) * args.epoch`

			`lr_scheduler = LambdaLR(`
			`optim, lr_lambda=lambda epoch: 1 - epoch / max_update_num)`

			`def dist(*logits):`
			`return Independent(Normal(*logits), 1)`

			`policy = A2CPolicy(actor, critic, optim, dist, discount_factor=args.gamma,`
			`gae_lambda=args.gae_lambda, max_grad_norm=args.max_grad_norm,`
			`vf_coef=args.vf_coef, ent_coef=args.ent_coef,`
			`reward_normalization=args.rew_norm, action_scaling=True,`
			`action_bound_method=args.bound_action_method,`
			`lr_scheduler=lr_scheduler, action_space=env.action_space)`

ppo benchmark (#330) 2021-03-30 11:50:35 +08:00			`# load a previous policy`
			`if args.resume_path:`
			`policy.load_state_dict(torch.load(args.resume_path, map_location=args.device))`
			`print("Loaded agent from: ", args.resume_path)`

A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00			`# collector`
			`if args.training_num > 1:`
			`buffer = VectorReplayBuffer(args.buffer_size, len(train_envs))`
			`else:`
			`buffer = ReplayBuffer(args.buffer_size)`
			`train_collector = Collector(policy, train_envs, buffer, exploration_noise=True)`
			`test_collector = Collector(policy, test_envs)`
			`# log`
			`t0 = datetime.datetime.now().strftime("%m%d_%H%M%S")`
			`log_file = f'seed_{args.seed}_{t0}-{args.task.replace("-", "_")}_a2c'`
			`log_path = os.path.join(args.logdir, args.task, 'a2c', log_file)`
			`writer = SummaryWriter(log_path)`
			`writer.add_text("args", str(args))`
Add Weights and Biases Logger (#427) - rename BasicLogger to TensorboardLogger - refactor logger code - add WandbLogger Co-authored-by: Jiayi Weng <trinkle23897@gmail.com> 2021-08-30 10:35:02 -04:00			`logger = TensorboardLogger(writer, update_interval=100, train_interval=100)`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00
			`def save_fn(policy):`
			`torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))`

ppo benchmark (#330) 2021-03-30 11:50:35 +08:00			`if not args.watch:`
			`# trainer`
			`result = onpolicy_trainer(`
			`policy, train_collector, test_collector, args.epoch, args.step_per_epoch,`
			`args.repeat_per_collect, args.test_num, args.batch_size,`
			`step_per_collect=args.step_per_collect, save_fn=save_fn, logger=logger,`
			`test_in_train=False)`
			`pprint.pprint(result)`
A2C benchmark for mujoco (#325) 2021-03-28 13:12:43 +08:00
			`# Let's watch its performance!`
			`policy.eval()`
			`test_envs.seed(args.seed)`
			`test_collector.reset()`
			`result = test_collector.collect(n_episode=args.test_num, render=args.render)`
			`print(f'Final reward: {result["rews"].mean()}, length: {result["lens"].mean()}')`


			`if __name__ == '__main__':`
			`test_a2c()`