Tianshou/test/discrete/test_pg.py

import os
import gym
import time
import torch
import pprint
import argparse
import numpy as np
from torch.utils.tensorboard import SummaryWriter

from tianshou.utils.net.common import Net
from tianshou.env import VectorEnv
from tianshou.policy import PGPolicy
from tianshou.trainer import onpolicy_trainer
from tianshou.data import Batch, Collector, ReplayBuffer


def compute_return_base(batch, aa=None, bb=None, gamma=0.1):
    returns = np.zeros_like(batch.rew)
    last = 0
    for i in reversed(range(len(batch.rew))):
        returns[i] = batch.rew[i]
        if not batch.done[i]:
            returns[i] += last * gamma
        last = returns[i]
    batch.returns = returns
    return batch


def test_fn(size=2560):
    policy = PGPolicy(None, None, None, discount_factor=0.1)
    buf = ReplayBuffer(100)
    buf.add(1, 1, 1, 1, 1)
    fn = policy.process_fn
    # fn = compute_return_base
    batch = Batch(
        done=np.array([1, 0, 0, 1, 0, 1, 0, 1.]),
        rew=np.array([0, 1, 2, 3, 4, 5, 6, 7.]),
    )
    batch = fn(batch, buf, 0)
    ans = np.array([0, 1.23, 2.3, 3, 4.5, 5, 6.7, 7])
    assert np.allclose(batch.returns, ans)
    batch = Batch(
        done=np.array([0, 1, 0, 1, 0, 1, 0.]),
        rew=np.array([7, 6, 1, 2, 3, 4, 5.]),
    )
    batch = fn(batch, buf, 0)
    ans = np.array([7.6, 6, 1.2, 2, 3.4, 4, 5])
    assert np.allclose(batch.returns, ans)
    batch = Batch(
        done=np.array([0, 1, 0, 1, 0, 0, 1.]),
        rew=np.array([7, 6, 1, 2, 3, 4, 5.]),
    )
    batch = fn(batch, buf, 0)
    ans = np.array([7.6, 6, 1.2, 2, 3.45, 4.5, 5])
    assert np.allclose(batch.returns, ans)
    batch = Batch(
        done=np.array([0, 0, 0, 1., 0, 0, 0, 1, 0, 0, 0, 1]),
        rew=np.array([
            101, 102, 103., 200, 104, 105, 106, 201, 107, 108, 109, 202])
    )
    v = np.array([2., 3., 4, -1, 5., 6., 7, -2, 8., 9., 10, -3])
    ret = policy.compute_episodic_return(batch, v, gamma=0.99, gae_lambda=0.95)
    returns = np.array([
        454.8344, 376.1143, 291.298, 200.,
        464.5610, 383.1085, 295.387, 201.,
        474.2876, 390.1027, 299.476, 202.])
    assert np.allclose(ret.returns, returns)
    if __name__ == '__main__':
        batch = Batch(
            done=np.random.randint(100, size=size) == 0,
            rew=np.random.random(size),
        )
        cnt = 3000
        t = time.time()
        for _ in range(cnt):
            compute_return_base(batch)
        print(f'vanilla: {(time.time() - t) / cnt}')
        t = time.time()
        for _ in range(cnt):
            policy.process_fn(batch, buf, 0)
        print(f'policy: {(time.time() - t) / cnt}')


def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('--task', type=str, default='CartPole-v0')
    parser.add_argument('--seed', type=int, default=1626)
    parser.add_argument('--buffer-size', type=int, default=20000)
    parser.add_argument('--lr', type=float, default=1e-3)
    parser.add_argument('--gamma', type=float, default=0.9)
    parser.add_argument('--epoch', type=int, default=10)
    parser.add_argument('--step-per-epoch', type=int, default=1000)
    parser.add_argument('--collect-per-step', type=int, default=10)
    parser.add_argument('--repeat-per-collect', type=int, default=2)
    parser.add_argument('--batch-size', type=int, default=64)
    parser.add_argument('--layer-num', type=int, default=3)
    parser.add_argument('--training-num', type=int, default=8)
    parser.add_argument('--test-num', type=int, default=100)
    parser.add_argument('--logdir', type=str, default='log')
    parser.add_argument('--render', type=float, default=0.)
    parser.add_argument('--rew-norm', type=int, default=1)
    parser.add_argument(
        '--device', type=str,
        default='cuda' if torch.cuda.is_available() else 'cpu')
    args = parser.parse_known_args()[0]
    return args


def test_pg(args=get_args()):
    env = gym.make(args.task)
    args.state_shape = env.observation_space.shape or env.observation_space.n
    args.action_shape = env.action_space.shape or env.action_space.n
    # train_envs = gym.make(args.task)
    # you can also use tianshou.env.SubprocVectorEnv
    train_envs = VectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.training_num)])
    # test_envs = gym.make(args.task)
    test_envs = VectorEnv(
        [lambda: gym.make(args.task) for _ in range(args.test_num)])
    # seed
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    train_envs.seed(args.seed)
    test_envs.seed(args.seed)
    # model
    net = Net(
        args.layer_num, args.state_shape, args.action_shape,
        device=args.device, softmax=True).to(args.device)
    optim = torch.optim.Adam(net.parameters(), lr=args.lr)
    dist = torch.distributions.Categorical
    policy = PGPolicy(net, optim, dist, args.gamma,
                      reward_normalization=args.rew_norm)
    # collector
    train_collector = Collector(
        policy, train_envs, ReplayBuffer(args.buffer_size))
    test_collector = Collector(policy, test_envs)
    # log
    log_path = os.path.join(args.logdir, args.task, 'pg')
    writer = SummaryWriter(log_path)

    def save_fn(policy):
        torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))

    def stop_fn(x):
        return x >= env.spec.reward_threshold

    # trainer
    result = onpolicy_trainer(
        policy, train_collector, test_collector, args.epoch,
        args.step_per_epoch, args.collect_per_step, args.repeat_per_collect,
        args.test_num, args.batch_size, stop_fn=stop_fn, save_fn=save_fn,
        writer=writer)
    assert stop_fn(result['best_reward'])
    train_collector.close()
    test_collector.close()
    if __name__ == '__main__':
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        collector = Collector(policy, env)
        result = collector.collect(n_episode=1, render=args.render)
        print(f'Final reward: {result["rew"]}, length: {result["len"]}')
        collector.close()


if __name__ == '__main__':
    # test_fn()
    test_pg()
save_fn 2020-04-11 16:54:27 +08:00			`import os`
finish pg 2020-03-17 11:37:31 +08:00			`import gym`
			`import time`
			`import torch`
ppo and early stop 2020-03-20 19:52:29 +08:00			`import pprint`
finish pg 2020-03-17 11:37:31 +08:00			`import argparse`
			`import numpy as np`
			`from torch.utils.tensorboard import SummaryWriter`

Remove dummy net code (#123) * remove dummy net; delete two files * split code to have backbone and head * rename class * change torch.float to torch.float32 * use flatten(1) instead of view(batch, -1) * remove dummy net in docs * bugfix for rnn * fix cuda error * minor fix of docs * do not change the example code in dqn tutorial, since it is for demonstration Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-09 22:57:01 +08:00			`from tianshou.utils.net.common import Net`
upd doc 2020-03-29 10:22:03 +08:00			`from tianshou.env import VectorEnv`
add some docs 2020-04-03 21:28:12 +08:00			`from tianshou.policy import PGPolicy`
ppo and early stop 2020-03-20 19:52:29 +08:00			`from tianshou.trainer import onpolicy_trainer`
finish pg 2020-03-17 11:37:31 +08:00			`from tianshou.data import Batch, Collector, ReplayBuffer`


			`def compute_return_base(batch, aa=None, bb=None, gamma=0.1):`
			`returns = np.zeros_like(batch.rew)`
			`last = 0`
			`for i in reversed(range(len(batch.rew))):`
			`returns[i] = batch.rew[i]`
			`if not batch.done[i]:`
			`returns[i] += last * gamma`
			`last = returns[i]`
add some docs 2020-04-03 21:28:12 +08:00			`batch.returns = returns`
finish pg 2020-03-17 11:37:31 +08:00			`return batch`


			`def test_fn(size=2560):`
a2c 2020-03-17 20:22:37 +08:00			`policy = PGPolicy(None, None, None, discount_factor=0.1)`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`buf = ReplayBuffer(100)`
			`buf.add(1, 1, 1, 1, 1)`
finish pg 2020-03-17 11:37:31 +08:00			`fn = policy.process_fn`
			`# fn = compute_return_base`
			`batch = Batch(`
			`done=np.array([1, 0, 0, 1, 0, 1, 0, 1.]),`
			`rew=np.array([0, 1, 2, 3, 4, 5, 6, 7.]),`
			`)`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`batch = fn(batch, buf, 0)`
finish pg 2020-03-17 11:37:31 +08:00			`ans = np.array([0, 1.23, 2.3, 3, 4.5, 5, 6.7, 7])`
fix a bug in re-index replay buffer (fix #82) 2020-06-17 16:37:51 +08:00			`assert np.allclose(batch.returns, ans)`
finish pg 2020-03-17 11:37:31 +08:00			`batch = Batch(`
			`done=np.array([0, 1, 0, 1, 0, 1, 0.]),`
			`rew=np.array([7, 6, 1, 2, 3, 4, 5.]),`
			`)`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`batch = fn(batch, buf, 0)`
finish pg 2020-03-17 11:37:31 +08:00			`ans = np.array([7.6, 6, 1.2, 2, 3.4, 4, 5])`
fix a bug in re-index replay buffer (fix #82) 2020-06-17 16:37:51 +08:00			`assert np.allclose(batch.returns, ans)`
finish pg 2020-03-17 11:37:31 +08:00			`batch = Batch(`
			`done=np.array([0, 1, 0, 1, 0, 0, 1.]),`
			`rew=np.array([7, 6, 1, 2, 3, 4, 5.]),`
			`)`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`batch = fn(batch, buf, 0)`
finish pg 2020-03-17 11:37:31 +08:00			`ans = np.array([7.6, 6, 1.2, 2, 3.45, 4.5, 5])`
fix a bug in re-index replay buffer (fix #82) 2020-06-17 16:37:51 +08:00			`assert np.allclose(batch.returns, ans)`
fix ppo 2020-04-19 14:30:42 +08:00			`batch = Batch(`
			`done=np.array([0, 0, 0, 1., 0, 0, 0, 1, 0, 0, 0, 1]),`
			`rew=np.array([`
			`101, 102, 103., 200, 104, 105, 106, 201, 107, 108, 109, 202])`
			`)`
			`v = np.array([2., 3., 4, -1, 5., 6., 7, -2, 8., 9., 10, -3])`
			`ret = policy.compute_episodic_return(batch, v, gamma=0.99, gae_lambda=0.95)`
			`returns = np.array([`
			`454.8344, 376.1143, 291.298, 200.,`
			`464.5610, 383.1085, 295.387, 201.,`
			`474.2876, 390.1027, 299.476, 202.])`
fix a bug in re-index replay buffer (fix #82) 2020-06-17 16:37:51 +08:00			`assert np.allclose(ret.returns, returns)`
finish pg 2020-03-17 11:37:31 +08:00			`if __name__ == '__main__':`
			`batch = Batch(`
			`done=np.random.randint(100, size=size) == 0,`
			`rew=np.random.random(size),`
			`)`
			`cnt = 3000`
			`t = time.time()`
			`for _ in range(cnt):`
			`compute_return_base(batch)`
			`print(f'vanilla: {(time.time() - t) / cnt}')`
			`t = time.time()`
			`for _ in range(cnt):`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`policy.process_fn(batch, buf, 0)`
finish pg 2020-03-17 11:37:31 +08:00			`print(f'policy: {(time.time() - t) / cnt}')`


			`def get_args():`
			`parser = argparse.ArgumentParser()`
			`parser.add_argument('--task', type=str, default='CartPole-v0')`
			`parser.add_argument('--seed', type=int, default=1626)`
			`parser.add_argument('--buffer-size', type=int, default=20000)`
Yet another 3 fix (#160) 1. DQN learn should keep eps=0 2. Add a warning of env.seed in VecEnv 3. fix #162 of multi-dim action 2020-07-24 17:38:12 +08:00			`parser.add_argument('--lr', type=float, default=1e-3)`
finish pg 2020-03-17 11:37:31 +08:00			`parser.add_argument('--gamma', type=float, default=0.9)`
gae 2020-04-14 21:11:06 +08:00			`parser.add_argument('--epoch', type=int, default=10)`
ppo and early stop 2020-03-20 19:52:29 +08:00			`parser.add_argument('--step-per-epoch', type=int, default=1000)`
fix bug in test 2020-03-17 15:16:30 +08:00			`parser.add_argument('--collect-per-step', type=int, default=10)`
ppo and early stop 2020-03-20 19:52:29 +08:00			`parser.add_argument('--repeat-per-collect', type=int, default=2)`
finish pg 2020-03-17 11:37:31 +08:00			`parser.add_argument('--batch-size', type=int, default=64)`
			`parser.add_argument('--layer-num', type=int, default=3)`
			`parser.add_argument('--training-num', type=int, default=8)`
fix bug in test 2020-03-17 15:16:30 +08:00			`parser.add_argument('--test-num', type=int, default=100)`
finish pg 2020-03-17 11:37:31 +08:00			`parser.add_argument('--logdir', type=str, default='log')`
add examples, fix some bugs (#5) * update atari.py * fix setup.py pass the pytest * fix setup.py pass the pytest * add args "render" * change the tensorboard writter * change the tensorboard writter * change device, render, tensorboard log location * change device, render, tensorboard log location * remove some wrong local files * fix some tab mistakes and the envs name in continuous/test_xx.py * add examples and point robot maze environment * fix some bugs during testing examples * add dqn network and fix some args * change back the tensorboard writter's frequency to ensure ppo and a2c can write things normally * add a warning to collector * rm some unrelated files * reformat * fix a bug in test_dqn due to the model wrong selection 2020-03-28 07:27:18 +08:00			`parser.add_argument('--render', type=float, default=0.)`
nstep all (fix #51) 2020-06-03 13:59:47 +08:00			`parser.add_argument('--rew-norm', type=int, default=1)`
finish pg 2020-03-17 11:37:31 +08:00			`parser.add_argument(`
			`'--device', type=str,`
			`default='cuda' if torch.cuda.is_available() else 'cpu')`
			`args = parser.parse_known_args()[0]`
			`return args`


			`def test_pg(args=get_args()):`
			`env = gym.make(args.task)`
			`args.state_shape = env.observation_space.shape or env.observation_space.n`
			`args.action_shape = env.action_space.shape or env.action_space.n`
			`# train_envs = gym.make(args.task)`
add some docs 2020-04-03 21:28:12 +08:00			`# you can also use tianshou.env.SubprocVectorEnv`
upd doc 2020-03-29 10:22:03 +08:00			`train_envs = VectorEnv(`
fix collector 2020-03-25 14:08:28 +08:00			`[lambda: gym.make(args.task) for _ in range(args.training_num)])`
finish pg 2020-03-17 11:37:31 +08:00			`# test_envs = gym.make(args.task)`
upd doc 2020-03-29 10:22:03 +08:00			`test_envs = VectorEnv(`
fix collector 2020-03-25 14:08:28 +08:00			`[lambda: gym.make(args.task) for _ in range(args.test_num)])`
finish pg 2020-03-17 11:37:31 +08:00			`# seed`
			`np.random.seed(args.seed)`
			`torch.manual_seed(args.seed)`
			`train_envs.seed(args.seed)`
			`test_envs.seed(args.seed)`
			`# model`
refract test code 2020-03-21 10:58:01 +08:00			`net = Net(`
			`args.layer_num, args.state_shape, args.action_shape,`
Remove dummy net code (#123) * remove dummy net; delete two files * split code to have backbone and head * rename class * change torch.float to torch.float32 * use flatten(1) instead of view(batch, -1) * remove dummy net in docs * bugfix for rnn * fix cuda error * minor fix of docs * do not change the example code in dqn tutorial, since it is for demonstration Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-09 22:57:01 +08:00			`device=args.device, softmax=True).to(args.device)`
finish pg 2020-03-17 11:37:31 +08:00			`optim = torch.optim.Adam(net.parameters(), lr=args.lr)`
			`dist = torch.distributions.Categorical`
fix historical issues 2020-04-26 16:13:51 +08:00			`policy = PGPolicy(net, optim, dist, args.gamma,`
			`reward_normalization=args.rew_norm)`
finish pg 2020-03-17 11:37:31 +08:00			`# collector`
add trainer 2020-03-19 17:23:46 +08:00			`train_collector = Collector(`
finish pg 2020-03-17 11:37:31 +08:00			`policy, train_envs, ReplayBuffer(args.buffer_size))`
td3 2020-03-23 11:34:52 +08:00			`test_collector = Collector(policy, test_envs)`
finish pg 2020-03-17 11:37:31 +08:00			`# log`
save_fn 2020-04-11 16:54:27 +08:00			`log_path = os.path.join(args.logdir, args.task, 'pg')`
			`writer = SummaryWriter(log_path)`

			`def save_fn(policy):`
			`torch.save(policy.state_dict(), os.path.join(log_path, 'policy.pth'))`
add trainer 2020-03-19 17:23:46 +08:00
			`def stop_fn(x):`
			`return x >= env.spec.reward_threshold`

			`# trainer`
ppo and early stop 2020-03-20 19:52:29 +08:00			`result = onpolicy_trainer(`
			`policy, train_collector, test_collector, args.epoch,`
			`args.step_per_epoch, args.collect_per_step, args.repeat_per_collect,`
save_fn 2020-04-11 16:54:27 +08:00			`args.test_num, args.batch_size, stop_fn=stop_fn, save_fn=save_fn,`
			`writer=writer)`
ppo and early stop 2020-03-20 19:52:29 +08:00			`assert stop_fn(result['best_reward'])`
add trainer 2020-03-19 17:23:46 +08:00			`train_collector.close()`
finish pg 2020-03-17 11:37:31 +08:00			`test_collector.close()`
			`if __name__ == '__main__':`
ppo and early stop 2020-03-20 19:52:29 +08:00			`pprint.pprint(result)`
finish pg 2020-03-17 11:37:31 +08:00			`# Let's watch its performance!`
			`env = gym.make(args.task)`
add trainer 2020-03-19 17:23:46 +08:00			`collector = Collector(policy, env)`
add examples, fix some bugs (#5) * update atari.py * fix setup.py pass the pytest * fix setup.py pass the pytest * add args "render" * change the tensorboard writter * change the tensorboard writter * change device, render, tensorboard log location * change device, render, tensorboard log location * remove some wrong local files * fix some tab mistakes and the envs name in continuous/test_xx.py * add examples and point robot maze environment * fix some bugs during testing examples * add dqn network and fix some args * change back the tensorboard writter's frequency to ensure ppo and a2c can write things normally * add a warning to collector * rm some unrelated files * reformat * fix a bug in test_dqn due to the model wrong selection 2020-03-28 07:27:18 +08:00			`result = collector.collect(n_episode=1, render=args.render)`
add trainer 2020-03-19 17:23:46 +08:00			`print(f'Final reward: {result["rew"]}, length: {result["len"]}')`
			`collector.close()`
finish pg 2020-03-17 11:37:31 +08:00

			`if __name__ == '__main__':`
imitation with discrete action space 2020-04-20 11:25:20 +08:00			`# test_fn()`
finish pg 2020-03-17 11:37:31 +08:00			`test_pg()`