Tianshou/test/base/test_collector.py

import numpy as np
from torch.utils.tensorboard import SummaryWriter

from tianshou.policy import BasePolicy
from tianshou.env import VectorEnv, SubprocVectorEnv
from tianshou.data import Collector, Batch, ReplayBuffer

if __name__ == '__main__':
    from env import MyTestEnv
else:  # pytest
    from test.base.env import MyTestEnv


class MyPolicy(BasePolicy):
    def __init__(self, dict_state=False):
        super().__init__()
        self.dict_state = dict_state

    def forward(self, batch, state=None):
        if self.dict_state:
            return Batch(act=np.ones(batch.obs['index'].shape[0]))
        return Batch(act=np.ones(batch.obs.shape[0]))

    def learn(self):
        pass


def equal(a, b):
    return abs(np.array(a) - np.array(b)).sum() < 1e-6


class Logger(object):
    def __init__(self, writer):
        self.cnt = 0
        self.writer = writer

    def log(self, info):
        self.writer.add_scalar('key', info['key'], global_step=self.cnt)
        self.cnt += 1


def test_collector():
    writer = SummaryWriter('log/collector')
    logger = Logger(writer)
    env_fns = [
        lambda: MyTestEnv(size=2, sleep=0),
        lambda: MyTestEnv(size=3, sleep=0),
        lambda: MyTestEnv(size=4, sleep=0),
        lambda: MyTestEnv(size=5, sleep=0),
    ]

    venv = SubprocVectorEnv(env_fns)
    policy = MyPolicy()
    env = env_fns[0]()
    c0 = Collector(policy, env, ReplayBuffer(size=100, ignore_obs_next=False))
    c0.collect(n_step=3, log_fn=logger.log)
    assert equal(c0.buffer.obs[:3], [0, 1, 0])
    assert equal(c0.buffer[:3].obs_next, [1, 2, 1])
    c0.collect(n_episode=3, log_fn=logger.log)
    assert equal(c0.buffer.obs[:8], [0, 1, 0, 1, 0, 1, 0, 1])
    assert equal(c0.buffer[:8].obs_next, [1, 2, 1, 2, 1, 2, 1, 2])
    c1 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False))
    c1.collect(n_step=6)
    assert equal(c1.buffer.obs[:11], [0, 1, 0, 1, 2, 0, 1, 0, 1, 2, 3])
    assert equal(c1.buffer[:11].obs_next, [1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4])
    c1.collect(n_episode=2)
    assert equal(c1.buffer.obs[11:21], [0, 1, 2, 3, 4, 0, 1, 0, 1, 2])
    assert equal(c1.buffer[11:21].obs_next, [1, 2, 3, 4, 5, 1, 2, 1, 2, 3])
    c2 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False))
    c2.collect(n_episode=[1, 2, 2, 2])
    assert equal(c2.buffer.obs_next[:26], [
        1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5,
        1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])
    c2.reset_env()
    c2.collect(n_episode=[2, 2, 2, 2])
    assert equal(c2.buffer.obs_next[26:54], [
        1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4, 1, 2, 3, 4, 5,
        1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])


def test_collector_with_dict_state():
    env = MyTestEnv(size=5, sleep=0, dict_state=True)
    policy = MyPolicy(dict_state=True)
    c0 = Collector(policy, env, ReplayBuffer(size=100))
    c0.collect(n_step=3)
    c0.collect(n_episode=3)
    env_fns = [
        lambda: MyTestEnv(size=2, sleep=0, dict_state=True),
        lambda: MyTestEnv(size=3, sleep=0, dict_state=True),
        lambda: MyTestEnv(size=4, sleep=0, dict_state=True),
        lambda: MyTestEnv(size=5, sleep=0, dict_state=True),
    ]
    envs = VectorEnv(env_fns)
    c1 = Collector(policy, envs, ReplayBuffer(size=100))
    c1.collect(n_step=10)
    c1.collect(n_episode=[2, 1, 1, 2])
    batch = c1.sample(10)
    print(batch)
    c0.buffer.update(c1.buffer)
    assert equal(c0.buffer[:len(c0.buffer)].obs.index, [
        0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,
        0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,
        1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.])
    c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4))
    c2.collect(n_episode=[0, 0, 0, 10])
    batch = c2.sample(10)
    print(batch['obs_next']['index'])


if __name__ == '__main__':
    test_collector()
    test_collector_with_dict_state()
fix collector 2020-03-25 14:08:28 +08:00			`import numpy as np`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`from torch.utils.tensorboard import SummaryWriter`

fix collector 2020-03-25 14:08:28 +08:00			`from tianshou.policy import BasePolicy`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`from tianshou.env import VectorEnv, SubprocVectorEnv`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`from tianshou.data import Collector, Batch, ReplayBuffer`
fix collector 2020-03-25 14:08:28 +08:00
			`if __name__ == '__main__':`
			`from env import MyTestEnv`
			`else: # pytest`
			`from test.base.env import MyTestEnv`


			`class MyPolicy(BasePolicy):`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`def __init__(self, dict_state=False):`
fix collector 2020-03-25 14:08:28 +08:00			`super().__init__()`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`self.dict_state = dict_state`
fix collector 2020-03-25 14:08:28 +08:00
__call__ -> forward 2020-04-10 10:47:16 +08:00			`def forward(self, batch, state=None):`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`if self.dict_state:`
			`return Batch(act=np.ones(batch.obs['index'].shape[0]))`
fix collector 2020-03-25 14:08:28 +08:00			`return Batch(act=np.ones(batch.obs.shape[0]))`

			`def learn(self):`
			`pass`


			`def equal(a, b):`
			`return abs(np.array(a) - np.array(b)).sum() < 1e-6`


env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`class Logger(object):`
			`def __init__(self, writer):`
			`self.cnt = 0`
			`self.writer = writer`

			`def log(self, info):`
			`self.writer.add_scalar('key', info['key'], global_step=self.cnt)`
			`self.cnt += 1`


fix collector 2020-03-25 14:08:28 +08:00			`def test_collector():`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`writer = SummaryWriter('log/collector')`
			`logger = Logger(writer)`
fix collector 2020-03-25 14:08:28 +08:00			`env_fns = [`
			`lambda: MyTestEnv(size=2, sleep=0),`
			`lambda: MyTestEnv(size=3, sleep=0),`
			`lambda: MyTestEnv(size=4, sleep=0),`
			`lambda: MyTestEnv(size=5, sleep=0),`
			`]`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00
fix collector 2020-03-25 14:08:28 +08:00			`venv = SubprocVectorEnv(env_fns)`
			`policy = MyPolicy()`
			`env = env_fns[0]()`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`c0 = Collector(policy, env, ReplayBuffer(size=100, ignore_obs_next=False))`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`c0.collect(n_step=3, log_fn=logger.log)`
fix collector 2020-03-25 14:08:28 +08:00			`assert equal(c0.buffer.obs[:3], [0, 1, 0])`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`assert equal(c0.buffer[:3].obs_next, [1, 2, 1])`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`c0.collect(n_episode=3, log_fn=logger.log)`
fix collector 2020-03-25 14:08:28 +08:00			`assert equal(c0.buffer.obs[:8], [0, 1, 0, 1, 0, 1, 0, 1])`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`assert equal(c0.buffer[:8].obs_next, [1, 2, 1, 2, 1, 2, 1, 2])`
			`c1 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False))`
fix collector 2020-03-25 14:08:28 +08:00			`c1.collect(n_step=6)`
			`assert equal(c1.buffer.obs[:11], [0, 1, 0, 1, 2, 0, 1, 0, 1, 2, 3])`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`assert equal(c1.buffer[:11].obs_next, [1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4])`
fix collector 2020-03-25 14:08:28 +08:00			`c1.collect(n_episode=2)`
			`assert equal(c1.buffer.obs[11:21], [0, 1, 2, 3, 4, 0, 1, 0, 1, 2])`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`assert equal(c1.buffer[11:21].obs_next, [1, 2, 3, 4, 5, 1, 2, 1, 2, 3])`
			`c2 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False))`
fix collector 2020-03-25 14:08:28 +08:00			`c2.collect(n_episode=[1, 2, 2, 2])`
			`assert equal(c2.buffer.obs_next[:26], [`
			`1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5,`
			`1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])`
			`c2.reset_env()`
			`c2.collect(n_episode=[2, 2, 2, 2])`
			`assert equal(c2.buffer.obs_next[26:54], [`
			`1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4, 1, 2, 3, 4, 5,`
			`1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])`


Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`def test_collector_with_dict_state():`
			`env = MyTestEnv(size=5, sleep=0, dict_state=True)`
			`policy = MyPolicy(dict_state=True)`
			`c0 = Collector(policy, env, ReplayBuffer(size=100))`
			`c0.collect(n_step=3)`
			`c0.collect(n_episode=3)`
			`env_fns = [`
			`lambda: MyTestEnv(size=2, sleep=0, dict_state=True),`
			`lambda: MyTestEnv(size=3, sleep=0, dict_state=True),`
			`lambda: MyTestEnv(size=4, sleep=0, dict_state=True),`
			`lambda: MyTestEnv(size=5, sleep=0, dict_state=True),`
			`]`
			`envs = VectorEnv(env_fns)`
			`c1 = Collector(policy, envs, ReplayBuffer(size=100))`
			`c1.collect(n_step=10)`
			`c1.collect(n_episode=[2, 1, 1, 2])`
support Batch of Batch and fix bugs (#38) 2020-04-29 12:14:53 +08:00			`batch = c1.sample(10)`
			`print(batch)`
			`c0.buffer.update(c1.buffer)`
			`assert equal(c0.buffer[:len(c0.buffer)].obs.index, [`
			`0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,`
			`0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,`
			`1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.])`
			`c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4))`
			`c2.collect(n_episode=[0, 0, 0, 10])`
			`batch = c2.sample(10)`
			`print(batch['obs_next']['index'])`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00

fix collector 2020-03-25 14:08:28 +08:00			`if __name__ == '__main__':`
			`test_collector()`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`test_collector_with_dict_state()`