Tianshou/test/base/test_collector.py

import numpy as np
from torch.utils.tensorboard import SummaryWriter

from tianshou.policy import BasePolicy
from tianshou.env import VectorEnv, SubprocVectorEnv
from tianshou.data import Collector, Batch, ReplayBuffer

if __name__ == '__main__':
    from env import MyTestEnv
else:  # pytest
    from test.base.env import MyTestEnv


class MyPolicy(BasePolicy):
    def __init__(self, dict_state=False):
        super().__init__()
        self.dict_state = dict_state

    def forward(self, batch, state=None):
        if self.dict_state:
            return Batch(act=np.ones(len(batch.obs['index'])))
        return Batch(act=np.ones(len(batch.obs)))

    def learn(self):
        pass


def preprocess_fn(**kwargs):
    # modify info before adding into the buffer
    # if info is not provided from env, it will be a ``Batch()``.
    if not kwargs.get('info', Batch()).is_empty():
        n = len(kwargs['obs'])
        info = kwargs['info']
        for i in range(n):
            info[i].update(rew=kwargs['rew'][i])
        return {'info': info}
        # or: return Batch(info=info)
    else:
        return Batch()


class Logger(object):
    def __init__(self, writer):
        self.cnt = 0
        self.writer = writer

    def log(self, info):
        self.writer.add_scalar(
            'key', np.mean(info['key']), global_step=self.cnt)
        self.cnt += 1


def test_collector():
    writer = SummaryWriter('log/collector')
    logger = Logger(writer)
    env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0) for i in [2, 3, 4, 5]]

    venv = SubprocVectorEnv(env_fns)
    dum = VectorEnv(env_fns)
    policy = MyPolicy()
    env = env_fns[0]()
    c0 = Collector(policy, env, ReplayBuffer(size=100, ignore_obs_next=False),
                   preprocess_fn)
    c0.collect(n_step=3, log_fn=logger.log)
    assert np.allclose(c0.buffer.obs[:3], [0, 1, 0])
    assert np.allclose(c0.buffer[:3].obs_next, [1, 2, 1])
    c0.collect(n_episode=3, log_fn=logger.log)
    assert np.allclose(c0.buffer.obs[:8], [0, 1, 0, 1, 0, 1, 0, 1])
    assert np.allclose(c0.buffer[:8].obs_next, [1, 2, 1, 2, 1, 2, 1, 2])
    c0.collect(n_step=3, random=True)
    c1 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False),
                   preprocess_fn)
    c1.collect(n_step=6)
    assert np.allclose(c1.buffer.obs[:11], [0, 1, 0, 1, 2, 0, 1, 0, 1, 2, 3])
    assert np.allclose(c1.buffer[:11].obs_next,
                       [1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4])
    c1.collect(n_episode=2)
    assert np.allclose(c1.buffer.obs[11:21], [0, 1, 2, 3, 4, 0, 1, 0, 1, 2])
    assert np.allclose(c1.buffer[11:21].obs_next,
                       [1, 2, 3, 4, 5, 1, 2, 1, 2, 3])
    c1.collect(n_episode=3, random=True)
    c2 = Collector(policy, dum, ReplayBuffer(size=100, ignore_obs_next=False),
                   preprocess_fn)
    c2.collect(n_episode=[1, 2, 2, 2])
    assert np.allclose(c2.buffer.obs_next[:26], [
        1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5,
        1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])
    c2.reset_env()
    c2.collect(n_episode=[2, 2, 2, 2])
    assert np.allclose(c2.buffer.obs_next[26:54], [
        1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4, 1, 2, 3, 4, 5,
        1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])
    c2.collect(n_episode=[1, 1, 1, 1], random=True)


def test_collector_with_dict_state():
    env = MyTestEnv(size=5, sleep=0, dict_state=True)
    policy = MyPolicy(dict_state=True)
    c0 = Collector(policy, env, ReplayBuffer(size=100), preprocess_fn)
    c0.collect(n_step=3)
    c0.collect(n_episode=3)
    env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0, dict_state=True)
               for i in [2, 3, 4, 5]]
    envs = VectorEnv(env_fns)
    c1 = Collector(policy, envs, ReplayBuffer(size=100), preprocess_fn)
    c1.collect(n_step=10)
    c1.collect(n_episode=[2, 1, 1, 2])
    batch = c1.sample(10)
    print(batch)
    c0.buffer.update(c1.buffer)
    assert np.allclose(c0.buffer[:len(c0.buffer)].obs.index, [
        0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,
        0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,
        1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.])
    c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4),
                   preprocess_fn)
    c2.collect(n_episode=[0, 0, 0, 10])
    batch = c2.sample(10)
    print(batch['obs_next']['index'])


def test_collector_with_ma():
    def reward_metric(x):
        return x.sum()
    env = MyTestEnv(size=5, sleep=0, ma_rew=4)
    policy = MyPolicy()
    c0 = Collector(policy, env, ReplayBuffer(size=100),
                   preprocess_fn, reward_metric=reward_metric)
    r = c0.collect(n_step=3)['rew']
    assert np.asanyarray(r).size == 1 and r == 0.
    r = c0.collect(n_episode=3)['rew']
    assert np.asanyarray(r).size == 1 and r == 4.
    env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0, ma_rew=4)
               for i in [2, 3, 4, 5]]
    envs = VectorEnv(env_fns)
    c1 = Collector(policy, envs, ReplayBuffer(size=100),
                   preprocess_fn, reward_metric=reward_metric)
    r = c1.collect(n_step=10)['rew']
    assert np.asanyarray(r).size == 1 and r == 4.
    r = c1.collect(n_episode=[2, 1, 1, 2])['rew']
    assert np.asanyarray(r).size == 1 and r == 4.
    batch = c1.sample(10)
    print(batch)
    c0.buffer.update(c1.buffer)
    obs = [
        0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,
        0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,
        1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.]
    assert np.allclose(c0.buffer[:len(c0.buffer)].obs, obs)
    rew = [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1,
           0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0,
           0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1]
    assert np.allclose(c0.buffer[:len(c0.buffer)].rew,
                       [[x] * 4 for x in rew])
    c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4),
                   preprocess_fn, reward_metric=reward_metric)
    r = c2.collect(n_episode=[0, 0, 0, 10])['rew']
    assert np.asanyarray(r).size == 1 and r == 4.
    batch = c2.sample(10)
    print(batch['obs_next'])


if __name__ == '__main__':
    test_collector()
    test_collector_with_dict_state()
    test_collector_with_ma()
fix collector 2020-03-25 14:08:28 +08:00			`import numpy as np`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`from torch.utils.tensorboard import SummaryWriter`

fix collector 2020-03-25 14:08:28 +08:00			`from tianshou.policy import BasePolicy`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`from tianshou.env import VectorEnv, SubprocVectorEnv`
add ignore_obs_next in buffer 2020-04-10 09:01:17 +08:00			`from tianshou.data import Collector, Batch, ReplayBuffer`
fix collector 2020-03-25 14:08:28 +08:00
			`if __name__ == '__main__':`
			`from env import MyTestEnv`
			`else: # pytest`
			`from test.base.env import MyTestEnv`


			`class MyPolicy(BasePolicy):`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`def __init__(self, dict_state=False):`
fix collector 2020-03-25 14:08:28 +08:00			`super().__init__()`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`self.dict_state = dict_state`
fix collector 2020-03-25 14:08:28 +08:00
__call__ -> forward 2020-04-10 10:47:16 +08:00			`def forward(self, batch, state=None):`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`if self.dict_state:`
Batch refactoring (#87) * Enable to stack Batch instances. Add Batch cat static method. Rename cat in cat_ since inplace. * Properly handle Batch init using np.array of dict. * WIP * Get rid of metadata. * Update UT. Replace cat by cat_ everywhere. * Do not sort Batch keys anymore for efficiency. Add items method. * Fix cat copy issue. * Add unit test to chack cat and stack methods. * Remove used import. * Fix linter issues. * Fix unit tests. Co-authored-by: Alexis Duburcq <alexis.duburcq@wandercraft.eu> 2020-06-23 16:50:59 +02:00			`return Batch(act=np.ones(len(batch.obs['index'])))`
			`return Batch(act=np.ones(len(batch.obs)))`
fix collector 2020-03-25 14:08:28 +08:00
			`def learn(self):`
			`pass`


add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`def preprocess_fn(**kwargs):`
			`# modify info before adding into the buffer`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			# if info is not provided from env, it will be a ``Batch()``.
			`if not kwargs.get('info', Batch()).is_empty():`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`n = len(kwargs['obs'])`
			`info = kwargs['info']`
			`for i in range(n):`
			`info[i].update(rew=kwargs['rew'][i])`
			`return {'info': info}`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`# or: return Batch(info=info)`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`else:`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`return Batch()`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00

env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`class Logger(object):`
			`def __init__(self, writer):`
			`self.cnt = 0`
			`self.writer = writer`

			`def log(self, info):`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`self.writer.add_scalar(`
			`'key', np.mean(info['key']), global_step=self.cnt)`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`self.cnt += 1`


fix collector 2020-03-25 14:08:28 +08:00			`def test_collector():`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`writer = SummaryWriter('log/collector')`
			`logger = Logger(writer)`
fix a bug of storing batch over batch data into buffer 2020-06-09 18:46:14 +08:00			`env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0) for i in [2, 3, 4, 5]]`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00
fix collector 2020-03-25 14:08:28 +08:00			`venv = SubprocVectorEnv(env_fns)`
add random action in collector (fix #78) 2020-06-11 08:57:37 +08:00			`dum = VectorEnv(env_fns)`
fix collector 2020-03-25 14:08:28 +08:00			`policy = MyPolicy()`
			`env = env_fns[0]()`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`c0 = Collector(policy, env, ReplayBuffer(size=100, ignore_obs_next=False),`
			`preprocess_fn)`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`c0.collect(n_step=3, log_fn=logger.log)`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c0.buffer.obs[:3], [0, 1, 0])`
			`assert np.allclose(c0.buffer[:3].obs_next, [1, 2, 1])`
env info log_fn (#28) 2020-04-10 18:02:05 +08:00			`c0.collect(n_episode=3, log_fn=logger.log)`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c0.buffer.obs[:8], [0, 1, 0, 1, 0, 1, 0, 1])`
			`assert np.allclose(c0.buffer[:8].obs_next, [1, 2, 1, 2, 1, 2, 1, 2])`
add random action in collector (fix #78) 2020-06-11 08:57:37 +08:00			`c0.collect(n_step=3, random=True)`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`c1 = Collector(policy, venv, ReplayBuffer(size=100, ignore_obs_next=False),`
			`preprocess_fn)`
fix collector 2020-03-25 14:08:28 +08:00			`c1.collect(n_step=6)`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c1.buffer.obs[:11], [0, 1, 0, 1, 2, 0, 1, 0, 1, 2, 3])`
			`assert np.allclose(c1.buffer[:11].obs_next,`
			`[1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4])`
fix collector 2020-03-25 14:08:28 +08:00			`c1.collect(n_episode=2)`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c1.buffer.obs[11:21], [0, 1, 2, 3, 4, 0, 1, 0, 1, 2])`
			`assert np.allclose(c1.buffer[11:21].obs_next,`
			`[1, 2, 3, 4, 5, 1, 2, 1, 2, 3])`
add random action in collector (fix #78) 2020-06-11 08:57:37 +08:00			`c1.collect(n_episode=3, random=True)`
			`c2 = Collector(policy, dum, ReplayBuffer(size=100, ignore_obs_next=False),`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`preprocess_fn)`
fix collector 2020-03-25 14:08:28 +08:00			`c2.collect(n_episode=[1, 2, 2, 2])`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c2.buffer.obs_next[:26], [`
fix collector 2020-03-25 14:08:28 +08:00			`1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5,`
			`1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])`
			`c2.reset_env()`
			`c2.collect(n_episode=[2, 2, 2, 2])`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c2.buffer.obs_next[26:54], [`
fix collector 2020-03-25 14:08:28 +08:00			`1, 2, 1, 2, 3, 1, 2, 1, 2, 3, 4, 1, 2, 3, 4, 5,`
			`1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5])`
add random action in collector (fix #78) 2020-06-11 08:57:37 +08:00			`c2.collect(n_episode=[1, 1, 1, 1], random=True)`
fix collector 2020-03-25 14:08:28 +08:00

Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`def test_collector_with_dict_state():`
			`env = MyTestEnv(size=5, sleep=0, dict_state=True)`
			`policy = MyPolicy(dict_state=True)`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`c0 = Collector(policy, env, ReplayBuffer(size=100), preprocess_fn)`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`c0.collect(n_step=3)`
			`c0.collect(n_episode=3)`
fix a bug of storing batch over batch data into buffer 2020-06-09 18:46:14 +08:00			`env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0, dict_state=True)`
			`for i in [2, 3, 4, 5]]`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`envs = VectorEnv(env_fns)`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`c1 = Collector(policy, envs, ReplayBuffer(size=100), preprocess_fn)`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`c1.collect(n_step=10)`
			`c1.collect(n_episode=[2, 1, 1, 2])`
support Batch of Batch and fix bugs (#38) 2020-04-29 12:14:53 +08:00			`batch = c1.sample(10)`
			`print(batch)`
			`c0.buffer.update(c1.buffer)`
cheat sheet 2020-06-08 21:53:00 +08:00			`assert np.allclose(c0.buffer[:len(c0.buffer)].obs.index, [`
support Batch of Batch and fix bugs (#38) 2020-04-29 12:14:53 +08:00			`0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,`
			`0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,`
			`1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.])`
add preprocess_fn (#42) 2020-05-05 13:39:51 +08:00			`c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4),`
			`preprocess_fn)`
support Batch of Batch and fix bugs (#38) 2020-04-29 12:14:53 +08:00			`c2.collect(n_episode=[0, 0, 0, 10])`
			`batch = c2.sample(10)`
			`print(batch['obs_next']['index'])`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00

Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`def test_collector_with_ma():`
			`def reward_metric(x):`
			`return x.sum()`
			`env = MyTestEnv(size=5, sleep=0, ma_rew=4)`
			`policy = MyPolicy()`
			`c0 = Collector(policy, env, ReplayBuffer(size=100),`
			`preprocess_fn, reward_metric=reward_metric)`
			`r = c0.collect(n_step=3)['rew']`
			`assert np.asanyarray(r).size == 1 and r == 0.`
			`r = c0.collect(n_episode=3)['rew']`
			`assert np.asanyarray(r).size == 1 and r == 4.`
			`env_fns = [lambda x=i: MyTestEnv(size=x, sleep=0, ma_rew=4)`
			`for i in [2, 3, 4, 5]]`
			`envs = VectorEnv(env_fns)`
			`c1 = Collector(policy, envs, ReplayBuffer(size=100),`
			`preprocess_fn, reward_metric=reward_metric)`
			`r = c1.collect(n_step=10)['rew']`
			`assert np.asanyarray(r).size == 1 and r == 4.`
			`r = c1.collect(n_episode=[2, 1, 1, 2])['rew']`
			`assert np.asanyarray(r).size == 1 and r == 4.`
			`batch = c1.sample(10)`
			`print(batch)`
			`c0.buffer.update(c1.buffer)`
			`obs = [`
			`0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1., 2., 3., 4., 0., 1.,`
			`0., 1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4., 0., 1., 0.,`
			`1., 2., 0., 1., 0., 1., 2., 3., 0., 1., 2., 3., 4.]`
			`assert np.allclose(c0.buffer[:len(c0.buffer)].obs, obs)`
			`rew = [0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1,`
			`0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0,`
			`0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1]`
			`assert np.allclose(c0.buffer[:len(c0.buffer)].rew,`
			`[[x] * 4 for x in rew])`
			`c2 = Collector(policy, envs, ReplayBuffer(size=100, stack_num=4),`
			`preprocess_fn, reward_metric=reward_metric)`
			`r = c2.collect(n_episode=[0, 0, 0, 10])['rew']`
			`assert np.asanyarray(r).size == 1 and r == 4.`
			`batch = c2.sample(10)`
			`print(batch['obs_next'])`


fix collector 2020-03-25 14:08:28 +08:00			`if __name__ == '__main__':`
			`test_collector()`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`test_collector_with_dict_state()`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`test_collector_with_ma()`