Add profile workflow (#143)

* add a workflow to profile batch * buffer profiling * collector profiling Co-authored-by: Trinkle23897 <463003665@qq.com> Co-authored-by: Huayu Chen(陈华玉) <chenhuay17@gamil.com>
2020-08-02 18:24:40 +08:00 · 2020-08-02 18:24:40 +08:00 · 996e2f7c9b
commit 996e2f7c9b
parent 32df0567bb
6 changed files with 392 additions and 1 deletions
--- a/.github/workflows/profile.yml
+++ b/.github/workflows/profile.yml
@ -0,0 +1,22 @@
 name: Data Profile
 on: [push, pull_request]
 jobs:
  build:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v2
    - name: Set up Python 3.8
      uses: actions/setup-python@v2
      with:
        python-version: 3.8
    - name: Upgrade pip
      run: |
        python -m pip install --upgrade pip setuptools wheel
    - name: Install dependencies
      run: |
        pip install ".[dev]" --upgrade
    - name: Test with pytest
      run: |
        pytest test/throughput --durations=0 -v
--- a/.github/workflows/pytest.yml
+++ b/.github/workflows/pytest.yml
@ -28,8 +28,9 @@ jobs:
      run: |
        pip install ".[dev]" --upgrade
    - name: Test with pytest
      # ignore test/throughput which only profiles the code
      run: |
-        pytest test --cov tianshou --cov-report=xml --durations 0 -v
+        pytest test --ignore-glob='*profile.py' --cov=tianshou --cov-report=xml --durations=0 -v
    - name: Upload coverage to Codecov
      uses: codecov/codecov-action@v1
      with:
--- a/test/throughput/init.py
+++ b/test/throughput/init.py
--- a/test/throughput/test_batch_profile.py
+++ b/test/throughput/test_batch_profile.py
@ -0,0 +1,120 @@
 import copy
 import pickle
 import numpy as np
 import pytest
 import torch
 from tianshou.data import Batch
@pytest.fixture(scope="module")
 def data():
    print("Initialising data...")
    np.random.seed(0)
    batch_set = [Batch(a=[j for j in np.arange(1e3)],
                       b={'b1': (3.14, 3.14), 'b2': np.arange(1e3)},
                       c=i) for i in np.arange(int(1e4))]
    batch0 = Batch(
        a=np.ones((3, 4), dtype=np.float64),
        b=Batch(
            c=np.ones((1,), dtype=np.float64),
            d=torch.ones((3, 3, 3), dtype=torch.float32),
            e=list(range(3))
        )
    )
    batchs1 = [copy.deepcopy(batch0) for _ in np.arange(1e4)]
    batchs2 = [copy.deepcopy(batch0) for _ in np.arange(1e4)]
    batch_len = int(1e4)
    batch3 = Batch(obs=[np.arange(20) for _ in np.arange(batch_len)],
                   reward=np.arange(batch_len))
    indexs = np.random.choice(batch_len,
                              size=batch_len//10, replace=False)
    slice_dict = {'obs': [np.arange(20)
                          for _ in np.arange(batch_len//10)],
                  'reward': np.arange(batch_len//10)}
    dict_set = [{'obs': np.arange(20), 'info': "this is info", 'reward': 0}
                for _ in np.arange(1e2)]
    batch4 = Batch(
        a=np.ones((10000, 4), dtype=np.float64),
        b=Batch(
            c=np.ones((1,), dtype=np.float64),
            d=torch.ones((1000, 1000), dtype=torch.float32),
            e=np.arange(1000)
        )
    )
    print("Initialised")
    return {'batch_set': batch_set,
            'batch0': batch0,
            'batchs1': batchs1,
            'batchs2': batchs2,
            'batch3': batch3,
            'indexs': indexs,
            'dict_set': dict_set,
            'slice_dict': slice_dict,
            'batch4': batch4
            }
 def test_init(data):
    """Test Batch __init__()."""
    for _ in np.arange(10):
        _ = Batch(data['batch_set'])
 def test_get_item(data):
    """Test get with item."""
    for _ in np.arange(1e5):
        _ = data['batch3'][data['indexs']]
 def test_get_attr(data):
    """Test get with attr."""
    for _ in np.arange(1e6):
        data['batch3'].get('obs')
        data['batch3'].get('reward')
        _, _ = data['batch3'].obs, data['batch3'].reward
 def test_set_item(data):
    """Test set with item."""
    for _ in np.arange(1e4):
        data['batch3'][data['indexs']] = data['slice_dict']
 def test_set_attr(data):
    """Test set with attr."""
    for _ in np.arange(1e4):
        data['batch3'].c = np.arange(1e3)
        data['batch3'].obs = data['dict_set']
 def test_numpy_torch_convert(data):
    """Test conversion between numpy and torch."""
    for _ in np.arange(1e5):
        data['batch4'].to_torch()
        data['batch4'].to_numpy()
 def test_pickle(data):
    for _ in np.arange(1e4):
        pickle.loads(pickle.dumps(data['batch4']))
 def test_cat(data):
    """Test cat"""
    for i in range(10000):
        Batch.cat((data['batch0'], data['batch0']))
        data['batchs1'][i].cat_(data['batch0'])
 def test_stack(data):
    """Test stack"""
    for i in range(10000):
        Batch.stack((data['batch0'], data['batch0']))
        data['batchs2'][i].stack_([data['batch0']])
 if __name__ == '__main__':
    pytest.main(["-s", "-k batch_profile", "--durations=0", "-v"])
--- a/test/throughput/test_buffer_profile.py
+++ b/test/throughput/test_buffer_profile.py
@ -0,0 +1,81 @@
 import numpy as np
 import pytest
 from tianshou.data import (ListReplayBuffer, PrioritizedReplayBuffer,
                           ReplayBuffer)
@pytest.fixture(scope="module")
 def data():
    np.random.seed(0)
    obs = {'observable': np.random.rand(
        100, 100), 'hidden': np.random.randint(1000, size=200)}
    info = {'policy': "dqn", 'base': np.arange(10)}
    add_data = {'obs': obs, 'rew': 1., 'act': np.random.rand(30),
                'done': False, 'obs_next': obs, 'info': info}
    buffer = ReplayBuffer(int(1e3), stack_num=100)
    buffer2 = ReplayBuffer(int(1e4), stack_num=100)
    indexes = np.random.choice(int(1e3), size=3, replace=False)
    return{
        'add_data': add_data,
        'buffer': buffer,
        'buffer2': buffer2,
        'slice': slice(-3000, -1000, 2),
        'indexes': indexes
    }
 def test_init():
    for _ in np.arange(1e5):
        _ = ReplayBuffer(1e5)
        _ = PrioritizedReplayBuffer(
            size=int(1e5), alpha=0.5,
            beta=0.5, repeat_sample=True)
        _ = ListReplayBuffer()
 def test_add(data):
    buffer = data['buffer']
    for _ in np.arange(1e5):
        buffer.add(**data['add_data'])
 def test_update(data):
    buffer = data['buffer']
    buffer2 = data['buffer2']
    for _ in np.arange(1e2):
        buffer2.update(buffer)
 def test_getitem_slice(data):
    Slice = data['slice']
    buffer = data['buffer']
    for _ in np.arange(1e3):
        _ = buffer[Slice]
 def test_getitem_indexes(data):
    indexes = data['indexes']
    buffer = data['buffer']
    for _ in np.arange(1e2):
        _ = buffer[indexes]
 def test_get(data):
    indexes = data['indexes']
    buffer = data['buffer']
    for _ in np.arange(3e2):
        buffer.get(indexes, 'obs')
        buffer.get(indexes, 'rew')
        buffer.get(indexes, 'done')
        buffer.get(indexes, 'info')
 def test_sample(data):
    buffer = data['buffer']
    for _ in np.arange(1e1):
        buffer.sample(int(1e2))
 if __name__ == '__main__':
    pytest.main(["-s", "-k buffer_profile", "--durations=0", "-v"])
--- a/test/throughput/test_collector_profile.py
+++ b/test/throughput/test_collector_profile.py
@ -0,0 +1,167 @@
 import gym
 import numpy as np
 import pytest
 from gym.spaces.discrete import Discrete
 from gym.utils import seeding
 from tianshou.data import Batch, Collector, ReplayBuffer
 from tianshou.env import VectorEnv, SubprocVectorEnv
 from tianshou.policy import BasePolicy
 class SimpleEnv(gym.Env):
    """A simplest example of self-defined env, used to minimize
    data collect time and profile collector."""
    def __init__(self):
        self.action_space = Discrete(200)
        self._fake_data = np.ones((10, 10, 1))
        self.seed(0)
        self.reset()
    def reset(self):
        self._index = 0
        self.done = np.random.randint(3, high=200)
        return {'observable': np.zeros((10, 10, 1)),
                'hidden': self._index}
    def step(self, action):
        if self._index == self.done:
            raise ValueError('step after done !!!')
        self._index += 1
        return {'observable': self._fake_data, 'hidden': self._index}, -1, \
            self._index == self.done, {}
    def seed(self, seed=None):
        self.np_random, seed = seeding.np_random(seed)
        return [seed]
 class SimplePolicy(BasePolicy):
    """A simplest example of self-defined policy, used
    to minimize data collect time."""
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
    def learn(self, batch, **kwargs):
        return super().learn(batch, **kwargs)
    def forward(self, batch, state=None, **kwargs):
        return Batch(act=np.array([30]*len(batch)), state=None, logits=None)
@pytest.fixture(scope="module")
 def data():
    np.random.seed(0)
    env = SimpleEnv()
    env.seed(0)
    env_vec = VectorEnv(
        [lambda: SimpleEnv() for _ in range(100)])
    env_vec.seed(np.random.randint(1000, size=100).tolist())
    env_subproc = SubprocVectorEnv(
        [lambda: SimpleEnv() for _ in range(8)])
    env_subproc.seed(np.random.randint(1000, size=100).tolist())
    env_subproc_init = SubprocVectorEnv(
        [lambda: SimpleEnv() for _ in range(8)])
    env_subproc_init.seed(np.random.randint(1000, size=100).tolist())
    buffer = ReplayBuffer(50000)
    policy = SimplePolicy()
    collector = Collector(policy, env, ReplayBuffer(50000))
    collector_vec = Collector(policy, env_vec, ReplayBuffer(50000))
    collector_subproc = Collector(policy, env_subproc, ReplayBuffer(50000))
    return{
        "env": env,
        "env_vec": env_vec,
        "env_subproc": env_subproc,
        "env_subproc_init": env_subproc_init,
        "policy": policy,
        "buffer": buffer,
        "collector": collector,
        "collector_vec": collector_vec,
        "collector_subproc": collector_subproc
        }
 def test_init(data):
    for _ in range(5000):
        c = Collector(data["policy"], data["env"], data["buffer"])
        c.close()
 def test_reset(data):
    for _ in range(5000):
        data["collector"].reset()
 def test_collect_st(data):
    for _ in range(50):
        data["collector"].collect(n_step=1000)
 def test_collect_ep(data):
    for _ in range(50):
        data["collector"].collect(n_episode=10)
 def test_sample(data):
    for _ in range(5000):
        data["collector"].sample(256)
 def test_init_vec_env(data):
    for _ in range(5000):
        c = Collector(data["policy"], data["env_vec"], data["buffer"])
        c.close()
 def test_reset_vec_env(data):
    for _ in range(5000):
        data["collector_vec"].reset()
 def test_collect_vec_env_st(data):
    for _ in range(50):
        data["collector_vec"].collect(n_step=1000)
 def test_collect_vec_env_ep(data):
    for _ in range(50):
        data["collector_vec"].collect(n_episode=10)
 def test_sample_vec_env(data):
    for _ in range(5000):
        data["collector_vec"].sample(256)
 def test_init_subproc_env(data):
    for _ in range(5000):
        c = Collector(data["policy"], data["env_subproc_init"], data["buffer"])
        """TODO: This should be changed to c.close() in theory,
        but currently subproc_env doesn't support that."""
        c.reset()
 def test_reset_subproc_env(data):
    for _ in range(5000):
        data["collector_subproc"].reset()
 def test_collect_subproc_env_st(data):
    for _ in range(50):
        data["collector_subproc"].collect(n_step=1000)
 def test_collect_subproc_env_ep(data):
    for _ in range(50):
        data["collector_subproc"].collect(n_episode=10)
 def test_sample_subproc_env(data):
    for _ in range(5000):
        data["collector_subproc"].sample(256)
 if __name__ == '__main__':
    pytest.main(["-s", "-k collector_profile", "--durations=0", "-v"])