Tianshou/tianshou/data/collector.py

import time
import torch
import numpy as np
from copy import deepcopy

from tianshou.env import BaseVectorEnv
from tianshou.data import Batch, ReplayBuffer
from tianshou.utils import MovAvg


class Collector(object):
    """docstring for Collector"""

    def __init__(self, policy, env, buffer=None, stat_size=100):
        super().__init__()
        self.env = env
        self.env_num = 1
        self.collect_step = 0
        self.collect_episode = 0
        self.collect_time = 0
        if buffer is None:
            self.buffer = ReplayBuffer(20000)
        else:
            self.buffer = buffer
        self.policy = policy
        self.process_fn = policy.process_fn
        self._multi_env = isinstance(env, BaseVectorEnv)
        self._multi_buf = False  # True if buf is a list
        # need multiple cache buffers only if storing in one buffer
        self._cached_buf = []
        if self._multi_env:
            self.env_num = len(env)
            if isinstance(self.buffer, list):
                assert len(self.buffer) == self.env_num, \
                    'The number of data buffer does not match the number of ' \
                    'input env.'
                self._multi_buf = True
            elif isinstance(self.buffer, ReplayBuffer):
                self._cached_buf = [
                    deepcopy(self.buffer) for _ in range(self.env_num)]
            else:
                raise TypeError('The buffer in data collector is invalid!')
        self.reset_env()
        self.reset_buffer()
        # state over batch is either a list, an np.ndarray, or a torch.Tensor
        self.state = None
        self.step_speed = MovAvg(stat_size)
        self.episode_speed = MovAvg(stat_size)

    def reset_buffer(self):
        if self._multi_buf:
            for b in self.buffer:
                b.reset()
        else:
            self.buffer.reset()

    def get_env_num(self):
        return self.env_num

    def reset_env(self):
        self._obs = self.env.reset()
        self._act = self._rew = self._done = self._info = None
        if self._multi_env:
            self.reward = np.zeros(self.env_num)
            self.length = np.zeros(self.env_num)
        else:
            self.reward, self.length = 0, 0
        for b in self._cached_buf:
            b.reset()

    def seed(self, seed=None):
        if hasattr(self.env, 'seed'):
            return self.env.seed(seed)

    def render(self, **kwargs):
        if hasattr(self.env, 'render'):
            return self.env.render(**kwargs)

    def close(self):
        if hasattr(self.env, 'close'):
            self.env.close()

    def _make_batch(self, data):
        if isinstance(data, np.ndarray):
            return data[None]
        else:
            return np.array([data])

    def collect(self, n_step=0, n_episode=0, render=0):
        if not self._multi_env:
            n_episode = np.sum(n_episode)
        start_time = time.time()
        assert sum([(n_step != 0), (n_episode != 0)]) == 1, \
            "One and only one collection number specification permitted!"
        cur_step = 0
        cur_episode = np.zeros(self.env_num) if self._multi_env else 0
        reward_sum = 0
        length_sum = 0
        while True:
            if self._multi_env:
                batch_data = Batch(
                    obs=self._obs, act=self._act, rew=self._rew,
                    done=self._done, obs_next=None, info=self._info)
            else:
                batch_data = Batch(
                    obs=self._make_batch(self._obs),
                    act=self._make_batch(self._act),
                    rew=self._make_batch(self._rew),
                    done=self._make_batch(self._done),
                    obs_next=None,
                    info=self._make_batch(self._info))
            result = self.policy(batch_data, self.state)
            self.state = result.state if hasattr(result, 'state') else None
            if isinstance(result.act, torch.Tensor):
                self._act = result.act.detach().cpu().numpy()
            elif not isinstance(self._act, np.ndarray):
                self._act = np.array(result.act)
            else:
                self._act = result.act
            obs_next, self._rew, self._done, self._info = self.env.step(
                self._act if self._multi_env else self._act[0])
            if render > 0:
                self.env.render()
                time.sleep(render)
            self.length += 1
            self.reward += self._rew
            if self._multi_env:
                for i in range(self.env_num):
                    data = {
                        'obs': self._obs[i], 'act': self._act[i],
                        'rew': self._rew[i], 'done': self._done[i],
                        'obs_next': obs_next[i], 'info': self._info[i]}
                    if self._cached_buf:
                        self._cached_buf[i].add(**data)
                    elif self._multi_buf:
                        self.buffer[i].add(**data)
                        cur_step += 1
                    else:
                        self.buffer.add(**data)
                        cur_step += 1
                    if self._done[i]:
                        if n_step != 0 or np.isscalar(n_episode) or \
                                cur_episode[i] < n_episode[i]:
                            cur_episode[i] += 1
                            reward_sum += self.reward[i]
                            length_sum += self.length[i]
                            if self._cached_buf:
                                cur_step += len(self._cached_buf[i])
                                self.buffer.update(self._cached_buf[i])
                        self.reward[i], self.length[i] = 0, 0
                        if self._cached_buf:
                            self._cached_buf[i].reset()
                        if isinstance(self.state, list):
                            self.state[i] = None
                        elif self.state is not None:
                            if isinstance(self.state[i], dict):
                                self.state[i] = {}
                            else:
                                self.state[i] = self.state[i] * 0
                            if isinstance(self.state, torch.Tensor):
                                # remove ref count in pytorch (?)
                                self.state = self.state.detach()
                if sum(self._done):
                    obs_next = self.env.reset(np.where(self._done)[0])
                if n_episode != 0:
                    if isinstance(n_episode, list) and \
                            (cur_episode >= np.array(n_episode)).all() or \
                            np.isscalar(n_episode) and \
                            cur_episode.sum() >= n_episode:
                        break
            else:
                self.buffer.add(
                    self._obs, self._act[0], self._rew,
                    self._done, obs_next, self._info)
                cur_step += 1
                if self._done:
                    cur_episode += 1
                    reward_sum += self.reward
                    length_sum += self.length
                    self.reward, self.length = 0, 0
                    self.state = None
                    obs_next = self.env.reset()
                if n_episode != 0 and cur_episode >= n_episode:
                    break
            if n_step != 0 and cur_step >= n_step:
                break
            self._obs = obs_next
        self._obs = obs_next
        if self._multi_env:
            cur_episode = sum(cur_episode)
        duration = time.time() - start_time
        self.step_speed.add(cur_step / duration)
        self.episode_speed.add(cur_episode / duration)
        self.collect_step += cur_step
        self.collect_episode += cur_episode
        self.collect_time += duration
        if isinstance(n_episode, list):
            n_episode = np.sum(n_episode)
        else:
            n_episode = max(cur_episode, 1)
        return {
            'n/ep': cur_episode,
            'n/st': cur_step,
            'v/st': self.step_speed.get(),
            'v/ep': self.episode_speed.get(),
            'rew': reward_sum / n_episode,
            'len': length_sum / n_episode,
        }

    def sample(self, batch_size):
        if self._multi_buf:
            if batch_size > 0:
                lens = [len(b) for b in self.buffer]
                total = sum(lens)
                batch_index = np.random.choice(
                    total, batch_size, p=np.array(lens) / total)
            else:
                batch_index = np.array([])
            batch_data = Batch()
            for i, b in enumerate(self.buffer):
                cur_batch = (batch_index == i).sum()
                if batch_size and cur_batch or batch_size <= 0:
                    batch, indice = b.sample(cur_batch)
                    batch = self.process_fn(batch, b, indice)
                    batch_data.append(batch)
        else:
            batch_data, indice = self.buffer.sample(batch_size)
            batch_data = self.process_fn(batch_data, self.buffer, indice)
        return batch_data
fix some bugs 2020-03-16 11:11:29 +08:00			`import time`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`import torch`
half of collector 2020-03-12 22:20:33 +08:00			`import numpy as np`
			`from copy import deepcopy`

			`from tianshou.env import BaseVectorEnv`
			`from tianshou.data import Batch, ReplayBuffer`
			`from tianshou.utils import MovAvg`

maybe finished collector? 2020-03-13 17:49:22 +08:00
half of collector 2020-03-12 22:20:33 +08:00			`class Collector(object):`
			`"""docstring for Collector"""`
maybe finished collector? 2020-03-13 17:49:22 +08:00
fix collector 2020-03-25 14:08:28 +08:00			`def __init__(self, policy, env, buffer=None, stat_size=100):`
half of collector 2020-03-12 22:20:33 +08:00			`super().__init__()`
			`self.env = env`
			`self.env_num = 1`
add speed stat 2020-03-16 15:04:58 +08:00			`self.collect_step = 0`
add trainer 2020-03-19 17:23:46 +08:00			`self.collect_episode = 0`
ppo and early stop 2020-03-20 19:52:29 +08:00			`self.collect_time = 0`
fix collector 2020-03-25 14:08:28 +08:00			`if buffer is None:`
			`self.buffer = ReplayBuffer(20000)`
			`else:`
			`self.buffer = buffer`
half of collector 2020-03-12 22:20:33 +08:00			`self.policy = policy`
			`self.process_fn = policy.process_fn`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self._multi_env = isinstance(env, BaseVectorEnv)`
ddpg 2020-03-18 21:45:41 +08:00			`self._multi_buf = False # True if buf is a list`
finish dqn 2020-03-15 17:41:00 +08:00			`# need multiple cache buffers only if storing in one buffer`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self._cached_buf = []`
			`if self._multi_env:`
half of collector 2020-03-12 22:20:33 +08:00			`self.env_num = len(env)`
			`if isinstance(self.buffer, list):`
minor reformat (#2) * update atari.py * fix setup.py pass the pytest * fix setup.py pass the pytest 2020-03-26 09:01:20 +08:00			`assert len(self.buffer) == self.env_num, \`
			`'The number of data buffer does not match the number of ' \`
finish dqn 2020-03-15 17:41:00 +08:00			`'input env.'`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self._multi_buf = True`
finish dqn 2020-03-15 17:41:00 +08:00			`elif isinstance(self.buffer, ReplayBuffer):`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self._cached_buf = [`
fix collector 2020-03-25 14:08:28 +08:00			`deepcopy(self.buffer) for _ in range(self.env_num)]`
half of collector 2020-03-12 22:20:33 +08:00			`else:`
			`raise TypeError('The buffer in data collector is invalid!')`
			`self.reset_env()`
finish dqn 2020-03-15 17:41:00 +08:00			`self.reset_buffer()`
			`# state over batch is either a list, an np.ndarray, or a torch.Tensor`
half of collector 2020-03-12 22:20:33 +08:00			`self.state = None`
add trainer 2020-03-19 17:23:46 +08:00			`self.step_speed = MovAvg(stat_size)`
			`self.episode_speed = MovAvg(stat_size)`
half of collector 2020-03-12 22:20:33 +08:00
finish dqn 2020-03-15 17:41:00 +08:00			`def reset_buffer(self):`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if self._multi_buf:`
half of collector 2020-03-12 22:20:33 +08:00			`for b in self.buffer:`
			`b.reset()`
			`else:`
			`self.buffer.reset()`

add pytorch drl result 2020-03-27 09:04:29 +08:00			`def get_env_num(self):`
			`return self.env_num`

half of collector 2020-03-12 22:20:33 +08:00			`def reset_env(self):`
			`self._obs = self.env.reset()`
			`self._act = self._rew = self._done = self._info = None`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if self._multi_env:`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`self.reward = np.zeros(self.env_num)`
			`self.length = np.zeros(self.env_num)`
			`else:`
			`self.reward, self.length = 0, 0`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`for b in self._cached_buf:`
			`b.reset()`

finish dqn 2020-03-15 17:41:00 +08:00			`def seed(self, seed=None):`
			`if hasattr(self.env, 'seed'):`
fix collector 2020-03-25 14:08:28 +08:00			`return self.env.seed(seed)`
finish dqn 2020-03-15 17:41:00 +08:00
ddpg 2020-03-18 21:45:41 +08:00			`def render(self, **kwargs):`
finish dqn 2020-03-15 17:41:00 +08:00			`if hasattr(self.env, 'render'):`
fix collector 2020-03-25 14:08:28 +08:00			`return self.env.render(**kwargs)`
finish dqn 2020-03-15 17:41:00 +08:00
			`def close(self):`
			`if hasattr(self.env, 'close'):`
			`self.env.close()`

fix some bugs 2020-03-16 11:11:29 +08:00			`def _make_batch(self, data):`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if isinstance(data, np.ndarray):`
			`return data[None]`
			`else:`
fix collector 2020-03-25 14:08:28 +08:00			`return np.array([data])`
half of collector 2020-03-12 22:20:33 +08:00
fix some bugs 2020-03-16 11:11:29 +08:00			`def collect(self, n_step=0, n_episode=0, render=0):`
fix collector 2020-03-25 14:08:28 +08:00			`if not self._multi_env:`
			`n_episode = np.sum(n_episode)`
add speed stat 2020-03-16 15:04:58 +08:00			`start_time = time.time()`
minor reformat (#2) * update atari.py * fix setup.py pass the pytest * fix setup.py pass the pytest 2020-03-26 09:01:20 +08:00			`assert sum([(n_step != 0), (n_episode != 0)]) == 1, \`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`"One and only one collection number specification permitted!"`
finish dqn 2020-03-15 17:41:00 +08:00			`cur_step = 0`
			`cur_episode = np.zeros(self.env_num) if self._multi_env else 0`
add trainer 2020-03-19 17:23:46 +08:00			`reward_sum = 0`
			`length_sum = 0`
half of collector 2020-03-12 22:20:33 +08:00			`while True:`
finish dqn 2020-03-15 17:41:00 +08:00			`if self._multi_env:`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`batch_data = Batch(`
			`obs=self._obs, act=self._act, rew=self._rew,`
			`done=self._done, obs_next=None, info=self._info)`
half of collector 2020-03-12 22:20:33 +08:00			`else:`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`batch_data = Batch(`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`obs=self._make_batch(self._obs),`
			`act=self._make_batch(self._act),`
			`rew=self._make_batch(self._rew),`
			`done=self._make_batch(self._done),`
finish dqn 2020-03-15 17:41:00 +08:00			`obs_next=None,`
			`info=self._make_batch(self._info))`
			`result = self.policy(batch_data, self.state)`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self.state = result.state if hasattr(result, 'state') else None`
ddpg 2020-03-18 21:45:41 +08:00			`if isinstance(result.act, torch.Tensor):`
			`self._act = result.act.detach().cpu().numpy()`
fix collector 2020-03-25 14:08:28 +08:00			`elif not isinstance(self._act, np.ndarray):`
ddpg 2020-03-18 21:45:41 +08:00			`self._act = np.array(result.act)`
fix collector 2020-03-25 14:08:28 +08:00			`else:`
			`self._act = result.act`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`obs_next, self._rew, self._done, self._info = self.env.step(`
fix some bugs 2020-03-16 11:11:29 +08:00			`self._act if self._multi_env else self._act[0])`
			`if render > 0:`
			`self.env.render()`
			`time.sleep(render)`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`self.length += 1`
			`self.reward += self._rew`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if self._multi_env:`
half of collector 2020-03-12 22:20:33 +08:00			`for i in range(self.env_num):`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`data = {`
			`'obs': self._obs[i], 'act': self._act[i],`
			`'rew': self._rew[i], 'done': self._done[i],`
			`'obs_next': obs_next[i], 'info': self._info[i]}`
			`if self._cached_buf:`
			`self._cached_buf[i].add(**data)`
			`elif self._multi_buf:`
			`self.buffer[i].add(**data)`
			`cur_step += 1`
			`else:`
			`self.buffer.add(**data)`
			`cur_step += 1`
			`if self._done[i]:`
fix collector 2020-03-25 14:08:28 +08:00			`if n_step != 0 or np.isscalar(n_episode) or \`
			`cur_episode[i] < n_episode[i]:`
			`cur_episode[i] += 1`
			`reward_sum += self.reward[i]`
			`length_sum += self.length[i]`
			`if self._cached_buf:`
			`cur_step += len(self._cached_buf[i])`
			`self.buffer.update(self._cached_buf[i])`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self.reward[i], self.length[i] = 0, 0`
			`if self._cached_buf:`
			`self._cached_buf[i].reset()`
			`if isinstance(self.state, list):`
			`self.state[i] = None`
finish dqn 2020-03-15 17:41:00 +08:00			`elif self.state is not None:`
ddpg 2020-03-18 21:45:41 +08:00			`if isinstance(self.state[i], dict):`
			`self.state[i] = {}`
			`else:`
			`self.state[i] = self.state[i] * 0`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if isinstance(self.state, torch.Tensor):`
finish dqn 2020-03-15 17:41:00 +08:00			`# remove ref count in pytorch (?)`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`self.state = self.state.detach()`
fix collector 2020-03-25 14:08:28 +08:00			`if sum(self._done):`
			`obs_next = self.env.reset(np.where(self._done)[0])`
			`if n_episode != 0:`
			`if isinstance(n_episode, list) and \`
			`(cur_episode >= np.array(n_episode)).all() or \`
			`np.isscalar(n_episode) and \`
			`cur_episode.sum() >= n_episode:`
			`break`
half of collector 2020-03-12 22:20:33 +08:00			`else:`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`self.buffer.add(`
			`self._obs, self._act[0], self._rew,`
			`self._done, obs_next, self._info)`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`cur_step += 1`
half of collector 2020-03-12 22:20:33 +08:00			`if self._done:`
			`cur_episode += 1`
add trainer 2020-03-19 17:23:46 +08:00			`reward_sum += self.reward`
			`length_sum += self.length`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`self.reward, self.length = 0, 0`
half of collector 2020-03-12 22:20:33 +08:00			`self.state = None`
fix collector 2020-03-25 14:08:28 +08:00			`obs_next = self.env.reset()`
			`if n_episode != 0 and cur_episode >= n_episode:`
half of collector 2020-03-12 22:20:33 +08:00			`break`
fix collector 2020-03-25 14:08:28 +08:00			`if n_step != 0 and cur_step >= n_step:`
half of collector 2020-03-12 22:20:33 +08:00			`break`
			`self._obs = obs_next`
			`self._obs = obs_next`
fix bug in test 2020-03-17 15:16:30 +08:00			`if self._multi_env:`
			`cur_episode = sum(cur_episode)`
add trainer 2020-03-19 17:23:46 +08:00			`duration = time.time() - start_time`
			`self.step_speed.add(cur_step / duration)`
			`self.episode_speed.add(cur_episode / duration)`
			`self.collect_step += cur_step`
			`self.collect_episode += cur_episode`
ppo and early stop 2020-03-20 19:52:29 +08:00			`self.collect_time += duration`
fix collector 2020-03-25 14:08:28 +08:00			`if isinstance(n_episode, list):`
			`n_episode = np.sum(n_episode)`
			`else:`
			`n_episode = max(cur_episode, 1)`
add speed stat 2020-03-16 15:04:58 +08:00			`return {`
add trainer 2020-03-19 17:23:46 +08:00			`'n/ep': cur_episode,`
			`'n/st': cur_step,`
ppo and early stop 2020-03-20 19:52:29 +08:00			`'v/st': self.step_speed.get(),`
			`'v/ep': self.episode_speed.get(),`
fix collector 2020-03-25 14:08:28 +08:00			`'rew': reward_sum / n_episode,`
			`'len': length_sum / n_episode,`
add speed stat 2020-03-16 15:04:58 +08:00			`}`
half of collector 2020-03-12 22:20:33 +08:00
maybe finished collector? 2020-03-13 17:49:22 +08:00			`def sample(self, batch_size):`
add cache buf in collector 2020-03-14 21:48:31 +08:00			`if self._multi_buf:`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`if batch_size > 0:`
			`lens = [len(b) for b in self.buffer]`
			`total = sum(lens)`
finish dqn 2020-03-15 17:41:00 +08:00			`batch_index = np.random.choice(`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`total, batch_size, p=np.array(lens) / total)`
			`else:`
finish dqn 2020-03-15 17:41:00 +08:00			`batch_index = np.array([])`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`batch_data = Batch()`
			`for i, b in enumerate(self.buffer):`
finish dqn 2020-03-15 17:41:00 +08:00			`cur_batch = (batch_index == i).sum()`
maybe finished collector? 2020-03-13 17:49:22 +08:00			`if batch_size and cur_batch or batch_size <= 0:`
			`batch, indice = b.sample(cur_batch)`
			`batch = self.process_fn(batch, b, indice)`
			`batch_data.append(batch)`
			`else:`
			`batch_data, indice = self.buffer.sample(batch_size)`
			`batch_data = self.process_fn(batch_data, self.buffer, indice)`
			`return batch_data`