Tianshou/test/base/env.py

import gym
import time
from gym.spaces.discrete import Discrete


class MyTestEnv(gym.Env):
    """This is a "going right" task. The task is to go right ``size`` steps.
    """

    def __init__(self, size, sleep=0, dict_state=False, ma_rew=0):
        self.size = size
        self.sleep = sleep
        self.dict_state = dict_state
        self.ma_rew = ma_rew
        self.action_space = Discrete(2)
        self.reset()

    def reset(self, state=0):
        self.done = False
        self.index = state
        return self._get_dict_state()

    def _get_reward(self):
        """Generate a non-scalar reward if ma_rew is True."""
        x = int(self.done)
        if self.ma_rew > 0:
            return [x] * self.ma_rew
        return x

    def _get_dict_state(self):
        """Generate a dict_state if dict_state is True."""
        return {'index': self.index} if self.dict_state else self.index

    def step(self, action):
        if self.done:
            raise ValueError('step after done !!!')
        if self.sleep > 0:
            time.sleep(self.sleep)
        if self.index == self.size:
            self.done = True
            return self._get_dict_state(), self._get_reward(), self.done, {}
        if action == 0:
            self.index = max(self.index - 1, 0)
            return self._get_dict_state(), self._get_reward(), self.done, \
                {'key': 1, 'env': self} if self.dict_state else {}
        elif action == 1:
            self.index += 1
            self.done = self.index == self.size
            return self._get_dict_state(), self._get_reward(), \
                self.done, {'key': 1, 'env': self}
Enable getattr for SubprocVecEnv. (#74) * Enable getattr for SubprovVecEnv. * Consistent API between VectorEnv and SubprocVecEnv. * Avoid code duplication. Add unit tests. * Add docstring. * Test more branches. * Fix UT. Co-authored-by: Alexis Duburcq <alexis.duburcq@wandercraft.eu> 2020-06-05 11:17:43 +02:00			`import gym`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`import time`
Enable getattr for SubprocVecEnv. (#74) * Enable getattr for SubprovVecEnv. * Consistent API between VectorEnv and SubprocVecEnv. * Avoid code duplication. Add unit tests. * Add docstring. * Test more branches. * Fix UT. Co-authored-by: Alexis Duburcq <alexis.duburcq@wandercraft.eu> 2020-06-05 11:17:43 +02:00			`from gym.spaces.discrete import Discrete`
refract test code 2020-03-21 10:58:01 +08:00

			`class MyTestEnv(gym.Env):`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			"""This is a "going right" task. The task is to go right ``size`` steps.
			`"""`

			`def __init__(self, size, sleep=0, dict_state=False, ma_rew=0):`
refract test code 2020-03-21 10:58:01 +08:00			`self.size = size`
			`self.sleep = sleep`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`self.dict_state = dict_state`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`self.ma_rew = ma_rew`
add random action in collector (fix #78) 2020-06-11 08:57:37 +08:00			`self.action_space = Discrete(2)`
refract test code 2020-03-21 10:58:01 +08:00			`self.reset()`

fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`def reset(self, state=0):`
refract test code 2020-03-21 10:58:01 +08:00			`self.done = False`
fix rnn (#19), add __repr__, and fix #26 2020-04-09 19:53:45 +08:00			`self.index = state`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`return self._get_dict_state()`

			`def _get_reward(self):`
			`"""Generate a non-scalar reward if ma_rew is True."""`
			`x = int(self.done)`
			`if self.ma_rew > 0:`
			`return [x] * self.ma_rew`
			`return x`

			`def _get_dict_state(self):`
			`"""Generate a dict_state if dict_state is True."""`
Multimodal obs (#38, #27, #25) 2020-04-28 20:56:02 +08:00			`return {'index': self.index} if self.dict_state else self.index`
refract test code 2020-03-21 10:58:01 +08:00
			`def step(self, action):`
			`if self.done:`
			`raise ValueError('step after done !!!')`
			`if self.sleep > 0:`
			`time.sleep(self.sleep)`
			`if self.index == self.size:`
			`self.done = True`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`return self._get_dict_state(), self._get_reward(), self.done, {}`
refract test code 2020-03-21 10:58:01 +08:00			`if action == 0:`
			`self.index = max(self.index - 1, 0)`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`return self._get_dict_state(), self._get_reward(), self.done, \`
			`{'key': 1, 'env': self} if self.dict_state else {}`
refract test code 2020-03-21 10:58:01 +08:00			`elif action == 1:`
			`self.index += 1`
			`self.done = self.index == self.size`
Improve collector (#125) * remove multibuf * reward_metric * make fileds with empty Batch rather than None after reset * many fixes and refactor Co-authored-by: Trinkle23897 <463003665@qq.com> 2020-07-13 00:24:31 +08:00			`return self._get_dict_state(), self._get_reward(), \`
			`self.done, {'key': 1, 'env': self}`