Tianshou/examples/offline/utils.py

from typing import Tuple

import d4rl
import gym
import h5py
import numpy as np

from tianshou.data import ReplayBuffer
from tianshou.utils import RunningMeanStd


def load_buffer_d4rl(expert_data_task: str) -> ReplayBuffer:
    dataset = d4rl.qlearning_dataset(gym.make(expert_data_task))
    replay_buffer = ReplayBuffer.from_data(
        obs=dataset["observations"],
        act=dataset["actions"],
        rew=dataset["rewards"],
        done=dataset["terminals"],
        obs_next=dataset["next_observations"],
        terminated=dataset["terminals"],
        truncated=np.zeros(len(dataset["terminals"]))
    )
    return replay_buffer


def load_buffer(buffer_path: str) -> ReplayBuffer:
    with h5py.File(buffer_path, "r") as dataset:
        buffer = ReplayBuffer.from_data(
            obs=dataset["observations"],
            act=dataset["actions"],
            rew=dataset["rewards"],
            done=dataset["terminals"],
            obs_next=dataset["next_observations"],
            terminated=dataset["terminals"],
            truncated=np.zeros(len(dataset["terminals"]))
        )
    return buffer


def normalize_all_obs_in_replay_buffer(
    replay_buffer: ReplayBuffer
) -> Tuple[ReplayBuffer, RunningMeanStd]:
    # compute obs mean and var
    obs_rms = RunningMeanStd()
    obs_rms.update(replay_buffer.obs)
    _eps = np.finfo(np.float32).eps.item()
    # normalize obs
    replay_buffer._meta["obs"] = (replay_buffer.obs -
                                  obs_rms.mean) / np.sqrt(obs_rms.var + _eps)
    replay_buffer._meta["obs_next"] = (replay_buffer.obs_next -
                                       obs_rms.mean) / np.sqrt(obs_rms.var + _eps)
    return replay_buffer, obs_rms
Implement TD3+BC for offline RL (#660) - implement TD3+BC for offline RL; - fix a bug in trainer about test reward not logged because self.env_step is not set for offline setting; 2022-06-06 09:39:37 -07:00			`from typing import Tuple`

Improve data loading from D4RL and convert RL Unplugged to D4RL format (#624) 2022-05-03 13:37:52 -07:00			`import d4rl`
			`import gym`
			`import h5py`
Implement TD3+BC for offline RL (#660) - implement TD3+BC for offline RL; - fix a bug in trainer about test reward not logged because self.env_step is not set for offline setting; 2022-06-06 09:39:37 -07:00			`import numpy as np`
Improve data loading from D4RL and convert RL Unplugged to D4RL format (#624) 2022-05-03 13:37:52 -07:00
			`from tianshou.data import ReplayBuffer`
Implement TD3+BC for offline RL (#660) - implement TD3+BC for offline RL; - fix a bug in trainer about test reward not logged because self.env_step is not set for offline setting; 2022-06-06 09:39:37 -07:00			`from tianshou.utils import RunningMeanStd`
Improve data loading from D4RL and convert RL Unplugged to D4RL format (#624) 2022-05-03 13:37:52 -07:00

			`def load_buffer_d4rl(expert_data_task: str) -> ReplayBuffer:`
			`dataset = d4rl.qlearning_dataset(gym.make(expert_data_task))`
			`replay_buffer = ReplayBuffer.from_data(`
			`obs=dataset["observations"],`
			`act=dataset["actions"],`
			`rew=dataset["rewards"],`
			`done=dataset["terminals"],`
Fix a bug in loading offline data (#768) This PR fixes #766 . Co-authored-by: Yi Su <yi_su@apple.com> 2022-11-03 16:12:33 -07:00			`obs_next=dataset["next_observations"],`
			`terminated=dataset["terminals"],`
			`truncated=np.zeros(len(dataset["terminals"]))`
Improve data loading from D4RL and convert RL Unplugged to D4RL format (#624) 2022-05-03 13:37:52 -07:00			`)`
			`return replay_buffer`


			`def load_buffer(buffer_path: str) -> ReplayBuffer:`
			`with h5py.File(buffer_path, "r") as dataset:`
			`buffer = ReplayBuffer.from_data(`
			`obs=dataset["observations"],`
			`act=dataset["actions"],`
			`rew=dataset["rewards"],`
			`done=dataset["terminals"],`
Fix a bug in loading offline data (#768) This PR fixes #766 . Co-authored-by: Yi Su <yi_su@apple.com> 2022-11-03 16:12:33 -07:00			`obs_next=dataset["next_observations"],`
			`terminated=dataset["terminals"],`
			`truncated=np.zeros(len(dataset["terminals"]))`
Improve data loading from D4RL and convert RL Unplugged to D4RL format (#624) 2022-05-03 13:37:52 -07:00			`)`
			`return buffer`
Implement TD3+BC for offline RL (#660) - implement TD3+BC for offline RL; - fix a bug in trainer about test reward not logged because self.env_step is not set for offline setting; 2022-06-06 09:39:37 -07:00

			`def normalize_all_obs_in_replay_buffer(`
			`replay_buffer: ReplayBuffer`
			`) -> Tuple[ReplayBuffer, RunningMeanStd]:`
			`# compute obs mean and var`
			`obs_rms = RunningMeanStd()`
			`obs_rms.update(replay_buffer.obs)`
			`_eps = np.finfo(np.float32).eps.item()`
			`# normalize obs`
			`replay_buffer._meta["obs"] = (replay_buffer.obs -`
			`obs_rms.mean) / np.sqrt(obs_rms.var + _eps)`
			`replay_buffer._meta["obs_next"] = (replay_buffer.obs_next -`
			`obs_rms.mean) / np.sqrt(obs_rms.var + _eps)`
			`return replay_buffer, obs_rms`