dreamerv3-torch/dreamer.py

import argparse
import functools
import os
import pathlib
import sys

os.environ["MUJOCO_GL"] = "osmesa"

import numpy as np
import ruamel.yaml as yaml

sys.path.append(str(pathlib.Path(__file__).parent))

import exploration as expl
import models
import tools
import envs.wrappers as wrappers
from parallel import Parallel, Damy

import torch
from torch import nn
from torch import distributions as torchd


to_np = lambda x: x.detach().cpu().numpy()


class Dreamer(nn.Module):
    def __init__(self, obs_space, act_space, config, logger, dataset):
        super(Dreamer, self).__init__()
        self._config = config
        self._logger = logger
        self._should_log = tools.Every(config.log_every)
        batch_steps = config.batch_size * config.batch_length
        self._should_train = tools.Every(batch_steps / config.train_ratio)
        self._should_pretrain = tools.Once()
        self._should_reset = tools.Every(config.reset_every)
        self._should_expl = tools.Until(int(config.expl_until / config.action_repeat))
        self._metrics = {}
        # this is update step
        self._step = logger.step // config.action_repeat
        self._update_count = 0
        # Schedules.
        config.actor_entropy = lambda x=config.actor_entropy: tools.schedule(
            x, self._step
        )
        config.actor_state_entropy = (
            lambda x=config.actor_state_entropy: tools.schedule(x, self._step)
        )
        config.imag_gradient_mix = lambda x=config.imag_gradient_mix: tools.schedule(
            x, self._step
        )
        self._dataset = dataset
        self._wm = models.WorldModel(obs_space, act_space, self._step, config)
        self._task_behavior = models.ImagBehavior(
            config, self._wm, config.behavior_stop_grad
        )
        if (
            config.compile and os.name != "nt"
        ):  # compilation is not supported on windows
            self._wm = torch.compile(self._wm)
            self._task_behavior = torch.compile(self._task_behavior)
        reward = lambda f, s, a: self._wm.heads["reward"](f).mean()
        self._expl_behavior = dict(
            greedy=lambda: self._task_behavior,
            random=lambda: expl.Random(config, act_space),
            plan2explore=lambda: expl.Plan2Explore(config, self._wm, reward),
        )[config.expl_behavior]().to(self._config.device)

    def __call__(self, obs, reset, state=None, training=True):
        step = self._step
        if self._should_reset(step):
            state = None
        if state is not None and reset.any():
            mask = 1 - reset
            for key in state[0].keys():
                for i in range(state[0][key].shape[0]):
                    state[0][key][i] *= mask[i]
            for i in range(len(state[1])):
                state[1][i] *= mask[i]
        if training:
            steps = (
                self._config.pretrain
                if self._should_pretrain()
                else self._should_train(step)
            )
            for _ in range(steps):
                self._train(next(self._dataset))
                self._update_count += 1
                self._metrics["update_count"] = self._update_count
            if self._should_log(step):
                for name, values in self._metrics.items():
                    self._logger.scalar(name, float(np.mean(values)))
                    self._metrics[name] = []
                if self._config.video_pred_log:
                    openl = self._wm.video_pred(next(self._dataset))
                    self._logger.video("train_openl", to_np(openl))
                self._logger.write(fps=True)

        policy_output, state = self._policy(obs, state, training)

        if training:
            self._step += len(reset)
            self._logger.step = self._config.action_repeat * self._step
        return policy_output, state

    def _policy(self, obs, state, training):
        if state is None:
            batch_size = len(obs["image"])
            latent = self._wm.dynamics.initial(len(obs["image"]))
            action = torch.zeros((batch_size, self._config.num_actions)).to(
                self._config.device
            )
        else:
            latent, action = state
        obs = self._wm.preprocess(obs)
        embed = self._wm.encoder(obs)
        latent, _ = self._wm.dynamics.obs_step(
            latent, action, embed, obs["is_first"], self._config.collect_dyn_sample
        )
        if self._config.eval_state_mean:
            latent["stoch"] = latent["mean"]
        feat = self._wm.dynamics.get_feat(latent)
        if not training:
            actor = self._task_behavior.actor(feat)
            action = actor.mode()
        elif self._should_expl(self._step):
            actor = self._expl_behavior.actor(feat)
            action = actor.sample()
        else:
            actor = self._task_behavior.actor(feat)
            action = actor.sample()
        logprob = actor.log_prob(action)
        latent = {k: v.detach() for k, v in latent.items()}
        action = action.detach()
        if self._config.actor_dist == "onehot_gumble":
            action = torch.one_hot(
                torch.argmax(action, dim=-1), self._config.num_actions
            )
        action = self._exploration(action, training)
        policy_output = {"action": action, "logprob": logprob}
        state = (latent, action)
        return policy_output, state

    def _exploration(self, action, training):
        amount = self._config.expl_amount if training else self._config.eval_noise
        if amount == 0:
            return action
        if "onehot" in self._config.actor_dist:
            probs = amount / self._config.num_actions + (1 - amount) * action
            return tools.OneHotDist(probs=probs).sample()
        else:
            return torch.clip(torchd.normal.Normal(action, amount).sample(), -1, 1)

    def _train(self, data):
        metrics = {}
        post, context, mets = self._wm._train(data)
        metrics.update(mets)
        start = post
        reward = lambda f, s, a: self._wm.heads["reward"](
            self._wm.dynamics.get_feat(s)
        ).mode()
        metrics.update(self._task_behavior._train(start, reward)[-1])
        if self._config.expl_behavior != "greedy":
            mets = self._expl_behavior.train(start, context, data)[-1]
            metrics.update({"expl_" + key: value for key, value in mets.items()})
        for name, value in metrics.items():
            if not name in self._metrics.keys():
                self._metrics[name] = [value]
            else:
                self._metrics[name].append(value)


def count_steps(folder):
    return sum(int(str(n).split("-")[-1][:-4]) - 1 for n in folder.glob("*.npz"))


def make_dataset(episodes, config):
    generator = tools.sample_episodes(episodes, config.batch_length)
    dataset = tools.from_generator(generator, config.batch_size)
    return dataset


def make_env(config, mode):
    suite, task = config.task.split("_", 1)
    if suite == "dmc":
        import envs.dmc as dmc

        env = dmc.DeepMindControl(task, config.action_repeat, config.size)
        env = wrappers.NormalizeActions(env)
    elif suite == "atari":
        import envs.atari as atari

        env = atari.Atari(
            task,
            config.action_repeat,
            config.size,
            gray=config.grayscale,
            noops=config.noops,
            lives=config.lives,
            sticky=config.stickey,
            actions=config.actions,
            resize=config.resize,
        )
        env = wrappers.OneHotAction(env)
    elif suite == "dmlab":
        import envs.dmlab as dmlab

        env = dmlab.DeepMindLabyrinth(
            task, mode if "train" in mode else "test", config.action_repeat
        )
        env = wrappers.OneHotAction(env)
    elif suite == "MemoryMaze":
        from envs.memorymaze import MemoryMaze

        env = MemoryMaze(task)
        env = wrappers.OneHotAction(env)
    elif suite == "crafter":
        import envs.crafter as crafter

        env = crafter.Crafter(task, config.size)
        env = wrappers.OneHotAction(env)
    elif suite == "minecraft":
        import envs.minecraft as minecraft

        env = minecraft.make_env(task, size=config.size, break_speed=config.break_speed)
        env = wrappers.OneHotAction(env)
    else:
        raise NotImplementedError(suite)
    env = wrappers.TimeLimit(env, config.time_limit)
    env = wrappers.SelectAction(env, key="action")
    env = wrappers.UUID(env)
    if suite == "minecraft":
        env = wrappers.RewardObs(env)
    return env


def main(config):
    logdir = pathlib.Path(config.logdir).expanduser()
    config.traindir = config.traindir or logdir / "train_eps"
    config.evaldir = config.evaldir or logdir / "eval_eps"
    config.steps //= config.action_repeat
    config.eval_every //= config.action_repeat
    config.log_every //= config.action_repeat
    config.time_limit //= config.action_repeat

    print("Logdir", logdir)
    logdir.mkdir(parents=True, exist_ok=True)
    config.traindir.mkdir(parents=True, exist_ok=True)
    config.evaldir.mkdir(parents=True, exist_ok=True)
    step = count_steps(config.traindir)
    # step in logger is environmental step
    logger = tools.Logger(logdir, config.action_repeat * step)

    print("Create envs.")
    if config.offline_traindir:
        directory = config.offline_traindir.format(**vars(config))
    else:
        directory = config.traindir
    train_eps = tools.load_episodes(directory, limit=config.dataset_size)
    if config.offline_evaldir:
        directory = config.offline_evaldir.format(**vars(config))
    else:
        directory = config.evaldir
    eval_eps = tools.load_episodes(directory, limit=1)
    make = lambda mode: make_env(config, mode)
    train_envs = [make("train") for _ in range(config.envs)]
    eval_envs = [make("eval") for _ in range(config.envs)]
    if config.envs > 1:
        train_envs = [Parallel(env, "process") for env in train_envs]
        eval_envs = [Parallel(env, "process") for env in eval_envs]
    else:
        train_envs = [Damy(env) for env in train_envs]
        eval_envs = [Damy(env) for env in eval_envs]
    acts = train_envs[0].action_space
    config.num_actions = acts.n if hasattr(acts, "n") else acts.shape[0]

    state = None
    if not config.offline_traindir:
        prefill = max(0, config.prefill - count_steps(config.traindir))
        print(f"Prefill dataset ({prefill} steps).")
        if hasattr(acts, "discrete"):
            random_actor = tools.OneHotDist(
                torch.zeros(config.num_actions).repeat(config.envs, 1)
            )
        else:
            random_actor = torchd.independent.Independent(
                torchd.uniform.Uniform(
                    torch.Tensor(acts.low).repeat(config.envs, 1),
                    torch.Tensor(acts.high).repeat(config.envs, 1),
                ),
                1,
            )

        def random_agent(o, d, s):
            action = random_actor.sample()
            logprob = random_actor.log_prob(action)
            return {"action": action, "logprob": logprob}, None

        state = tools.simulate(
            random_agent,
            train_envs,
            train_eps,
            config.traindir,
            logger,
            limit=config.dataset_size,
            steps=prefill,
        )
        logger.step += prefill * config.action_repeat
        print(f"Logger: ({logger.step} steps).")

    print("Simulate agent.")
    train_dataset = make_dataset(train_eps, config)
    eval_dataset = make_dataset(eval_eps, config)
    agent = Dreamer(
        train_envs[0].observation_space,
        train_envs[0].action_space,
        config,
        logger,
        train_dataset,
    ).to(config.device)
    agent.requires_grad_(requires_grad=False)
    if (logdir / "latest_model.pt").exists():
        agent.load_state_dict(torch.load(logdir / "latest_model.pt"))
        agent._should_pretrain._once = False

    # make sure eval will be executed once after config.steps
    while agent._step < config.steps + config.eval_every:
        logger.write()
        if config.eval_episode_num > 0:
            print("Start evaluation.")
            eval_policy = functools.partial(agent, training=False)
            tools.simulate(
                eval_policy,
                eval_envs,
                eval_eps,
                config.evaldir,
                logger,
                is_eval=True,
                episodes=config.eval_episode_num,
            )
            if config.video_pred_log:
                video_pred = agent._wm.video_pred(next(eval_dataset))
                logger.video("eval_openl", to_np(video_pred))
        print("Start training.")
        state = tools.simulate(
            agent,
            train_envs,
            train_eps,
            config.traindir,
            logger,
            limit=config.dataset_size,
            steps=config.eval_every,
            state=state,
        )
        torch.save(agent.state_dict(), logdir / "latest_model.pt")
    for env in train_envs + eval_envs:
        try:
            env.close()
        except Exception:
            pass


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--configs", nargs="+")
    args, remaining = parser.parse_known_args()
    configs = yaml.safe_load(
        (pathlib.Path(sys.argv[0]).parent / "configs.yaml").read_text()
    )

    def recursive_update(base, update):
        for key, value in update.items():
            if isinstance(value, dict) and key in base:
                recursive_update(base[key], value)
            else:
                base[key] = value

    name_list = ["defaults", *args.configs] if args.configs else ["defaults"]
    defaults = {}
    for name in name_list:
        recursive_update(defaults, configs[name])
    parser = argparse.ArgumentParser()
    for key, value in sorted(defaults.items(), key=lambda x: x[0]):
        arg_type = tools.args_type(value)
        parser.add_argument(f"--{key}", type=arg_type, default=arg_type(value))
    main(parser.parse_args(remaining))
Initial Commit 2023-02-12 22:35:25 +09:00			`import argparse`
			`import functools`
			`import os`
			`import pathlib`
			`import sys`

introduced parallel processing for envs 2023-07-23 21:58:46 +09:00			`os.environ["MUJOCO_GL"] = "osmesa"`
Initial Commit 2023-02-12 22:35:25 +09:00
			`import numpy as np`
			`import ruamel.yaml as yaml`

			`sys.path.append(str(pathlib.Path(__file__).parent))`

			`import exploration as expl`
			`import models`
			`import tools`
cleaned up envs 2023-04-15 23:16:43 +09:00			`import envs.wrappers as wrappers`
introduced parallel processing for envs 2023-07-23 21:58:46 +09:00			`from parallel import Parallel, Damy`
Initial Commit 2023-02-12 22:35:25 +09:00
			`import torch`
			`from torch import nn`
			`from torch import distributions as torchd`

modified based on author's implementation 2023-03-18 08:38:23 +09:00
Initial Commit 2023-02-12 22:35:25 +09:00			`to_np = lambda x: x.detach().cpu().numpy()`


			`class Dreamer(nn.Module):`
added state input capability 2023-05-14 23:38:46 +09:00			`def __init__(self, obs_space, act_space, config, logger, dataset):`
Initial Commit 2023-02-12 22:35:25 +09:00			`super(Dreamer, self).__init__()`
			`self._config = config`
			`self._logger = logger`
			`self._should_log = tools.Every(config.log_every)`
modified based on author's implementation 2023-03-18 08:38:23 +09:00			`batch_steps = config.batch_size * config.batch_length`
			`self._should_train = tools.Every(batch_steps / config.train_ratio)`
Initial Commit 2023-02-12 22:35:25 +09:00			`self._should_pretrain = tools.Once()`
			`self._should_reset = tools.Every(config.reset_every)`
			`self._should_expl = tools.Until(int(config.expl_until / config.action_repeat))`
			`self._metrics = {}`
separated cache management of episode from env 2023-07-22 19:22:41 +09:00			`# this is update step`
			`self._step = logger.step // config.action_repeat`
fix bug when using envs > 1 2023-04-15 15:25:25 +09:00			`self._update_count = 0`
Initial Commit 2023-02-12 22:35:25 +09:00			`# Schedules.`
			`config.actor_entropy = lambda x=config.actor_entropy: tools.schedule(`
			`x, self._step`
			`)`
			`config.actor_state_entropy = (`
			`lambda x=config.actor_state_entropy: tools.schedule(x, self._step)`
			`)`
			`config.imag_gradient_mix = lambda x=config.imag_gradient_mix: tools.schedule(`
			`x, self._step`
			`)`
			`self._dataset = dataset`
added state input capability 2023-05-14 23:38:46 +09:00			`self._wm = models.WorldModel(obs_space, act_space, self._step, config)`
Initial Commit 2023-02-12 22:35:25 +09:00			`self._task_behavior = models.ImagBehavior(`
			`config, self._wm, config.behavior_stop_grad`
			`)`
erased unnecessary lines 2023-06-17 15:27:09 +09:00			`if (`
			`config.compile and os.name != "nt"`
			`): # compilation is not supported on windows`
updated result, requirements and torch version 2023-03-24 07:51:57 +09:00			`self._wm = torch.compile(self._wm)`
			`self._task_behavior = torch.compile(self._task_behavior)`
Fixes for Plan2Explore with actions and for windows. 2023-06-05 22:50:12 +03:00			`reward = lambda f, s, a: self._wm.heads["reward"](f).mean()`
Initial Commit 2023-02-12 22:35:25 +09:00			`self._expl_behavior = dict(`
			`greedy=lambda: self._task_behavior,`
modification of expl. 2023-05-21 08:17:47 +09:00			`random=lambda: expl.Random(config, act_space),`
Initial Commit 2023-02-12 22:35:25 +09:00			`plan2explore=lambda: expl.Plan2Explore(config, self._wm, reward),`
replaced all tf function to torch 2023-04-03 08:06:34 +09:00			`)[config.expl_behavior]().to(self._config.device)`
Initial Commit 2023-02-12 22:35:25 +09:00
erased unnecessary reward input 2023-07-22 20:53:43 +09:00			`def __call__(self, obs, reset, state=None, training=True):`
Initial Commit 2023-02-12 22:35:25 +09:00			`step = self._step`
			`if self._should_reset(step):`
			`state = None`
			`if state is not None and reset.any():`
			`mask = 1 - reset`
			`for key in state[0].keys():`
			`for i in range(state[0][key].shape[0]):`
			`state[0][key][i] *= mask[i]`
			`for i in range(len(state[1])):`
			`state[1][i] *= mask[i]`
fix bug when using envs > 1 2023-04-15 15:25:25 +09:00			`if training:`
Initial Commit 2023-02-12 22:35:25 +09:00			`steps = (`
			`self._config.pretrain`
			`if self._should_pretrain()`
fix bug when using envs > 1 2023-04-15 15:25:25 +09:00			`else self._should_train(step)`
Initial Commit 2023-02-12 22:35:25 +09:00			`)`
			`for _ in range(steps):`
			`self._train(next(self._dataset))`
fix bug when using envs > 1 2023-04-15 15:25:25 +09:00			`self._update_count += 1`
			`self._metrics["update_count"] = self._update_count`
Initial Commit 2023-02-12 22:35:25 +09:00			`if self._should_log(step):`
			`for name, values in self._metrics.items():`
			`self._logger.scalar(name, float(np.mean(values)))`
			`self._metrics[name] = []`
added state input capability 2023-05-14 23:38:46 +09:00			`if self._config.video_pred_log:`
			`openl = self._wm.video_pred(next(self._dataset))`
			`self._logger.video("train_openl", to_np(openl))`
Initial Commit 2023-02-12 22:35:25 +09:00			`self._logger.write(fps=True)`

			`policy_output, state = self._policy(obs, state, training)`

			`if training:`
			`self._step += len(reset)`
			`self._logger.step = self._config.action_repeat * self._step`
			`return policy_output, state`

			`def _policy(self, obs, state, training):`
			`if state is None:`
			`batch_size = len(obs["image"])`
			`latent = self._wm.dynamics.initial(len(obs["image"]))`
			`action = torch.zeros((batch_size, self._config.num_actions)).to(`
			`self._config.device`
			`)`
			`else:`
			`latent, action = state`
learnable initial state options for RSSM 2023-04-29 07:54:03 +09:00			`obs = self._wm.preprocess(obs)`
			`embed = self._wm.encoder(obs)`
Initial Commit 2023-02-12 22:35:25 +09:00			`latent, _ = self._wm.dynamics.obs_step(`
learnable initial state options for RSSM 2023-04-29 07:54:03 +09:00			`latent, action, embed, obs["is_first"], self._config.collect_dyn_sample`
Initial Commit 2023-02-12 22:35:25 +09:00			`)`
			`if self._config.eval_state_mean:`
			`latent["stoch"] = latent["mean"]`
			`feat = self._wm.dynamics.get_feat(latent)`
			`if not training:`
			`actor = self._task_behavior.actor(feat)`
			`action = actor.mode()`
			`elif self._should_expl(self._step):`
			`actor = self._expl_behavior.actor(feat)`
			`action = actor.sample()`
			`else:`
			`actor = self._task_behavior.actor(feat)`
			`action = actor.sample()`
			`logprob = actor.log_prob(action)`
			`latent = {k: v.detach() for k, v in latent.items()}`
			`action = action.detach()`
			`if self._config.actor_dist == "onehot_gumble":`
			`action = torch.one_hot(`
			`torch.argmax(action, dim=-1), self._config.num_actions`
			`)`
			`action = self._exploration(action, training)`
			`policy_output = {"action": action, "logprob": logprob}`
			`state = (latent, action)`
			`return policy_output, state`

			`def _exploration(self, action, training):`
			`amount = self._config.expl_amount if training else self._config.eval_noise`
			`if amount == 0:`
			`return action`
			`if "onehot" in self._config.actor_dist:`
			`probs = amount / self._config.num_actions + (1 - amount) * action`
			`return tools.OneHotDist(probs=probs).sample()`
			`else:`
			`return torch.clip(torchd.normal.Normal(action, amount).sample(), -1, 1)`

			`def _train(self, data):`
			`metrics = {}`
			`post, context, mets = self._wm._train(data)`
			`metrics.update(mets)`
			`start = post`
			`reward = lambda f, s, a: self._wm.heads["reward"](`
			`self._wm.dynamics.get_feat(s)`
			`).mode()`
			`metrics.update(self._task_behavior._train(start, reward)[-1])`
			`if self._config.expl_behavior != "greedy":`
			`mets = self._expl_behavior.train(start, context, data)[-1]`
			`metrics.update({"expl_" + key: value for key, value in mets.items()})`
			`for name, value in metrics.items():`
			`if not name in self._metrics.keys():`
			`self._metrics[name] = [value]`
			`else:`
			`self._metrics[name].append(value)`


			`def count_steps(folder):`
			`return sum(int(str(n).split("-")[-1][:-4]) - 1 for n in folder.glob("*.npz"))`


			`def make_dataset(episodes, config):`
sampling from the replay buffer across episodes 2023-04-29 07:43:02 +09:00			`generator = tools.sample_episodes(episodes, config.batch_length)`
Initial Commit 2023-02-12 22:35:25 +09:00			`dataset = tools.from_generator(generator, config.batch_size)`
			`return dataset`


erased unused lines of code 2023-07-22 21:20:55 +09:00			`def make_env(config, mode):`
Initial Commit 2023-02-12 22:35:25 +09:00			`suite, task = config.task.split("_", 1)`
			`if suite == "dmc":`
cleaned up envs 2023-04-15 23:16:43 +09:00			`import envs.dmc as dmc`

			`env = dmc.DeepMindControl(task, config.action_repeat, config.size)`
Initial Commit 2023-02-12 22:35:25 +09:00			`env = wrappers.NormalizeActions(env)`
			`elif suite == "atari":`
cleaned up envs 2023-04-15 23:16:43 +09:00			`import envs.atari as atari`

			`env = atari.Atari(`
Initial Commit 2023-02-12 22:35:25 +09:00			`task,`
			`config.action_repeat,`
			`config.size,`
cleaned up envs 2023-04-15 23:16:43 +09:00			`gray=config.grayscale,`
			`noops=config.noops,`
			`lives=config.lives,`
			`sticky=config.stickey,`
			`actions=config.actions,`
			`resize=config.resize,`
Initial Commit 2023-02-12 22:35:25 +09:00			`)`
			`env = wrappers.OneHotAction(env)`
			`elif suite == "dmlab":`
cleaned up envs 2023-04-15 23:16:43 +09:00			`import envs.dmlab as dmlab`

			`env = dmlab.DeepMindLabyrinth(`
Initial Commit 2023-02-12 22:35:25 +09:00			`task, mode if "train" in mode else "test", config.action_repeat`
			`)`
			`env = wrappers.OneHotAction(env)`
mem maze env ok 1.2 2023-06-18 09:16:32 +08:00			`elif suite == "MemoryMaze":`
			`from envs.memorymaze import MemoryMaze`
modified training step display 2023-06-24 23:05:45 +09:00
modified memory maze and dependencies 2023-06-18 19:42:48 +09:00			`env = MemoryMaze(task)`
mem maze env ok 1.2 2023-06-18 09:16:32 +08:00			`env = wrappers.OneHotAction(env)`
added benchmark task Crafter 2023-06-18 00:02:22 +09:00			`elif suite == "crafter":`
			`import envs.crafter as crafter`
applied formatter 2023-07-23 22:02:06 +09:00
added benchmark task Crafter 2023-06-18 00:02:22 +09:00			`env = crafter.Crafter(task, config.size)`
			`env = wrappers.OneHotAction(env)`
added minecraft environment 2023-07-02 11:29:48 +09:00			`elif suite == "minecraft":`
			`import envs.minecraft as minecraft`
applied formatter 2023-07-23 22:02:06 +09:00
added minecraft environment 2023-07-02 11:29:48 +09:00			`env = minecraft.make_env(task, size=config.size, break_speed=config.break_speed)`
			`env = wrappers.OneHotAction(env)`
Initial Commit 2023-02-12 22:35:25 +09:00			`else:`
			`raise NotImplementedError(suite)`
			`env = wrappers.TimeLimit(env, config.time_limit)`
			`env = wrappers.SelectAction(env, key="action")`
separated cache management of episode from env 2023-07-22 19:22:41 +09:00			`env = wrappers.UUID(env)`
modifications for minecraft 2023-08-05 21:13:57 +09:00			`if suite == "minecraft":`
			`env = wrappers.RewardObs(env)`
Initial Commit 2023-02-12 22:35:25 +09:00			`return env`


			`def main(config):`
			`logdir = pathlib.Path(config.logdir).expanduser()`
			`config.traindir = config.traindir or logdir / "train_eps"`
			`config.evaldir = config.evaldir or logdir / "eval_eps"`
			`config.steps //= config.action_repeat`
			`config.eval_every //= config.action_repeat`
			`config.log_every //= config.action_repeat`
			`config.time_limit //= config.action_repeat`

			`print("Logdir", logdir)`
			`logdir.mkdir(parents=True, exist_ok=True)`
			`config.traindir.mkdir(parents=True, exist_ok=True)`
			`config.evaldir.mkdir(parents=True, exist_ok=True)`
			`step = count_steps(config.traindir)`
separated cache management of episode from env 2023-07-22 19:22:41 +09:00			`# step in logger is environmental step`
Initial Commit 2023-02-12 22:35:25 +09:00			`logger = tools.Logger(logdir, config.action_repeat * step)`

			`print("Create envs.")`
			`if config.offline_traindir:`
			`directory = config.offline_traindir.format(**vars(config))`
			`else:`
			`directory = config.traindir`
			`train_eps = tools.load_episodes(directory, limit=config.dataset_size)`
			`if config.offline_evaldir:`
			`directory = config.offline_evaldir.format(**vars(config))`
			`else:`
			`directory = config.evaldir`
			`eval_eps = tools.load_episodes(directory, limit=1)`
erased unused lines of code 2023-07-22 21:20:55 +09:00			`make = lambda mode: make_env(config, mode)`
Initial Commit 2023-02-12 22:35:25 +09:00			`train_envs = [make("train") for _ in range(config.envs)]`
			`eval_envs = [make("eval") for _ in range(config.envs)]`
introduced parallel processing for envs 2023-07-23 21:58:46 +09:00			`if config.envs > 1:`
			`train_envs = [Parallel(env, "process") for env in train_envs]`
			`eval_envs = [Parallel(env, "process") for env in eval_envs]`
			`else:`
			`train_envs = [Damy(env) for env in train_envs]`
			`eval_envs = [Damy(env) for env in eval_envs]`
Initial Commit 2023-02-12 22:35:25 +09:00			`acts = train_envs[0].action_space`
			`config.num_actions = acts.n if hasattr(acts, "n") else acts.shape[0]`

step-based counting 2023-07-02 11:51:11 +09:00			`state = None`
Initial Commit 2023-02-12 22:35:25 +09:00			`if not config.offline_traindir:`
			`prefill = max(0, config.prefill - count_steps(config.traindir))`
			`print(f"Prefill dataset ({prefill} steps).")`
			`if hasattr(acts, "discrete"):`
			`random_actor = tools.OneHotDist(`
cleaned up envs 2023-04-15 23:16:43 +09:00			`torch.zeros(config.num_actions).repeat(config.envs, 1)`
Initial Commit 2023-02-12 22:35:25 +09:00			`)`
			`else:`
			`random_actor = torchd.independent.Independent(`
			`torchd.uniform.Uniform(`
bug fix when using multiple environments 2023-04-03 08:00:16 +09:00			`torch.Tensor(acts.low).repeat(config.envs, 1),`
			`torch.Tensor(acts.high).repeat(config.envs, 1),`
Initial Commit 2023-02-12 22:35:25 +09:00			`),`
			`1,`
			`)`

erased unnecessary reward input 2023-07-22 20:53:43 +09:00			`def random_agent(o, d, s):`
Initial Commit 2023-02-12 22:35:25 +09:00			`action = random_actor.sample()`
			`logprob = random_actor.log_prob(action)`
			`return {"action": action, "logprob": logprob}, None`

applied formatter 2023-07-23 22:02:06 +09:00			`state = tools.simulate(`
			`random_agent,`
			`train_envs,`
			`train_eps,`
			`config.traindir,`
			`logger,`
			`limit=config.dataset_size,`
			`steps=prefill,`
			`)`
separated cache management of episode from env 2023-07-22 19:22:41 +09:00			`logger.step += prefill * config.action_repeat`
			`print(f"Logger: ({logger.step} steps).")`
Initial Commit 2023-02-12 22:35:25 +09:00
			`print("Simulate agent.")`
			`train_dataset = make_dataset(train_eps, config)`
			`eval_dataset = make_dataset(eval_eps, config)`
added state input capability 2023-05-14 23:38:46 +09:00			`agent = Dreamer(`
			`train_envs[0].observation_space,`
			`train_envs[0].action_space,`
			`config,`
			`logger,`
			`train_dataset,`
			`).to(config.device)`
Initial Commit 2023-02-12 22:35:25 +09:00			`agent.requires_grad_(requires_grad=False)`
			`if (logdir / "latest_model.pt").exists():`
			`agent.load_state_dict(torch.load(logdir / "latest_model.pt"))`
			`agent._should_pretrain._once = False`

eval is executed after steps in config elapsed 2023-07-26 01:00:03 +09:00			`# make sure eval will be executed once after config.steps`
			`while agent._step < config.steps + config.eval_every:`
Initial Commit 2023-02-12 22:35:25 +09:00			`logger.write()`
modifications for minecraft 2023-08-05 21:13:57 +09:00			`if config.eval_episode_num > 0:`
			`print("Start evaluation.")`
			`eval_policy = functools.partial(agent, training=False)`
			`tools.simulate(`
			`eval_policy,`
			`eval_envs,`
			`eval_eps,`
			`config.evaldir,`
			`logger,`
			`is_eval=True,`
			`episodes=config.eval_episode_num,`
			`)`
			`if config.video_pred_log:`
			`video_pred = agent._wm.video_pred(next(eval_dataset))`
			`logger.video("eval_openl", to_np(video_pred))`
Initial Commit 2023-02-12 22:35:25 +09:00			`print("Start training.")`
applied formatter 2023-07-23 22:02:06 +09:00			`state = tools.simulate(`
			`agent,`
			`train_envs,`
			`train_eps,`
			`config.traindir,`
			`logger,`
			`limit=config.dataset_size,`
			`steps=config.eval_every,`
			`state=state,`
			`)`
Initial Commit 2023-02-12 22:35:25 +09:00			`torch.save(agent.state_dict(), logdir / "latest_model.pt")`
			`for env in train_envs + eval_envs:`
			`try:`
			`env.close()`
			`except Exception:`
			`pass`


			`if __name__ == "__main__":`
			`parser = argparse.ArgumentParser()`
added state input capability 2023-05-14 23:38:46 +09:00			`parser.add_argument("--configs", nargs="+")`
Initial Commit 2023-02-12 22:35:25 +09:00			`args, remaining = parser.parse_known_args()`
			`configs = yaml.safe_load(`
			`(pathlib.Path(sys.argv[0]).parent / "configs.yaml").read_text()`
			`)`
added state input capability 2023-05-14 23:38:46 +09:00
			`def recursive_update(base, update):`
			`for key, value in update.items():`
			`if isinstance(value, dict) and key in base:`
			`recursive_update(base[key], value)`
			`else:`
			`base[key] = value`

			`name_list = ["defaults", *args.configs] if args.configs else ["defaults"]`
Initial Commit 2023-02-12 22:35:25 +09:00			`defaults = {}`
added state input capability 2023-05-14 23:38:46 +09:00			`for name in name_list:`
			`recursive_update(defaults, configs[name])`
Initial Commit 2023-02-12 22:35:25 +09:00			`parser = argparse.ArgumentParser()`
			`for key, value in sorted(defaults.items(), key=lambda x: x[0]):`
			`arg_type = tools.args_type(value)`
			`parser.add_argument(f"--{key}", type=arg_type, default=arg_type(value))`
			`main(parser.parse_args(remaining))`