mpd-public/mpd/trainer/trainer.py

import copy
from math import ceil

import numpy as np
import os
import time
import torch
import wandb
from collections import defaultdict
from tqdm.autonotebook import tqdm

from torch_robotics.torch_utils.torch_timer import TimerCUDA
from torch_robotics.torch_utils.torch_utils import dict_to_device, DEFAULT_TENSOR_ARGS, to_numpy


def get_num_epochs(num_train_steps, batch_size, dataset_len):
    return ceil(num_train_steps * batch_size / dataset_len)


def save_models_to_disk(models_prefix_l, epoch, total_steps, checkpoints_dir=None):
    for model, prefix in models_prefix_l:
        if model is not None:
            save_model_to_disk(model, epoch, total_steps, checkpoints_dir, prefix=f'{prefix}_')
            for submodule_key, submodule_value in model.submodules.items():
                save_model_to_disk(submodule_value, epoch, total_steps, checkpoints_dir,
                                   prefix=f'{prefix}_{submodule_key}_')


def save_model_to_disk(model, epoch, total_steps, checkpoints_dir=None, prefix='model_'):
    # If the model is frozen we do not save it again, since the parameters did not change
    if hasattr(model, 'is_frozen') and model.is_frozen:
        return

    torch.save(model.state_dict(), os.path.join(checkpoints_dir, f'{prefix}current_state_dict.pth'))
    torch.save(model.state_dict(), os.path.join(checkpoints_dir, f'{prefix}epoch_{epoch:04d}_iter_{total_steps:06d}_state_dict.pth'))
    torch.save(model, os.path.join(checkpoints_dir, f'{prefix}current.pth'))
    torch.save(model, os.path.join(checkpoints_dir, f'{prefix}epoch_{epoch:04d}_iter_{total_steps:06d}.pth'))


def save_losses_to_disk(train_losses, val_losses, checkpoints_dir=None):
    np.save(os.path.join(checkpoints_dir, f'train_losses.npy'), train_losses)
    np.save(os.path.join(checkpoints_dir, f'val_losses.npy'), val_losses)


class EarlyStopper:
    # https://stackoverflow.com/questions/71998978/early-stopping-in-pytorch

    def __init__(self, patience=10, min_delta=0):
        self.patience = patience  # use -1 to deactivate it
        self.min_delta = min_delta
        self.counter = 0
        self.min_validation_loss = torch.inf

    def early_stop(self, validation_loss):
        if self.patience == -1:
            return
        if validation_loss < self.min_validation_loss:
            self.min_validation_loss = validation_loss
            self.counter = 0
        elif validation_loss > (self.min_validation_loss + self.min_delta):
            self.counter += 1
            if self.counter >= self.patience:
                return True
        return False


class EMA:
    """
    https://github.com/jannerm/diffuser
    (empirical) exponential moving average parameters
    """

    def __init__(self, beta=0.995):
        super().__init__()
        self.beta = beta

    def update_model_average(self, ema_model, current_model):
        for ema_params, current_params in zip(ema_model.parameters(), current_model.parameters()):
            old_weight, up_weight = ema_params.data, current_params.data
            ema_params.data = self.update_average(old_weight, up_weight)

    def update_average(self, old, new):
        if old is None:
            return new
        return old * self.beta + (1 - self.beta) * new


def do_summary(
        summary_fn,
        train_steps_current,
        model,
        batch_dict,
        loss_info,
        datasubset,
        **kwargs
):
    if summary_fn is None:
        return

    with torch.no_grad():
        # set model to evaluation mode
        model.eval()

        summary_fn(train_steps_current,
                   model,
                   batch_dict=batch_dict,
                   loss_info=loss_info,
                   datasubset=datasubset,
                   **kwargs
                   )

    # set model to training mode
    model.train()


def train(model=None, train_dataloader=None, epochs=None, lr=None, steps_til_summary=None, model_dir=None, loss_fn=None,
          train_subset=None,
          summary_fn=None, steps_til_checkpoint=None,
          val_dataloader=None, val_subset=None,
          clip_grad=False,
          clip_grad_max_norm=1.0,
          val_loss_fn=None,
          optimizers=None, steps_per_validation=10, max_steps=None,
          use_ema: bool = True,
          ema_decay: float = 0.995, step_start_ema: int = 1000, update_ema_every: int = 10,
          use_amp=False,
          early_stopper_patience=-1,
          debug=False,
          tensor_args=DEFAULT_TENSOR_ARGS,
          **kwargs
          ):

    print(f'\n------- TRAINING STARTED -------\n')

    ema_model = None
    if use_ema:
        # Exponential moving average model
        ema = EMA(beta=ema_decay)
        ema_model = copy.deepcopy(model)

    # Model optimizers
    if optimizers is None:
        optimizers = [torch.optim.Adam(lr=lr, params=model.parameters())]

    # Automatic Mixed Precision
    scaler = torch.cuda.amp.GradScaler(enabled=use_amp)

    if val_dataloader is not None:
        assert val_loss_fn is not None, "If validation set is passed, have to pass a validation loss_fn!"

    ## Build saving directories
    os.makedirs(model_dir, exist_ok=True)

    summaries_dir = os.path.join(model_dir, 'summaries')
    os.makedirs(summaries_dir, exist_ok=True)

    checkpoints_dir = os.path.join(model_dir, 'checkpoints')
    os.makedirs(checkpoints_dir, exist_ok=True)

    # Early stopping
    early_stopper = EarlyStopper(patience=early_stopper_patience, min_delta=0)

    stop_training = False
    train_steps_current = 0

    # save models before training
    save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')], 0, 0, checkpoints_dir)

    with tqdm(total=len(train_dataloader) * epochs, mininterval=1 if debug else 60) as pbar:
        train_losses_l = []
        validation_losses_l = []
        for epoch in range(epochs):
            model.train()  # set model to training mode
            for step, train_batch_dict in enumerate(train_dataloader):
                ####################################################################################################
                # TRAINING LOSS
                ####################################################################################################
                with TimerCUDA() as t_training_loss:
                    train_batch_dict = dict_to_device(train_batch_dict, tensor_args['device'])

                    # Compute losses
                    with torch.autocast(device_type='cuda', dtype=torch.float16, enabled=use_amp):
                        train_losses, train_losses_info = loss_fn(model, train_batch_dict, train_subset.dataset)

                    train_loss_batch = 0.
                    train_losses_log = {}
                    for loss_name, loss in train_losses.items():
                        single_loss = loss.mean()
                        train_loss_batch += single_loss
                        train_losses_log[loss_name] = to_numpy(single_loss).item()

                ####################################################################################################
                # SUMMARY
                if train_steps_current % steps_til_summary == 0:
                    # TRAINING
                    print(f"\n-----------------------------------------")
                    print(f"train_steps_current: {train_steps_current}")
                    print(f"t_training_loss: {t_training_loss.elapsed:.4f} sec")
                    print(f"Total training loss {train_loss_batch:.4f}")
                    print(f"Training losses {train_losses}")

                    train_losses_l.append((train_steps_current, train_losses_log))

                    with TimerCUDA() as t_training_summary:
                        do_summary(
                            summary_fn,
                            train_steps_current,
                            ema_model if ema_model is not None else model,
                            train_batch_dict,
                            train_losses_info,
                            train_subset,
                            prefix='TRAINING ',
                            debug=debug,
                            tensor_args=tensor_args
                        )
                    print(f"t_training_summary: {t_training_summary.elapsed:.4f} sec")

                    ################################################################################################
                    # VALIDATION LOSS and SUMMARY
                    validation_losses_log = {}
                    if val_dataloader is not None:
                        with TimerCUDA() as t_validation_loss:
                            print("Running validation...")
                            val_losses = defaultdict(list)
                            total_val_loss = 0.
                            for step_val, batch_dict_val in enumerate(val_dataloader):
                                batch_dict_val = dict_to_device(batch_dict_val, tensor_args['device'])
                                val_loss, val_loss_info = loss_fn(
                                    model, batch_dict_val, val_subset.dataset, step=train_steps_current)
                                for name, value in val_loss.items():
                                    single_loss = to_numpy(value)
                                    val_losses[name].append(single_loss)
                                    total_val_loss += np.mean(single_loss).item()

                                if step_val == steps_per_validation:
                                    break

                            validation_losses = {}
                            for loss_name, loss in val_losses.items():
                                single_loss = np.mean(loss).item()
                                validation_losses[f'VALIDATION {loss_name}'] = single_loss
                            print("... finished validation.")

                        print(f"t_validation_loss: {t_validation_loss.elapsed:.4f} sec")
                        print(f"Validation losses {validation_losses}")

                        validation_losses_log = validation_losses
                        validation_losses_l.append((train_steps_current, validation_losses_log))

                        # The validation summary is done only on one batch of the validation data
                        with TimerCUDA() as t_validation_summary:
                            do_summary(
                                summary_fn,
                                train_steps_current,
                                ema_model if ema_model is not None else model,
                                batch_dict_val,
                                val_loss_info,
                                val_subset,
                                prefix='VALIDATION ',
                                debug=debug,
                                tensor_args=tensor_args
                            )
                        print(f"t_valididation_summary: {t_validation_summary.elapsed:.4f} sec")

                    wandb.log({**train_losses_log, **validation_losses_log}, step=train_steps_current)

                ####################################################################################################
                # Early stopping
                if early_stopper.early_stop(total_val_loss):
                    print(f'Early stopped training at {train_steps_current} steps.')
                    stop_training = True

                ####################################################################################################
                # OPTIMIZE TRAIN LOSS BATCH
                with TimerCUDA() as t_training_optimization:
                    for optim in optimizers:
                        optim.zero_grad()

                    scaler.scale(train_loss_batch).backward()

                    if clip_grad:
                        for optim in optimizers:
                            scaler.unscale_(optim)
                        torch.nn.utils.clip_grad_norm_(
                            model.parameters(),
                            max_norm=clip_grad_max_norm if isinstance(clip_grad, bool) else clip_grad
                        )

                    for optim in optimizers:
                        scaler.step(optim)

                    scaler.update()

                    if ema_model is not None:
                        if train_steps_current % update_ema_every == 0:
                            # update ema
                            if train_steps_current < step_start_ema:
                                # reset parameters ema
                                ema_model.load_state_dict(model.state_dict())
                            ema.update_model_average(ema_model, model)

                if train_steps_current % steps_til_summary == 0:
                    print(f"t_training_optimization: {t_training_optimization.elapsed:.4f} sec")

                ####################################################################################################
                # SAVING
                ####################################################################################################
                pbar.update(1)
                train_steps_current += 1

                if (steps_til_checkpoint is not None) and (train_steps_current % steps_til_checkpoint == 0):
                    save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')],
                                        epoch, train_steps_current, checkpoints_dir)
                    save_losses_to_disk(train_losses_l, validation_losses_l, checkpoints_dir)

                if stop_training or (max_steps is not None and train_steps_current == max_steps):
                    break

            if max_steps is not None and train_steps_current == max_steps:
                break

        # Update ema model at the end of training
        if ema_model is not None:
            # update ema
            if train_steps_current < step_start_ema:
                # reset parameters ema
                ema_model.load_state_dict(model.state_dict())
            ema.update_model_average(ema_model, model)

        # Save model at end of training
        save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')],
                            epoch, train_steps_current, checkpoints_dir)
        save_losses_to_disk(train_losses_l, validation_losses_l, checkpoints_dir)

        print(f'\n------- TRAINING FINISHED -------')
MPD cleaned 2023-10-23 15:45:14 +02:00			`import copy`
			`from math import ceil`

			`import numpy as np`
			`import os`
			`import time`
			`import torch`
			`import wandb`
			`from collections import defaultdict`
			`from tqdm.autonotebook import tqdm`

			`from torch_robotics.torch_utils.torch_timer import TimerCUDA`
			`from torch_robotics.torch_utils.torch_utils import dict_to_device, DEFAULT_TENSOR_ARGS, to_numpy`


			`def get_num_epochs(num_train_steps, batch_size, dataset_len):`
			`return ceil(num_train_steps * batch_size / dataset_len)`


			`def save_models_to_disk(models_prefix_l, epoch, total_steps, checkpoints_dir=None):`
			`for model, prefix in models_prefix_l:`
			`if model is not None:`
			`save_model_to_disk(model, epoch, total_steps, checkpoints_dir, prefix=f'{prefix}_')`
			`for submodule_key, submodule_value in model.submodules.items():`
			`save_model_to_disk(submodule_value, epoch, total_steps, checkpoints_dir,`
			`prefix=f'{prefix}_{submodule_key}_')`


			`def save_model_to_disk(model, epoch, total_steps, checkpoints_dir=None, prefix='model_'):`
			`# If the model is frozen we do not save it again, since the parameters did not change`
			`if hasattr(model, 'is_frozen') and model.is_frozen:`
			`return`

			`torch.save(model.state_dict(), os.path.join(checkpoints_dir, f'{prefix}current_state_dict.pth'))`
			`torch.save(model.state_dict(), os.path.join(checkpoints_dir, f'{prefix}epoch_{epoch:04d}_iter_{total_steps:06d}_state_dict.pth'))`
			`torch.save(model, os.path.join(checkpoints_dir, f'{prefix}current.pth'))`
			`torch.save(model, os.path.join(checkpoints_dir, f'{prefix}epoch_{epoch:04d}_iter_{total_steps:06d}.pth'))`


			`def save_losses_to_disk(train_losses, val_losses, checkpoints_dir=None):`
			`np.save(os.path.join(checkpoints_dir, f'train_losses.npy'), train_losses)`
			`np.save(os.path.join(checkpoints_dir, f'val_losses.npy'), val_losses)`


			`class EarlyStopper:`
			`# https://stackoverflow.com/questions/71998978/early-stopping-in-pytorch`

			`def __init__(self, patience=10, min_delta=0):`
			`self.patience = patience # use -1 to deactivate it`
			`self.min_delta = min_delta`
			`self.counter = 0`
			`self.min_validation_loss = torch.inf`

			`def early_stop(self, validation_loss):`
			`if self.patience == -1:`
			`return`
			`if validation_loss < self.min_validation_loss:`
			`self.min_validation_loss = validation_loss`
			`self.counter = 0`
			`elif validation_loss > (self.min_validation_loss + self.min_delta):`
			`self.counter += 1`
			`if self.counter >= self.patience:`
			`return True`
			`return False`


			`class EMA:`
			`"""`
			`https://github.com/jannerm/diffuser`
			`(empirical) exponential moving average parameters`
			`"""`

			`def __init__(self, beta=0.995):`
			`super().__init__()`
			`self.beta = beta`

			`def update_model_average(self, ema_model, current_model):`
			`for ema_params, current_params in zip(ema_model.parameters(), current_model.parameters()):`
			`old_weight, up_weight = ema_params.data, current_params.data`
			`ema_params.data = self.update_average(old_weight, up_weight)`

			`def update_average(self, old, new):`
			`if old is None:`
			`return new`
			`return old * self.beta + (1 - self.beta) * new`


			`def do_summary(`
			`summary_fn,`
			`train_steps_current,`
			`model,`
			`batch_dict,`
			`loss_info,`
			`datasubset,`
			`**kwargs`
			`):`
			`if summary_fn is None:`
			`return`

			`with torch.no_grad():`
			`# set model to evaluation mode`
			`model.eval()`

			`summary_fn(train_steps_current,`
			`model,`
			`batch_dict=batch_dict,`
			`loss_info=loss_info,`
			`datasubset=datasubset,`
			`**kwargs`
			`)`

			`# set model to training mode`
			`model.train()`


			`def train(model=None, train_dataloader=None, epochs=None, lr=None, steps_til_summary=None, model_dir=None, loss_fn=None,`
			`train_subset=None,`
			`summary_fn=None, steps_til_checkpoint=None,`
			`val_dataloader=None, val_subset=None,`
			`clip_grad=False,`
			`clip_grad_max_norm=1.0,`
			`val_loss_fn=None,`
			`optimizers=None, steps_per_validation=10, max_steps=None,`
			`use_ema: bool = True,`
			`ema_decay: float = 0.995, step_start_ema: int = 1000, update_ema_every: int = 10,`
			`use_amp=False,`
			`early_stopper_patience=-1,`
			`debug=False,`
			`tensor_args=DEFAULT_TENSOR_ARGS,`
			`**kwargs`
			`):`

			`print(f'\n------- TRAINING STARTED -------\n')`

			`ema_model = None`
			`if use_ema:`
			`# Exponential moving average model`
			`ema = EMA(beta=ema_decay)`
			`ema_model = copy.deepcopy(model)`

			`# Model optimizers`
			`if optimizers is None:`
			`optimizers = [torch.optim.Adam(lr=lr, params=model.parameters())]`

			`# Automatic Mixed Precision`
			`scaler = torch.cuda.amp.GradScaler(enabled=use_amp)`

			`if val_dataloader is not None:`
			`assert val_loss_fn is not None, "If validation set is passed, have to pass a validation loss_fn!"`

			`## Build saving directories`
			`os.makedirs(model_dir, exist_ok=True)`

			`summaries_dir = os.path.join(model_dir, 'summaries')`
			`os.makedirs(summaries_dir, exist_ok=True)`

			`checkpoints_dir = os.path.join(model_dir, 'checkpoints')`
			`os.makedirs(checkpoints_dir, exist_ok=True)`

			`# Early stopping`
			`early_stopper = EarlyStopper(patience=early_stopper_patience, min_delta=0)`

			`stop_training = False`
			`train_steps_current = 0`

			`# save models before training`
			`save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')], 0, 0, checkpoints_dir)`

			`with tqdm(total=len(train_dataloader) * epochs, mininterval=1 if debug else 60) as pbar:`
			`train_losses_l = []`
			`validation_losses_l = []`
			`for epoch in range(epochs):`
			`model.train() # set model to training mode`
			`for step, train_batch_dict in enumerate(train_dataloader):`
			`####################################################################################################`
			`# TRAINING LOSS`
			`####################################################################################################`
			`with TimerCUDA() as t_training_loss:`
			`train_batch_dict = dict_to_device(train_batch_dict, tensor_args['device'])`

			`# Compute losses`
			`with torch.autocast(device_type='cuda', dtype=torch.float16, enabled=use_amp):`
			`train_losses, train_losses_info = loss_fn(model, train_batch_dict, train_subset.dataset)`

			`train_loss_batch = 0.`
			`train_losses_log = {}`
			`for loss_name, loss in train_losses.items():`
			`single_loss = loss.mean()`
			`train_loss_batch += single_loss`
			`train_losses_log[loss_name] = to_numpy(single_loss).item()`

			`####################################################################################################`
			`# SUMMARY`
			`if train_steps_current % steps_til_summary == 0:`
			`# TRAINING`
			`print(f"\n-----------------------------------------")`
			`print(f"train_steps_current: {train_steps_current}")`
			`print(f"t_training_loss: {t_training_loss.elapsed:.4f} sec")`
			`print(f"Total training loss {train_loss_batch:.4f}")`
			`print(f"Training losses {train_losses}")`

			`train_losses_l.append((train_steps_current, train_losses_log))`

			`with TimerCUDA() as t_training_summary:`
			`do_summary(`
			`summary_fn,`
			`train_steps_current,`
			`ema_model if ema_model is not None else model,`
			`train_batch_dict,`
			`train_losses_info,`
			`train_subset,`
			`prefix='TRAINING ',`
			`debug=debug,`
			`tensor_args=tensor_args`
			`)`
			`print(f"t_training_summary: {t_training_summary.elapsed:.4f} sec")`

			`################################################################################################`
			`# VALIDATION LOSS and SUMMARY`
			`validation_losses_log = {}`
			`if val_dataloader is not None:`
			`with TimerCUDA() as t_validation_loss:`
			`print("Running validation...")`
			`val_losses = defaultdict(list)`
			`total_val_loss = 0.`
			`for step_val, batch_dict_val in enumerate(val_dataloader):`
			`batch_dict_val = dict_to_device(batch_dict_val, tensor_args['device'])`
			`val_loss, val_loss_info = loss_fn(`
			`model, batch_dict_val, val_subset.dataset, step=train_steps_current)`
			`for name, value in val_loss.items():`
			`single_loss = to_numpy(value)`
			`val_losses[name].append(single_loss)`
			`total_val_loss += np.mean(single_loss).item()`

			`if step_val == steps_per_validation:`
			`break`

			`validation_losses = {}`
			`for loss_name, loss in val_losses.items():`
			`single_loss = np.mean(loss).item()`
			`validation_losses[f'VALIDATION {loss_name}'] = single_loss`
			`print("... finished validation.")`

			`print(f"t_validation_loss: {t_validation_loss.elapsed:.4f} sec")`
			`print(f"Validation losses {validation_losses}")`

			`validation_losses_log = validation_losses`
			`validation_losses_l.append((train_steps_current, validation_losses_log))`

			`# The validation summary is done only on one batch of the validation data`
			`with TimerCUDA() as t_validation_summary:`
			`do_summary(`
			`summary_fn,`
			`train_steps_current,`
			`ema_model if ema_model is not None else model,`
			`batch_dict_val,`
			`val_loss_info,`
			`val_subset,`
			`prefix='VALIDATION ',`
			`debug=debug,`
			`tensor_args=tensor_args`
			`)`
			`print(f"t_valididation_summary: {t_validation_summary.elapsed:.4f} sec")`

			`wandb.log({train_losses_log, validation_losses_log}, step=train_steps_current)`

			`####################################################################################################`
			`# Early stopping`
			`if early_stopper.early_stop(total_val_loss):`
			`print(f'Early stopped training at {train_steps_current} steps.')`
			`stop_training = True`

			`####################################################################################################`
			`# OPTIMIZE TRAIN LOSS BATCH`
			`with TimerCUDA() as t_training_optimization:`
			`for optim in optimizers:`
			`optim.zero_grad()`

			`scaler.scale(train_loss_batch).backward()`

			`if clip_grad:`
			`for optim in optimizers:`
			`scaler.unscale_(optim)`
			`torch.nn.utils.clip_grad_norm_(`
			`model.parameters(),`
			`max_norm=clip_grad_max_norm if isinstance(clip_grad, bool) else clip_grad`
			`)`

			`for optim in optimizers:`
			`scaler.step(optim)`

			`scaler.update()`

			`if ema_model is not None:`
			`if train_steps_current % update_ema_every == 0:`
			`# update ema`
			`if train_steps_current < step_start_ema:`
			`# reset parameters ema`
			`ema_model.load_state_dict(model.state_dict())`
			`ema.update_model_average(ema_model, model)`

			`if train_steps_current % steps_til_summary == 0:`
			`print(f"t_training_optimization: {t_training_optimization.elapsed:.4f} sec")`

			`####################################################################################################`
			`# SAVING`
			`####################################################################################################`
			`pbar.update(1)`
			`train_steps_current += 1`

			`if (steps_til_checkpoint is not None) and (train_steps_current % steps_til_checkpoint == 0):`
			`save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')],`
			`epoch, train_steps_current, checkpoints_dir)`
			`save_losses_to_disk(train_losses_l, validation_losses_l, checkpoints_dir)`

			`if stop_training or (max_steps is not None and train_steps_current == max_steps):`
			`break`

			`if max_steps is not None and train_steps_current == max_steps:`
			`break`

			`# Update ema model at the end of training`
			`if ema_model is not None:`
			`# update ema`
			`if train_steps_current < step_start_ema:`
			`# reset parameters ema`
			`ema_model.load_state_dict(model.state_dict())`
			`ema.update_model_average(ema_model, model)`

			`# Save model at end of training`
			`save_models_to_disk([(model, 'model'), (ema_model, 'ema_model')],`
			`epoch, train_steps_current, checkpoints_dir)`
			`save_losses_to_disk(train_losses_l, validation_losses_l, checkpoints_dir)`

			`print(f'\n------- TRAINING FINISHED -------')`