decorrelation loss for spatial attention as well

2025-11-09 10:41:54 -08:00 · 2025-11-09 10:41:54 -08:00 · e1c41f4371
commit e1c41f4371
parent f55c61c6cf
2 changed files with 18 additions and 11 deletions
--- a/dreamer4/dreamer4.py
+++ b/dreamer4/dreamer4.py
@ -70,12 +70,14 @@ except ImportError:
 LinearNoBias = partial(Linear, bias = False)
-TokenizerLosses = namedtuple('TokenizerLosses', ('recon', 'lpips', 'time_decorr'))
+TokenizerLosses = namedtuple('TokenizerLosses', ('recon', 'lpips', 'time_decorr', 'space_decorr'))
 WorldModelLosses = namedtuple('WorldModelLosses', ('flow', 'rewards', 'discrete_actions', 'continuous_actions'))
 AttentionIntermediates = namedtuple('AttentionIntermediates', ('next_kv_cache', 'normed_inputs'))
 TransformerIntermediates = namedtuple('TransformerIntermediates', ('next_kv_cache', 'normed_time_inputs', 'normed_space_inputs'))
 MaybeTensor = Tensor | None
@dataclass
@ -1540,6 +1542,7 @@ class AxialSpaceTimeTransformer(Module):
        # normed attention inputs
        normed_time_attn_inputs = []
        normed_space_attn_inputs = []
        # attention
@ -1582,8 +1585,9 @@ class AxialSpaceTimeTransformer(Module):
            # save time attention inputs for decorr
-            if layer_is_time:
+            space_or_time_inputs = normed_time_attn_inputs if layer_is_time else normed_space_attn_inputs
-                normed_time_attn_inputs.append(attn_intermediates.normed_inputs)
+
            space_or_time_inputs.append(attn_intermediates.normed_inputs)
        tokens = self.reduce_streams(tokens)
@ -1596,9 +1600,10 @@ class AxialSpaceTimeTransformer(Module):
        if not return_intermediates:
            return out
-        intermediates = (
+        intermediates = TransformerIntermediates(
            stack(time_attn_kv_caches),
-            stack(normed_time_attn_inputs)
+            stack(normed_time_attn_inputs),
            stack(normed_space_attn_inputs)
        )
        return out, intermediates
@ -1851,7 +1856,7 @@ class VideoTokenizer(Module):
        # encoder attention
-        tokens, (_, time_attn_normed_inputs) = self.encoder_transformer(tokens, return_intermediates = True)
+        tokens, (_, time_attn_normed_inputs, space_attn_normed_inputs) = self.encoder_transformer(tokens, return_intermediates = True)
        # latent bottleneck
@ -1873,17 +1878,19 @@ class VideoTokenizer(Module):
        if self.has_lpips_loss:
            lpips_loss = self.lpips(video, recon_video)
-        decorr_loss = self.zero
+        time_decorr_loss = space_decorr_loss = self.zero
        if self.encoder_add_decor_aux_loss:
-            decorr_loss = self.decorr_loss(time_attn_normed_inputs)
+            time_decorr_loss = self.decorr_loss(time_attn_normed_inputs)
            space_decorr_loss = self.decorr_loss(space_attn_normed_inputs)
        # losses
        total_loss = (
            recon_loss +
            lpips_loss * self.lpips_loss_weight +
-            decorr_loss * self.decorr_aux_loss_weight
+            time_decorr_loss * self.decorr_aux_loss_weight +
            space_decorr_loss * self.decorr_aux_loss_weight
        )
        if not return_all_losses:
@ -3370,7 +3377,7 @@ class DynamicsWorldModel(Module):
            # attention
-            tokens, (next_time_kv_cache, _) = self.transformer(tokens, kv_cache = time_kv_cache, return_intermediates = True)
+            tokens, (next_time_kv_cache, *_) = self.transformer(tokens, kv_cache = time_kv_cache, return_intermediates = True)
            # unpack
--- a/pyproject.toml
+++ b/pyproject.toml
@ -1,6 +1,6 @@
 [project]
 name = "dreamer4"
-version = "0.1.8"
+version = "0.1.10"
 description = "Dreamer 4"
 authors = [
    { name = "Phil Wang", email = "lucidrains@gmail.com" }