flesh out tokenizer even more

2025-10-02 06:11:04 -07:00 · 2025-10-02 06:11:04 -07:00 · 0285bba821
commit 0285bba821
parent 31c4aa28c7
2 changed files with 80 additions and 2 deletions
--- a/dreamer4/dreamer4.py
+++ b/dreamer4/dreamer4.py
@ -24,7 +24,7 @@ from accelerate import Accelerator
 # vh, vw - video height and width
 import einx
-from einops import einsum, rearrange, repeat, reduce
+from einops import einsum, rearrange, repeat, reduce, pack, unpack
 from einops.layers.torch import Rearrange
 # flex attention - but will make sure it works if it is not available
@ -51,9 +51,21 @@ def exists(v):
 def default(v, d):
    return v if exists(v) else d
 def first(arr):
    return arr[0]
 def divisible_by(num, den):
    return (num % den) == 0
 def pack_one(t, pattern):
    packed, packed_shape = pack([t], pattern)
    def inverse(out, inv_pattern = None):
        inv_pattern = default(inv_pattern, pattern)
        return first(unpack(out, packed_shape, inv_pattern))
    return packed, inverse
 def l2norm(t):
    return F.normalize(t, dim = -1, p = 2)
@ -337,12 +349,21 @@ class VideoTokenizer(Module):
        dim,
        dim_latent,
        patch_size,
        encoder_depth = 4,
        decoder_depth = 4,
        attn_kwargs: dict = dict(),
        ff_kwargs: dict = dict(),
        channels = 3
    ):
        super().__init__()
        self.patch_size = patch_size
        # special tokens
        self.latent_token = Parameter(torch.randn(dim) * 1e-2)
        self.mask_token = Parameter(torch.randn(dim) * 1e-2)
        # patch and unpatch
        dim_patch = channels * patch_size ** 2
@ -361,7 +382,14 @@ class VideoTokenizer(Module):
        encoder_layers = []
        for _ in range(encoder_depth):
            encoder_layers.append(ModuleList([
                Attention(dim = dim, **attn_kwargs),
                SwiGLUFeedforward(dim = dim, **ff_kwargs)
            ]))
        self.encoder_layers = ModuleList(encoder_layers)
        self.encoder_norm = RMSNorm(dim)
        # latents
@ -376,7 +404,14 @@ class VideoTokenizer(Module):
        decoder_layers = []
        for _ in range(decoder_depth):
            decoder_layers.append(ModuleList([
                Attention(dim = dim, **attn_kwargs),
                SwiGLUFeedforward(dim = dim, **ff_kwargs)
            ]))
        self.decoder_layers = ModuleList(decoder_layers)
        self.decoder_norm = RMSNorm(dim)
    def forward(
        self,
@ -393,6 +428,26 @@ class VideoTokenizer(Module):
        tokens = self.patch_to_tokens(video)
        tokens, inverse_pack_space = pack_one(tokens, 'b t * d')
        # add the latent
        latents = repeat(self.latent_token, 'd -> b t 1 d', b = tokens.shape[0], t = tokens.shape[1])
        tokens = cat((tokens, latents), dim = -2)
        # pack time
        tokens, inverse_pack_time = pack_one(tokens, 'b * d')
        # encoder
        for attn, ff in self.encoder_layers:
            tokens = attn(tokens) + tokens
            tokens = ff(tokens) + tokens
        tokens = self.encoder_norm(tokens)
        # latent bottleneck
        latents = self.encoded_to_latents(tokens)
@ -402,7 +457,27 @@ class VideoTokenizer(Module):
        tokens = self.latents_to_decoder(latents)
-        # from tokens back to video
+        # decoder
        for attn, ff in self.decoder_layers:
            tokens = attn(tokens) + tokens
            tokens = ff(tokens) + tokens
        tokens = self.decoder_norm(tokens)
        # unpack time
        tokens = inverse_pack_time(tokens)
        # excise latents
        tokens = tokens[..., :-1, :]
        # unpack space
        tokens = inverse_pack_space(tokens)
        # project back to patches
        recon_video = self.tokens_to_patch(tokens)
--- a/tests/test_dreamer.py
+++ b/tests/test_dreamer.py
@ -24,3 +24,6 @@ def test_tokenizer():
    loss = tokenizer(x)
    assert loss.numel() == 1
    latents = tokenizer(x, return_latents = True)
    assert latents.shape[-1] == 32