pass the attend kwargs for the block causal masking in tokenizer

2025-10-16 08:33:26 -07:00 · 2025-10-16 08:33:26 -07:00 · 2ccb290e26
commit 2ccb290e26
parent 517ef6b94b
2 changed files with 23 additions and 11 deletions
--- a/dreamer4/dreamer4.py
+++ b/dreamer4/dreamer4.py
@ -1278,6 +1278,8 @@ class VideoTokenizer(Module):
        tokens, packed_latent_shape = pack((decoder_pos_emb, latent_tokens), 'b t * d')
        space_seq_len = tokens.shape[-2]
        # pack time
        tokens, inverse_pack_time = pack_one(tokens, 'b * d')
@ -1286,7 +1288,16 @@ class VideoTokenizer(Module):
        # decoder attend
-        decoder_attend_fn = get_attend_fn(use_flex, seq_len, seq_len, causal = True, num_special_tokens = self.num_latent_tokens, special_attend_only_itself = True)
+        decoder_attend_fn = get_attend_fn(
            use_flex,
            seq_len, seq_len,
            causal = True,
            causal_block_size = space_seq_len,
            softclamp_value = self.attn_softclamp_value,
            block_size_per_special = space_seq_len,
            num_special_tokens = self.num_latent_tokens,
            special_attend_only_itself = True # different than encoder
        )
        # decoder attention
@ -1373,14 +1384,6 @@ class VideoTokenizer(Module):
        # attend hyper parameters
        attend_kwargs = dict(
            causal = True,
            causal_block_size = space_seq_len,
            softclamp_value = self.attn_softclamp_value,
            block_size_per_special = space_seq_len,
            num_special_tokens = 1
        )
        use_flex = tokens.is_cuda and exists(flex_attention)
        # encoder attend
@ -1388,7 +1391,16 @@ class VideoTokenizer(Module):
        # modality can only attend to itself while latents can attend to everything
        # similar to agent token in dynamics model
-        encoder_attend_fn = get_attend_fn(use_flex, seq_len, seq_len, causal = True, num_special_tokens = self.num_latent_tokens, special_attend_only_itself = False)
+        encoder_attend_fn = get_attend_fn(
            use_flex,
            seq_len, seq_len,
            causal = True,
            causal_block_size = space_seq_len,
            softclamp_value = self.attn_softclamp_value,
            block_size_per_special = space_seq_len,
            num_special_tokens = self.num_latent_tokens,
            special_attend_only_itself = False # different than decoder
        )
        # encoder
--- a/pyproject.toml
+++ b/pyproject.toml
@ -1,6 +1,6 @@
 [project]
 name = "dreamer4"
-version = "0.0.22"
+version = "0.0.23"
 description = "Dreamer 4"
 authors = [
    { name = "Phil Wang", email = "lucidrains@gmail.com" }