the function for generating the MTP targets, as well as the mask for the losses

2025-10-18 08:04:51 -07:00 · 2025-10-18 08:04:51 -07:00 · 5fc0022bbf
commit 5fc0022bbf
parent 83cfd2cd1b
2 changed files with 38 additions and 0 deletions
--- a/dreamer4/dreamer4.py
+++ b/dreamer4/dreamer4.py
@ -173,6 +173,28 @@ def l2norm(t):
 def softclamp(t, value = 50.):
    return (t / value).tanh() * value
 def create_multi_token_prediction_targets(
    t, # (b t ...)
    steps_future
 ): # (b t-1 steps ...), (b t-1 steps) - targets and the mask, where mask is False for padding
    batch, seq_len, device = *t.shape[:2], t.device
    batch_arange = arange(batch, device = device)
    seq_arange = arange(seq_len, device = device)[1:]
    steps_arange = arange(steps_future, device = device)
    indices = add('t, steps -> t steps', seq_arange, steps_arange)
    mask = indices < seq_len
    batch_arange = rearrange(batch_arange, 'b -> b 1 1')
    indices[~mask] = 0
    mask = repeat(mask, 't steps -> b t steps', b = batch)
    return t[batch_arange, indices], mask
 # loss related
 class LPIPSLoss(Module):
--- a/tests/test_dreamer.py
+++ b/tests/test_dreamer.py
@ -385,3 +385,19 @@ def test_action_embedder():
    )
    assert torch.allclose(discrete_log_probs, parallel_discrete_log_probs, atol = 1e-5)
 def test_mtp():
    from dreamer4.dreamer4 import create_multi_token_prediction_targets
    rewards = torch.randn(3, 16) # (b t)
    reward_targets, mask = create_multi_token_prediction_targets(rewards, 3) # say three token lookahead
    assert reward_targets.shape == (3, 15, 3)
    assert mask.shape == (3, 15, 3)
    actions = torch.randint(0, 10, (3, 16, 2))
    action_targets, mask = create_multi_token_prediction_targets(actions, 3)
    assert action_targets.shape == (3, 15, 3, 2)
    assert mask.shape == (3, 15, 3)