if optimizer is passed into the learn from dreams function, take the optimizer steps, otherwise let the researcher handle it externally. also ready muon

2025-10-17 08:55:20 -07:00 · 2025-10-17 08:55:20 -07:00 · 0c1b067f97
commit 0c1b067f97
parent cb416c0d44
1 changed files with 22 additions and 1 deletions
--- a/dreamer4/dreamer4.py
+++ b/dreamer4/dreamer4.py
@ -17,6 +17,9 @@ from torch import nn, cat, stack, arange, tensor, Tensor, is_tensor, zeros, ones
 import torchvision
 from torchvision.models import VGG16_Weights

+from torch.optim import Optimizer
+from adam_atan2_pytorch import MuonAdamAtan2
+
 from x_mlps_pytorch.normed_mlp import create_mlp
 from x_mlps_pytorch.ensemble import Ensemble

@ -1699,7 +1702,9 @@ class DynamicsWorldModel(Module):

    def learn_policy_from_generations(
        self,
-        generation: Experience
+        generation: Experience,
+        policy_optim: Optimizer | None = None,
+        value_optim: Optimizer | None = None
    ):
        latents = generation.latents
        actions = generation.actions
@ -1771,6 +1776,14 @@ class DynamicsWorldModel(Module):
            entropy_loss * self.policy_entropy_weight
        )

+        # maye take policy optimizer step
+
+        if exists(policy_optim):
+            total_policy_loss.backward()
+
+            policy_optim.step()
+            policy_optim.zero_grad()
+
        # value loss

        value_bins = self.value_head(agent_embed)
@ -1786,6 +1799,14 @@ class DynamicsWorldModel(Module):

        value_loss = torch.maximum(value_loss_1, value_loss_2).mean()

+        # maybe take value optimizer step
+
+        if exists(policy_optim):
+            value_loss.backward()
+
+            value_optim.step()
+            value_optim.zero_grad()
+
        return total_policy_loss, value_loss

    @torch.no_grad()