Add DDPG high-level API and MuJoCo example

2023-10-03 20:26:39 +02:00 · 2023-10-03 20:26:39 +02:00 · 2671580c6c
commit 2671580c6c
parent 6b6d9ea609
7 changed files with 234 additions and 8 deletions
--- a/examples/atari/atari_network.py
+++ b/examples/atari/atari_network.py
@ -247,6 +247,9 @@ class ActorFactoryAtariDQN(ActorFactory):
 class FeatureNetFactoryDQN(ModuleFactory):
    def create_module(self, envs: Environments, device: TDevice) -> Module:
        dqn = DQN(
-            *envs.get_observation_shape(), envs.get_action_shape(), device, features_only=True,
+            *envs.get_observation_shape(),
            envs.get_action_shape(),
            device,
            features_only=True,
        )
        return Module(dqn.net, dqn.output_dim)
--- a/examples/mujoco/mujoco_ddpg_hl.py
+++ b/examples/mujoco/mujoco_ddpg_hl.py
@ -0,0 +1,78 @@
 #!/usr/bin/env python3
 import datetime
 import os
 from collections.abc import Sequence
 from jsonargparse import CLI
 from examples.mujoco.mujoco_env import MujocoEnvFactory
 from tianshou.highlevel.config import RLSamplingConfig
 from tianshou.highlevel.experiment import (
    DDPGExperimentBuilder,
    RLExperimentConfig,
 )
 from tianshou.highlevel.params.noise import MaxActionScaledGaussian
 from tianshou.highlevel.params.policy_params import DDPGParams
 def main(
    experiment_config: RLExperimentConfig,
    task: str = "Ant-v3",
    buffer_size: int = 1000000,
    hidden_sizes: Sequence[int] = (256, 256),
    actor_lr: float = 1e-3,
    critic_lr: float = 1e-3,
    gamma: float = 0.99,
    tau: float = 0.005,
    exploration_noise: float = 0.1,
    start_timesteps: int = 25000,
    epoch: int = 200,
    step_per_epoch: int = 5000,
    step_per_collect: int = 1,
    update_per_step: int = 1,
    n_step: int = 1,
    batch_size: int = 256,
    training_num: int = 1,
    test_num: int = 10,
 ):
    now = datetime.datetime.now().strftime("%y%m%d-%H%M%S")
    log_name = os.path.join(task, "ppo", str(experiment_config.seed), now)
    sampling_config = RLSamplingConfig(
        num_epochs=epoch,
        step_per_epoch=step_per_epoch,
        batch_size=batch_size,
        num_train_envs=training_num,
        num_test_envs=test_num,
        buffer_size=buffer_size,
        step_per_collect=step_per_collect,
        update_per_step=update_per_step,
        repeat_per_collect=None,
        start_timesteps=start_timesteps,
        start_timesteps_random=True,
    )
    env_factory = MujocoEnvFactory(task, experiment_config.seed, sampling_config)
    experiment = (
        DDPGExperimentBuilder(experiment_config, env_factory, sampling_config)
        .with_ddpg_params(
            DDPGParams(
                actor_lr=actor_lr,
                critic_lr=critic_lr,
                gamma=gamma,
                tau=tau,
                exploration_noise=MaxActionScaledGaussian(exploration_noise),
                estimation_step=n_step,
            ),
        )
        .with_actor_factory_default(hidden_sizes)
        .with_critic_factory_default(hidden_sizes)
        .build()
    )
    experiment.run(log_name)
 if __name__ == "__main__":
    CLI(main)
--- a/tianshou/highlevel/agent.py
+++ b/tianshou/highlevel/agent.py
@ -22,6 +22,7 @@ from tianshou.highlevel.module.module_opt import (
 from tianshou.highlevel.optim import OptimizerFactory
 from tianshou.highlevel.params.policy_params import (
    A2CParams,
    DDPGParams,
    Params,
    ParamTransformerData,
    PPOParams,
@ -29,7 +30,14 @@ from tianshou.highlevel.params.policy_params import (
    TD3Params,
 )
 from tianshou.highlevel.params.policy_wrapper import PolicyWrapperFactory
-from tianshou.policy import A2CPolicy, BasePolicy, PPOPolicy, SACPolicy, TD3Policy
+from tianshou.policy import (
    A2CPolicy,
    BasePolicy,
    DDPGPolicy,
    PPOPolicy,
    SACPolicy,
    TD3Policy,
 )
 from tianshou.trainer import BaseTrainer, OffpolicyTrainer, OnpolicyTrainer
 from tianshou.utils.net import continuous, discrete
 from tianshou.utils.net.common import ActorCritic
@ -71,7 +79,8 @@ class AgentFactory(ABC):
        return train_collector, test_collector
    def set_policy_wrapper_factory(
-        self, policy_wrapper_factory: PolicyWrapperFactory | None,
+        self,
        policy_wrapper_factory: PolicyWrapperFactory | None,
    ) -> None:
        self.policy_wrapper_factory = policy_wrapper_factory
@ -83,7 +92,10 @@ class AgentFactory(ABC):
        policy = self._create_policy(envs, device)
        if self.policy_wrapper_factory is not None:
            policy = self.policy_wrapper_factory.create_wrapped_policy(
-                policy, envs, self.optim_factory, device,
+                policy,
                envs,
                self.optim_factory,
                device,
            )
        return policy
@ -372,6 +384,49 @@ class PPOAgentFactory(ActorCriticAgentFactory[PPOParams, PPOPolicy]):
        return self.create_actor_critic_module_opt(envs, device, self.params.lr)
 class DDPGAgentFactory(OffpolicyAgentFactory, _ActorAndCriticMixin):
    def __init__(
        self,
        params: DDPGParams,
        sampling_config: RLSamplingConfig,
        actor_factory: ActorFactory,
        critic_factory: CriticFactory,
        optim_factory: OptimizerFactory,
    ):
        super().__init__(sampling_config, optim_factory)
        _ActorAndCriticMixin.__init__(
            self,
            actor_factory,
            critic_factory,
            optim_factory,
            critic_use_action=True,
        )
        self.params = params
        self.optim_factory = optim_factory
    def _create_policy(self, envs: Environments, device: TDevice) -> BasePolicy:
        actor = self.create_actor_module_opt(envs, device, self.params.actor_lr)
        critic = self.create_critic_module_opt(envs, device, self.params.critic_lr)
        kwargs = self.params.create_kwargs(
            ParamTransformerData(
                envs=envs,
                device=device,
                optim_factory=self.optim_factory,
                actor=actor,
                critic1=critic,
            ),
        )
        return DDPGPolicy(
            actor=actor.module,
            actor_optim=actor.optim,
            critic=critic.module,
            critic_optim=critic.optim,
            action_space=envs.get_action_space(),
            observation_space=envs.get_observation_space(),
            **kwargs,
        )
 class SACAgentFactory(OffpolicyAgentFactory, _ActorAndDualCriticsMixin):
    def __init__(
        self,
--- a/tianshou/highlevel/config.py
+++ b/tianshou/highlevel/config.py
@ -13,7 +13,7 @@ class RLSamplingConfig:
    num_test_envs: int = 10
    buffer_size: int = 4096
    step_per_collect: int = 2048
-    repeat_per_collect: int = 10
+    repeat_per_collect: int | None = 10
    update_per_step: int = 1
    start_timesteps: int = 0
    start_timesteps_random: bool = False
--- a/tianshou/highlevel/experiment.py
+++ b/tianshou/highlevel/experiment.py
@ -11,6 +11,7 @@ from tianshou.data import Collector
 from tianshou.highlevel.agent import (
    A2CAgentFactory,
    AgentFactory,
    DDPGAgentFactory,
    PPOAgentFactory,
    SACAgentFactory,
    TD3AgentFactory,
@ -27,6 +28,7 @@ from tianshou.highlevel.module.critic import CriticFactory, CriticFactoryDefault
 from tianshou.highlevel.optim import OptimizerFactory, OptimizerFactoryAdam
 from tianshou.highlevel.params.policy_params import (
    A2CParams,
    DDPGParams,
    PPOParams,
    SACParams,
    TD3Params,
@ -406,13 +408,11 @@ class PPOExperimentBuilder(
        experiment_config: RLExperimentConfig,
        env_factory: EnvFactory,
        sampling_config: RLSamplingConfig,
        env_config: PersistableConfigProtocol | None = None,
    ):
        super().__init__(experiment_config, env_factory, sampling_config)
        _BuilderMixinActorFactory_ContinuousGaussian.__init__(self)
        _BuilderMixinSingleCriticFactory.__init__(self)
        self._params: PPOParams = PPOParams()
        self._env_config = env_config
    def with_ppo_params(self, params: PPOParams) -> Self:
        self._params = params
@ -430,6 +430,39 @@ class PPOExperimentBuilder(
        )
 class DDPGExperimentBuilder(
    RLExperimentBuilder,
    _BuilderMixinActorFactory_ContinuousDeterministic,
    _BuilderMixinSingleCriticFactory,
 ):
    def __init__(
        self,
        experiment_config: RLExperimentConfig,
        env_factory: EnvFactory,
        sampling_config: RLSamplingConfig,
        env_config: PersistableConfigProtocol | None = None,
    ):
        super().__init__(experiment_config, env_factory, sampling_config)
        _BuilderMixinActorFactory_ContinuousDeterministic.__init__(self)
        _BuilderMixinSingleCriticFactory.__init__(self)
        self._params: DDPGParams = DDPGParams()
        self._env_config = env_config
    def with_ddpg_params(self, params: DDPGParams) -> Self:
        self._params = params
        return self
    @abstractmethod
    def _create_agent_factory(self) -> AgentFactory:
        return DDPGAgentFactory(
            self._params,
            self._sampling_config,
            self._get_actor_factory(),
            self._get_critic_factory(0),
            self._get_optim_factory(),
        )
 class SACExperimentBuilder(
    RLExperimentBuilder,
    _BuilderMixinActorFactory_ContinuousGaussian,
--- a/tianshou/highlevel/params/policy_params.py
+++ b/tianshou/highlevel/params/policy_params.py
@ -128,6 +128,28 @@ class ParamTransformerMultiLRScheduler(ParamTransformer):
        params[self.key_scheduler] = lr_scheduler
 class ParamTransformerActorAndCriticLRScheduler(ParamTransformer):
    def __init__(
        self,
        key_scheduler_factory_actor: str,
        key_scheduler_factory_critic: str,
        key_scheduler: str,
    ):
        self.key_factory_actor = key_scheduler_factory_actor
        self.key_factory_critic = key_scheduler_factory_critic
        self.key_scheduler = key_scheduler
    def transform(self, params: dict[str, Any], data: ParamTransformerData) -> None:
        transformer = ParamTransformerMultiLRScheduler(
            [
                (data.actor.optim, self.key_factory_actor),
                (data.critic1.optim, self.key_factory_critic),
            ],
            self.key_scheduler,
        )
        transformer.transform(params, data)
 class ParamTransformerActorDualCriticsLRScheduler(ParamTransformer):
    def __init__(
        self,
@ -232,6 +254,24 @@ class ParamsMixinLearningRateWithScheduler(GetParamTransformersProtocol):
        ]
@dataclass
 class ParamsMixinActorAndCritic(GetParamTransformersProtocol):
    actor_lr: float = 1e-3
    critic_lr: float = 1e-3
    actor_lr_scheduler_factory: LRSchedulerFactory | None = None
    critic_lr_scheduler_factory: LRSchedulerFactory | None = None
    def _get_param_transformers(self):
        return [
            ParamTransformerDrop("actor_lr", "critic_lr"),
            ParamTransformerActorAndCriticLRScheduler(
                "actor_lr_scheduler_factory",
                "critic_lr_scheduler_factory",
                "lr_scheduler",
            ),
        ]
@dataclass
 class PGParams(Params):
    """Config of general policy-gradient algorithms."""
@ -316,6 +356,22 @@ class SACParams(Params, ParamsMixinActorAndDualCritics):
        return transformers
@dataclass
 class DDPGParams(Params, ParamsMixinActorAndCritic):
    tau: float = 0.005
    gamma: float = 0.99
    exploration_noise: BaseNoise | Literal["default"] | NoiseFactory | None = "default"
    estimation_step: int = 1
    action_scaling: bool = True
    action_bound_method: Literal["clip"] | None = "clip"
    def _get_param_transformers(self):
        transformers = super()._get_param_transformers()
        transformers.extend(ParamsMixinActorAndCritic._get_param_transformers(self))
        transformers.append(ParamTransformerNoiseFactory("exploration_noise"))
        return transformers
@dataclass
 class TD3Params(Params, ParamsMixinActorAndDualCritics):
    tau: float = 0.005
--- a/tianshou/highlevel/params/policy_wrapper.py
+++ b/tianshou/highlevel/params/policy_wrapper.py
@ -25,7 +25,8 @@ class PolicyWrapperFactory(Generic[TPolicyIn, TPolicyOut], ABC):
 class PolicyWrapperFactoryIntrinsicCuriosity(
-    Generic[TPolicyIn], PolicyWrapperFactory[TPolicyIn, ICMPolicy],
+    Generic[TPolicyIn],
    PolicyWrapperFactory[TPolicyIn, ICMPolicy],
 ):
    def __init__(
        self,