Tianshou/tianshou/highlevel/module/actor.py

from abc import ABC, abstractmethod
from collections.abc import Sequence
from enum import Enum

import torch
from torch import nn

from tianshou.highlevel.env import Environments, EnvType
from tianshou.highlevel.module.core import TDevice, init_linear_orthogonal
from tianshou.highlevel.module.module_opt import ModuleOpt
from tianshou.highlevel.optim import OptimizerFactory
from tianshou.utils.net import continuous, discrete
from tianshou.utils.net.common import BaseActor, Net
from tianshou.utils.string import ToStringMixin


class ContinuousActorType(Enum):
    GAUSSIAN = "gaussian"
    DETERMINISTIC = "deterministic"
    UNSUPPORTED = "unsupported"


class ActorFactory(ToStringMixin, ABC):
    @abstractmethod
    def create_module(self, envs: Environments, device: TDevice) -> BaseActor | nn.Module:
        pass

    def create_module_opt(
        self,
        envs: Environments,
        device: TDevice,
        optim_factory: OptimizerFactory,
        lr: float,
    ) -> ModuleOpt:
        """Creates the actor module along with its optimizer for the given learning rate.

        :param envs: the environments
        :param device: the torch device
        :param optim_factory: the optimizer factory
        :param lr: the learning rate
        :return: a container with the actor module and its optimizer
        """
        module = self.create_module(envs, device)
        optim = optim_factory.create_optimizer(module, lr)
        return ModuleOpt(module, optim)

    @staticmethod
    def _init_linear(actor: torch.nn.Module) -> None:
        """Initializes linear layers of an actor module using default mechanisms.

        :param module: the actor module.
        """
        init_linear_orthogonal(actor)
        if hasattr(actor, "mu"):
            # For continuous action spaces with Gaussian policies
            # do last policy layer scaling, this will make initial actions have (close to)
            # 0 mean and std, and will help boost performances,
            # see https://arxiv.org/abs/2006.05990, Fig.24 for details
            for m in actor.mu.modules():  # type: ignore
                if isinstance(m, torch.nn.Linear):
                    m.weight.data.copy_(0.01 * m.weight.data)


class ActorFactoryDefault(ActorFactory):
    """An actor factory which, depending on the type of environment, creates a suitable MLP-based policy."""

    DEFAULT_HIDDEN_SIZES = (64, 64)

    def __init__(
        self,
        continuous_actor_type: ContinuousActorType,
        hidden_sizes: Sequence[int] = DEFAULT_HIDDEN_SIZES,
        continuous_unbounded: bool = False,
        continuous_conditioned_sigma: bool = False,
    ):
        self.continuous_actor_type = continuous_actor_type
        self.continuous_unbounded = continuous_unbounded
        self.continuous_conditioned_sigma = continuous_conditioned_sigma
        self.hidden_sizes = hidden_sizes

    def create_module(self, envs: Environments, device: TDevice) -> BaseActor:
        env_type = envs.get_type()
        factory: ActorFactoryContinuousDeterministicNet | ActorFactoryContinuousGaussianNet | ActorFactoryDiscreteNet
        if env_type == EnvType.CONTINUOUS:
            match self.continuous_actor_type:
                case ContinuousActorType.GAUSSIAN:
                    factory = ActorFactoryContinuousGaussianNet(
                        self.hidden_sizes,
                        unbounded=self.continuous_unbounded,
                        conditioned_sigma=self.continuous_conditioned_sigma,
                    )
                case ContinuousActorType.DETERMINISTIC:
                    factory = ActorFactoryContinuousDeterministicNet(self.hidden_sizes)
                case ContinuousActorType.UNSUPPORTED:
                    raise ValueError("Continuous action spaces are not supported by the algorithm")
                case _:
                    raise ValueError(self.continuous_actor_type)
            return factory.create_module(envs, device)
        elif env_type == EnvType.DISCRETE:
            factory = ActorFactoryDiscreteNet(self.DEFAULT_HIDDEN_SIZES)
            return factory.create_module(envs, device)
        else:
            raise ValueError(f"{env_type} not supported")


class ActorFactoryContinuous(ActorFactory, ABC):
    """Serves as a type bound for actor factories that are suitable for continuous action spaces."""


class ActorFactoryContinuousDeterministicNet(ActorFactoryContinuous):
    def __init__(self, hidden_sizes: Sequence[int]):
        self.hidden_sizes = hidden_sizes

    def create_module(self, envs: Environments, device: TDevice) -> BaseActor:
        net_a = Net(
            envs.get_observation_shape(),
            hidden_sizes=self.hidden_sizes,
            device=device,
        )
        return continuous.Actor(
            net_a,
            envs.get_action_shape(),
            hidden_sizes=(),
            device=device,
        ).to(device)


class ActorFactoryContinuousGaussianNet(ActorFactoryContinuous):
    def __init__(
        self,
        hidden_sizes: Sequence[int],
        unbounded: bool = True,
        conditioned_sigma: bool = False,
    ):
        self.hidden_sizes = hidden_sizes
        self.unbounded = unbounded
        self.conditioned_sigma = conditioned_sigma

    def create_module(self, envs: Environments, device: TDevice) -> BaseActor:
        net_a = Net(
            envs.get_observation_shape(),
            hidden_sizes=self.hidden_sizes,
            activation=nn.Tanh,
            device=device,
        )
        actor = continuous.ActorProb(
            net_a,
            envs.get_action_shape(),
            unbounded=self.unbounded,
            device=device,
            conditioned_sigma=self.conditioned_sigma,
        ).to(device)

        # init params
        if not self.conditioned_sigma:
            torch.nn.init.constant_(actor.sigma_param, -0.5)
        self._init_linear(actor)

        return actor


class ActorFactoryDiscreteNet(ActorFactory):
    def __init__(self, hidden_sizes: Sequence[int]):
        self.hidden_sizes = hidden_sizes

    def create_module(self, envs: Environments, device: TDevice) -> BaseActor:
        net_a = Net(
            envs.get_observation_shape(),
            hidden_sizes=self.hidden_sizes,
            device=device,
        )
        return discrete.Actor(
            net_a,
            envs.get_action_shape(),
            hidden_sizes=(),
            device=device,
        ).to(device)
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`from abc import ABC, abstractmethod`
			`from collections.abc import Sequence`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`from enum import Enum`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00
			`import torch`
			`from torch import nn`

Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`from tianshou.highlevel.env import Environments, EnvType`
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`from tianshou.highlevel.module.core import TDevice, init_linear_orthogonal`
Support PG/Reinforce in high-level API * Add example mujoco_reinforce_hl * Extended functionality of ActorFactory to support creation of ModuleOpt 2023-10-10 12:55:25 +02:00			`from tianshou.highlevel.module.module_opt import ModuleOpt`
			`from tianshou.highlevel.optim import OptimizerFactory`
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`from tianshou.utils.net import continuous, discrete`
			`from tianshou.utils.net.common import BaseActor, Net`
Log full experiment configuration, adding string representations to relevant classes 2023-10-03 21:14:22 +02:00			`from tianshou.utils.string import ToStringMixin`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00

Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`class ContinuousActorType(Enum):`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`GAUSSIAN = "gaussian"`
			`DETERMINISTIC = "deterministic"`
Change high-level DQN interface to expect an actor instead of a critic, because that is what is functionally required 2023-10-05 19:21:08 +02:00			`UNSUPPORTED = "unsupported"`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00

Log full experiment configuration, adding string representations to relevant classes 2023-10-03 21:14:22 +02:00			`class ActorFactory(ToStringMixin, ABC):`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`@abstractmethod`
Change high-level DQN interface to expect an actor instead of a critic, because that is what is functionally required 2023-10-05 19:21:08 +02:00			`def create_module(self, envs: Environments, device: TDevice) -> BaseActor \| nn.Module:`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`pass`

Support PG/Reinforce in high-level API * Add example mujoco_reinforce_hl * Extended functionality of ActorFactory to support creation of ModuleOpt 2023-10-10 12:55:25 +02:00			`def create_module_opt(`
Simplify critic/agent with optimizer generation After adding a function to create ModuleOpt instances directly from AgentFactory and CriticFactory, * several mixins for AgentFactories are no longer needed (deleted) * additional abstractions for ModuleOptFactories are no longer needed (deleted) 2023-10-10 13:12:25 +02:00			`self,`
			`envs: Environments,`
			`device: TDevice,`
			`optim_factory: OptimizerFactory,`
			`lr: float,`
Support PG/Reinforce in high-level API * Add example mujoco_reinforce_hl * Extended functionality of ActorFactory to support creation of ModuleOpt 2023-10-10 12:55:25 +02:00			`) -> ModuleOpt:`
			`"""Creates the actor module along with its optimizer for the given learning rate.`

			`:param envs: the environments`
			`:param device: the torch device`
			`:param optim_factory: the optimizer factory`
			`:param lr: the learning rate`
			`:return: a container with the actor module and its optimizer`
			`"""`
			`module = self.create_module(envs, device)`
			`optim = optim_factory.create_optimizer(module, lr)`
			`return ModuleOpt(module, optim)`

Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`@staticmethod`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`def _init_linear(actor: torch.nn.Module) -> None:`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`"""Initializes linear layers of an actor module using default mechanisms.`

			`:param module: the actor module.`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`"""`
			`init_linear_orthogonal(actor)`
			`if hasattr(actor, "mu"):`
			`# For continuous action spaces with Gaussian policies`
			`# do last policy layer scaling, this will make initial actions have (close to)`
			`# 0 mean and std, and will help boost performances,`
			`# see https://arxiv.org/abs/2006.05990, Fig.24 for details`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`for m in actor.mu.modules(): # type: ignore`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`if isinstance(m, torch.nn.Linear):`
			`m.weight.data.copy_(0.01 * m.weight.data)`


Adapt class naming scheme * Use prefix convention (subclasses have superclass names as prefix) to facilitate discoverability of relevant classes via IDE autocompletion * Use dual naming, adding an alternative concise name that omits the precise OO semantics and retains only the essential part of the name (which can be more pleasing to users not accustomed to convoluted OO naming) 2023-09-27 17:20:35 +02:00			`class ActorFactoryDefault(ActorFactory):`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`"""An actor factory which, depending on the type of environment, creates a suitable MLP-based policy."""`

Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`DEFAULT_HIDDEN_SIZES = (64, 64)`

			`def __init__(`
			`self,`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`continuous_actor_type: ContinuousActorType,`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`hidden_sizes: Sequence[int] = DEFAULT_HIDDEN_SIZES,`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`continuous_unbounded: bool = False,`
			`continuous_conditioned_sigma: bool = False,`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`):`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`self.continuous_actor_type = continuous_actor_type`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`self.continuous_unbounded = continuous_unbounded`
			`self.continuous_conditioned_sigma = continuous_conditioned_sigma`
			`self.hidden_sizes = hidden_sizes`

Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`def create_module(self, envs: Environments, device: TDevice) -> BaseActor:`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`env_type = envs.get_type()`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`factory: ActorFactoryContinuousDeterministicNet \| ActorFactoryContinuousGaussianNet \| ActorFactoryDiscreteNet`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`if env_type == EnvType.CONTINUOUS:`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`match self.continuous_actor_type:`
			`case ContinuousActorType.GAUSSIAN:`
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`factory = ActorFactoryContinuousGaussianNet(`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`self.hidden_sizes,`
			`unbounded=self.continuous_unbounded,`
			`conditioned_sigma=self.continuous_conditioned_sigma,`
			`)`
			`case ContinuousActorType.DETERMINISTIC:`
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`factory = ActorFactoryContinuousDeterministicNet(self.hidden_sizes)`
Change high-level DQN interface to expect an actor instead of a critic, because that is what is functionally required 2023-10-05 19:21:08 +02:00			`case ContinuousActorType.UNSUPPORTED:`
			`raise ValueError("Continuous action spaces are not supported by the algorithm")`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`case _:`
			`raise ValueError(self.continuous_actor_type)`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`return factory.create_module(envs, device)`
			`elif env_type == EnvType.DISCRETE:`
Change high-level DQN interface to expect an actor instead of a critic, because that is what is functionally required 2023-10-05 19:21:08 +02:00			`factory = ActorFactoryDiscreteNet(self.DEFAULT_HIDDEN_SIZES)`
			`return factory.create_module(envs, device)`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`else:`
			`raise ValueError(f"{env_type} not supported")`


Adapt class naming scheme * Use prefix convention (subclasses have superclass names as prefix) to facilitate discoverability of relevant classes via IDE autocompletion * Use dual naming, adding an alternative concise name that omits the precise OO semantics and retains only the essential part of the name (which can be more pleasing to users not accustomed to convoluted OO naming) 2023-09-27 17:20:35 +02:00			`class ActorFactoryContinuous(ActorFactory, ABC):`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`"""Serves as a type bound for actor factories that are suitable for continuous action spaces."""`

Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`class ActorFactoryContinuousDeterministicNet(ActorFactoryContinuous):`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`def __init__(self, hidden_sizes: Sequence[int]):`
			`self.hidden_sizes = hidden_sizes`

Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`def create_module(self, envs: Environments, device: TDevice) -> BaseActor:`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`net_a = Net(`
			`envs.get_observation_shape(),`
			`hidden_sizes=self.hidden_sizes,`
			`device=device,`
			`)`
			`return continuous.Actor(`
			`net_a,`
			`envs.get_action_shape(),`
			`hidden_sizes=(),`
			`device=device,`
			`).to(device)`

Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`class ActorFactoryContinuousGaussianNet(ActorFactoryContinuous):`
Improve type annotations, fix type issues and add checks 2023-10-09 17:22:52 +02:00			`def __init__(`
			`self,`
			`hidden_sizes: Sequence[int],`
			`unbounded: bool = True,`
			`conditioned_sigma: bool = False,`
			`):`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`self.hidden_sizes = hidden_sizes`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`self.unbounded = unbounded`
			`self.conditioned_sigma = conditioned_sigma`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`def create_module(self, envs: Environments, device: TDevice) -> BaseActor:`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`net_a = Net(`
Improve high-level policy parametrisation Policy objects are now parametrised by converting the parameter dataclass instances to kwargs, using some injectable conversions along the way 2023-09-25 17:56:37 +02:00			`envs.get_observation_shape(),`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`hidden_sizes=self.hidden_sizes,`
			`activation=nn.Tanh,`
			`device=device,`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`)`
Add high-level API support for TD3 * Created mixins for agent factories to reduce code duplication * Further factorised params & mixins for experiment factories * Additional parameter abstractions * Implement high-level MuJoCo TD3 example 2023-09-26 15:35:18 +02:00			`actor = continuous.ActorProb(`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`net_a,`
			`envs.get_action_shape(),`
Refactoring, dropping package config 2023-09-20 13:15:06 +02:00			`unbounded=self.unbounded,`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`device=device,`
			`conditioned_sigma=self.conditioned_sigma,`
			`).to(device)`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00
			`# init params`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`if not self.conditioned_sigma:`
			`torch.nn.init.constant_(actor.sigma_param, -0.5)`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`self._init_linear(actor)`

			`return actor`


Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`class ActorFactoryDiscreteNet(ActorFactory):`
Add high-level experiment builder interface 2023-09-21 12:36:27 +02:00			`def __init__(self, hidden_sizes: Sequence[int]):`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`self.hidden_sizes = hidden_sizes`

Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`def create_module(self, envs: Environments, device: TDevice) -> BaseActor:`
			`net_a = Net(`
Improve high-level policy parametrisation Policy objects are now parametrised by converting the parameter dataclass instances to kwargs, using some injectable conversions along the way 2023-09-25 17:56:37 +02:00			`envs.get_observation_shape(),`
Add SAC high-level interface 2023-09-20 09:29:34 +02:00			`hidden_sizes=self.hidden_sizes,`
			`device=device,`
Initial high-level interfaces, demonstrated in mujoco_ppo_hl 2023-09-19 18:53:11 +02:00			`)`
Add support for discrete PPO * Refactored module `module` (split into submodules) * Basic support for discrete environments * Implement Atari env. factory * Implement DQN-based actor factory * Implement notion of reusing agent preprocessing network for critic * Add example atari_ppo_hl 2023-09-28 20:07:52 +02:00			`return discrete.Actor(`
			`net_a,`
			`envs.get_action_shape(),`
			`hidden_sizes=(),`
			`device=device,`
			`).to(device)`