imitation with discrete action space

2020-04-20 11:25:20 +08:00 · 2020-04-20 11:25:20 +08:00 · 815f3522bb
commit 815f3522bb
parent 6bf1ea644d
6 changed files with 81 additions and 42 deletions
--- a/test/continuous/test_sac_with_il.py
+++ b/test/continuous/test_sac_with_il.py
@ -121,7 +121,7 @@ def test_sac_with_il(args=get_args()):
    net = Actor(1, args.state_shape, args.action_shape,
                args.max_action, args.device).to(args.device)
    optim = torch.optim.Adam(net.parameters(), lr=args.il_lr)
-    il_policy = ImitationPolicy(net, optim)
+    il_policy = ImitationPolicy(net, optim, mode='continuous')
    il_test_collector = Collector(il_policy, test_envs)
    train_collector.reset()
    result = offpolicy_trainer(
--- a/test/discrete/test_a2c_with_il.py
+++ b/test/discrete/test_a2c_with_il.py
@ -6,10 +6,10 @@ import argparse
 import numpy as np
 from torch.utils.tensorboard import SummaryWriter

-from tianshou.policy import A2CPolicy
 from tianshou.env import VectorEnv
-from tianshou.trainer import onpolicy_trainer
 from tianshou.data import Collector, ReplayBuffer
+from tianshou.policy import A2CPolicy, ImitationPolicy
+from tianshou.trainer import onpolicy_trainer, offpolicy_trainer

 if __name__ == '__main__':
    from net import Net, Actor, Critic
@ -23,6 +23,7 @@ def get_args():
    parser.add_argument('--seed', type=int, default=1626)
    parser.add_argument('--buffer-size', type=int, default=20000)
    parser.add_argument('--lr', type=float, default=3e-4)
+    parser.add_argument('--il-lr', type=float, default=1e-3)
    parser.add_argument('--gamma', type=float, default=0.9)
    parser.add_argument('--epoch', type=int, default=10)
    parser.add_argument('--step-per-epoch', type=int, default=1000)
@ -95,7 +96,6 @@ def test_a2c(args=get_args()):
        args.test_num, args.batch_size, stop_fn=stop_fn, save_fn=save_fn,
        writer=writer)
    assert stop_fn(result['best_reward'])
-    train_collector.close()
    test_collector.close()
    if __name__ == '__main__':
        pprint.pprint(result)
@ -106,6 +106,31 @@ def test_a2c(args=get_args()):
        print(f'Final reward: {result["rew"]}, length: {result["len"]}')
        collector.close()

+    # here we define an imitation collector with a trivial policy
+    if args.task == 'Pendulum-v0':
+        env.spec.reward_threshold = -300  # lower the goal
+    net = Net(1, args.state_shape, device=args.device)
+    net = Actor(net, args.action_shape).to(args.device)
+    optim = torch.optim.Adam(net.parameters(), lr=args.il_lr)
+    il_policy = ImitationPolicy(net, optim, mode='discrete')
+    il_test_collector = Collector(il_policy, test_envs)
+    train_collector.reset()
+    result = offpolicy_trainer(
+        il_policy, train_collector, il_test_collector, args.epoch,
+        args.step_per_epoch, args.collect_per_step, args.test_num,
+        args.batch_size, stop_fn=stop_fn, save_fn=save_fn, writer=writer)
+    assert stop_fn(result['best_reward'])
+    train_collector.close()
+    il_test_collector.close()
+    if __name__ == '__main__':
+        pprint.pprint(result)
+        # Let's watch its performance!
+        env = gym.make(args.task)
+        collector = Collector(il_policy, env)
+        result = collector.collect(n_episode=1, render=args.render)
+        print(f'Final reward: {result["rew"]}, length: {result["len"]}')
+        collector.close()
+

 if __name__ == '__main__':
    test_a2c()
--- a/test/discrete/test_pg.py
+++ b/test/discrete/test_pg.py
@ -167,5 +167,5 @@ def test_pg(args=get_args()):


 if __name__ == '__main__':
-    test_fn()
+    # test_fn()
    test_pg()
--- a/tianshou/policy/init.py
+++ b/tianshou/policy/init.py
@ -1,5 +1,5 @@
 from tianshou.policy.base import BasePolicy
-from tianshou.policy.imitation import ImitationPolicy
+from tianshou.policy.imitation.base import ImitationPolicy
 from tianshou.policy.modelfree.dqn import DQNPolicy
 from tianshou.policy.modelfree.pg import PGPolicy
 from tianshou.policy.modelfree.a2c import A2CPolicy
--- a/tianshou/policy/imitation.py
+++ b/tianshou/policy/imitation.py
@ -1,36 +0,0 @@
-import torch
-import torch.nn.functional as F
-
-from tianshou.data import Batch
-from tianshou.policy import BasePolicy
-
-
-class ImitationPolicy(BasePolicy):
-    """Implementation of vanilla imitation learning (for continuous action space).
-
-    :param torch.nn.Module model: a model following the rules in
-        :class:`~tianshou.policy.BasePolicy`. (s -> a)
-    :param torch.optim.Optimizer optim: a torch.optim for optimizing the model.
-
-    .. seealso::
-
-        Please refer to :class:`~tianshou.policy.BasePolicy` for more detailed
-        explanation.
-    """
-    def __init__(self, model, optim):
-        super().__init__()
-        self.model = model
-        self.optim = optim
-
-    def forward(self, batch, state=None):
-        a, h = self.model(batch.obs, state=state, info=batch.info)
-        return Batch(act=a, state=h)
-
-    def learn(self, batch, **kwargs):
-        self.optim.zero_grad()
-        a = self(batch).act
-        a_ = torch.tensor(batch.act, dtype=torch.float, device=a.device)
-        loss = F.mse_loss(a, a_)
-        loss.backward()
-        self.optim.step()
-        return {'loss': loss.item()}
--- a/tianshou/policy/imitation/base.py
+++ b/tianshou/policy/imitation/base.py
@ -0,0 +1,50 @@
+import torch
+import torch.nn.functional as F
+
+from tianshou.data import Batch
+from tianshou.policy import BasePolicy
+
+
+class ImitationPolicy(BasePolicy):
+    """Implementation of vanilla imitation learning (for continuous action space).
+
+    :param torch.nn.Module model: a model following the rules in
+        :class:`~tianshou.policy.BasePolicy`. (s -> a)
+    :param torch.optim.Optimizer optim: for optimizing the model.
+    :param str mode: indicate the imitation type ("continuous" or "discrete"
+        action space), defaults to "continuous".
+
+    .. seealso::
+
+        Please refer to :class:`~tianshou.policy.BasePolicy` for more detailed
+        explanation.
+    """
+    def __init__(self, model, optim, mode='continuous'):
+        super().__init__()
+        self.model = model
+        self.optim = optim
+        assert mode in ['continuous', 'discrete'], \
+            f'Mode {mode} is not in ["continuous", "discrete"]'
+        self.mode = mode
+
+    def forward(self, batch, state=None):
+        logits, h = self.model(batch.obs, state=state, info=batch.info)
+        if self.mode == 'discrete':
+            a = logits.max(dim=1)[1]
+        else:
+            a = logits
+        return Batch(logits=logits, act=a, state=h)
+
+    def learn(self, batch, **kwargs):
+        self.optim.zero_grad()
+        if self.mode == 'continuous':
+            a = self(batch).act
+            a_ = torch.tensor(batch.act, dtype=torch.float, device=a.device)
+            loss = F.mse_loss(a, a_)
+        elif self.mode == 'discrete':  # classification
+            a = self(batch).logits
+            a_ = torch.tensor(batch.act, dtype=torch.long, device=a.device)
+            loss = F.nll_loss(a, a_)
+        loss.backward()
+        self.optim.step()
+        return {'loss': loss.item()}