Tianshou/notebooks/L6_Trainer.ipynb

{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "provenance": [],
      "collapsed_sections": [
        "S3-tJZy35Ck_",
        "XfsuU2AAE52C",
        "p-7U_cwgF5Ej",
        "_j3aUJZQ7nml"
      ]
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "language_info": {
      "name": "python"
    }
  },
  "cells": [
    {
      "cell_type": "code",
      "execution_count": null,
      "metadata": {
        "id": "wDZlC0v348Ym"
      },
      "outputs": [],
      "source": [
        "# Remember to install tianshou first\n",
        "!pip install tianshou==0.4.8\n",
        "!pip install gym"
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "# Overview\n",
        "Trainer is the highest-level encapsulation in Tianshou. It controls the training loop and the evaluation method. It also controls the interaction between the Collector and the Policy, with the ReplayBuffer serving as the media.\n",
        "\n",
        "![framework.svg](data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iVVRGLTgiPz4KPCFET0NUWVBFIHN2ZyBQVUJMSUMgIi0vL1czQy8vRFREIFNWRyAxLjEvL0VOIiAiaHR0cDovL3d3dy53My5vcmcvR3JhcGhpY3MvU1ZHLzEuMS9EVEQvc3ZnMTEuZHRkIj4KPHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHhtbG5zOnhsaW5rPSJodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rIiB2ZXJzaW9uPSIxLjEiIHdpZHRoPSI2MTFweCIgaGVpZ2h0PSI0NDJweCIgdmlld0JveD0iLTAuNSAtMC41IDYxMSA0NDIiIGNvbnRlbnQ9IiZsdDtteGZpbGUgaG9zdD0mcXVvdDtFbGVjdHJvbiZxdW90OyBtb2RpZmllZD0mcXVvdDsyMDIyLTA0LTE3VDEzOjMzOjA5LjA3N1omcXVvdDsgYWdlbnQ9JnF1b3Q7NS4wIChXaW5kb3dzIE5UIDEwLjA7IFdpbjY0OyB4NjQpIEFwcGxlV2ViS2l0LzUzNy4zNiAoS0hUTUwsIGxpa2UgR2Vja28pIGRyYXcuaW8vMTQuNS4xIENocm9tZS84OS4wLjQzODkuODIgRWxlY3Ryb24vMTIuMC4xIFNhZmFyaS81MzcuMzYmcXVvdDsgdmVyc2lvbj0mcXVvdDsxNC41LjEmcXVvdDsgZXRhZz0mcXVvdDtJb3BxY0U2Q2U5NkNiVnNkZ1cteiZxdW90OyB0eXBlPSZxdW90O2RldmljZSZxdW90OyZndDsmbHQ7ZGlhZ3JhbSBpZD0mcXVvdDtFUzR4czlIalFlV1pKWGNuT0VQaSZxdW90OyZndDs3VjFiczVzNEV2NDFydHA5aUl2NzVUSG5KSmw5U0xaT2JhWjJkcDZtT0JqYnpHRGtCWHd1Kyt0WE1wS05RTnlNRUhDc1ZDVXhRbURUL1hXcjFXcDlyUFRIdzlzdmlYZmMvd0NiSUZwcHl1WnRwWDlaYWZDUG9jUC9VTXQ3M3VKb2R0NndTOEpOM3FSZUczNkcvd3R3bzRKYlQrRW1TUE0yM0pRQkVHWGhNYVd1OWtFY0IzNUd0WGxKQWw3cGE3Y2dvci8xNk8wQ3FnZHErT2w3VVZEcDlsdTR5ZmFscDBEdC93akMzWjU4czJxNStabURSenJqRzZkN2J3TmVDMDM2MTVYK21BQ1E1WjhPYjQ5QmhJUkg1SkpmOTYzbTdPV0hKVUdjZGJsQXl5OTQ4YUlUZmpiOHU3SjM4ckM3Qkp5T0svMEI5d3lTTEhoalNkbDdqc3BDdS80SzlmSnNFQlFCT0FSWjhnNjc0QnQ5Y2hSOERRYUVadUxqMTZ0NExhTDlmVUcwQnJuUXd5cmRYVzUrZldyNEFUODRXd2g2dXhDZ0RPSk5nUHFyVUJTdit6QUxmaDQ5SDUxOWhSaUhiZnZzRU9IVGFaYUF2eTdJUUMxYkVHZmZ2RU1Zb2VkN0JLY2tEQkw0QmY4TVh2RkpqSEg0aVBxREY0VzdHQjc0VUhxd0cyeElmSHplYk5KRFVkNGFXOTVDeEdsTUs4NksrUHdJeEFGR3A4SlZuUGdDdlFSZXBRcGV3MkZJVzNVNFNOdThjMmtiWFlXdGNSQzJWUkgyNXgzNjJiT1NPQWNabTdTTVZiMHE1SXZnaTBMbUlXTzdIZERvMlVJNEhILzNub1BvQ2FSaEZnSWtrbWVRWmVBQVJVQTZmTWF5eWtCWjVudnZpRzUyZU51aEVHVzlqY0Nydi9lU2JKMmVEb2N3M3YyeFBjVitmdHVlNnZEU1l4NXpiTU0zQklHSFRaZ0UrRlpmVW5CQ0FueElRT2JocGsrdU1vNFNOWnZXb3E1cUZTMnlCZ0dWZ3hLZGlzNkNEUXloOENGSXNqM1lnZGlMdmw1Ykg2NUdnd1NRL2hWay9oNGYvSGs2SE1uRk1SUVViTHJlNHp0QTJqMnI5YzhneTk2eHUvRk9HYUNWSHJ5RjJYL1FIZGNtUHZxOWNPYkxHLzZ5ODhFN09ZamhreGN1UW9lL0Y4OWRMenNmVWRjOUJVa0lSWWRna1Q5VEJoSDJHUVdnMStjNHQzMExrU1N2ZlVnNGNMN1JobHpoUjE2YWhuN2VpQy9CWFFvWHdPdDNRWGI1YXVSM0lKN3gzUnVoek1ZZ1Vsd3pBcUdlNFozOGdQS1IrYzhvbUhRVnAwa1FRU040b2UvT1F0MzVVaWdGNzczUTRRakNPRXNMZDM1Q0RWZjRPeVVmWnBZaTRlYnVaSmlwNjY3WlpsTi8rQ0gvdlZkcnVUeDRKd055MjcwZ0Njekxhb1BlNXBTa1VLNy9DdEljRmozRzRTN0JmTXY0ckpVa3lSaWhpVEpvdjZOemNEekVlZDBpdUVGQ2NkbENhWDlvZzhORHErMFBMVFFrWVE1NVRGakNRZktMbHhJL3YwbkE4VmZpT0c0ZUZsWGxWbDN3QUNCclNtMUZHWlloU2pkNDJGVmEvejJoZWY0RExjNUxNL3kwdy8rZkwwK1BYa3pwbEhSRTkvMlV5L1F6N0tEYXg3ZjZ1enlUaG44SC9zTnB1MFhmbTUrQlQvWmM3ZzNiOHErdE5PY1BRNXBMWUd1SXRJSms3Y1grSGlRMUtDUllpb0p0eGhzQWJ5dktSN3pUaHdWNE9NYmFkU3pIVlhUWHNFek5jS3RnZ1Qwc0I0NTJEanl2R0tyZE1IeDFoazZIUkFTZmJFd3YrVENDLzR1bDBIRWpEMWZXSVhzZ3cvOGlYdXJWV0JxSURYSGh2OW9oS3pIS0tOd2lFdDJwaU1DeXgwSnlOVmxBZTNMYXBlTEJvZDI3cXl6dkRqMDVPbGZybjJ1OGVXMk1vTFRIQ0JYa2w2M3VFRzQyNTRuZERaT09OdVNiclNPOGFUTDB5a090clB4RXp3RzZRWVdhR0YySlU4a2xLVnF4dk5FMDVOeW9vUzBXQ05JUlBPVWQ4b0ZXaHlFNkZNcEZTUEU1U0tQUG9pdk8vekpWamM5QjhXV2ZzQ3JRU2F5TkdpVG9IeFFKak9uZ2FFaGd6S0lmdGRXRFRmMWJsaWRTRTJzNjlBZ2lGTFdTeE0wMmpLSlNVM2VYeU5JU3JjZGkyUEFhcEJrZE5Rd0lHbXEwUS9JYUtNOUZSUTJNNk0rb3FvdW9jSWk2Tk5iY2ZYbUdHMzlRdzNYRUdhN0dTR2hJdzUydjRUSnlIbEpkODFXWFh0SEZuRlpuVnRlMW1ldEtUY3ZxakxvcXJzMWNsMnB1WHAyNXJyVVVGMmpVVmVNQ0RYNzQ2K3BNL2wxa2RRWWRDVjJkSVFtbDR2Sk1QaTJ0NHJKMjNhV3k5RkZLRHhrMmpVajhoUGsxVjFEMlhiNHBKUy9zNHIzYU9odDJ5UnlHcmNXUWloWnBML2RvTDg0MDluSUxUazJKMDd2RnFWYVQwNSs1WDNjbWRleldyQTJHS2xOUnBNRndOaGh0a1Faak9WTWFUSFVXTnllRGtTUE1xSkVRVm42eHNrdXZXVytidVJFTm1VNTBmQUp1SmpmclVrcjFGcE5UZUp2Y0dLV1U4ekE1UmpGbG5oWHFZWEo5YlVWVisweTl5NzE1dzkrVjhMOWYrRE5HSE9Id254Yi9wTkJLNHY4ZThlOE13My9uRFpEcW5FRjIyM1lOQ2JKZTgrQ0puV3pMckhac0o2dk5HZi9TeVFwSW5FNk0vNVkwNk5qNDcxQjRQbXJSTmJRT3lxSjQ3RUdwRkdKenJiRVdYMU5OTmdwMXFhbSt2YjU4K1A0dnphQUxHMVNyV3RsQWRrdFFlNGN0RGpMcVVYYytwWXhJWlFlWllvZ1VVWDFaZW5oelRickNLbWdPNHBkMW1nWEh2LzI5dlN3OXJDMlN3MVZDWFV1REN2Nm15S3VoTWh6VXBVaW80am9xMEdqbjc4QS9XTDNWeitqTjVVS2ZISHE0NkFRWExsNW4xaG4vWHFFUlB
        "\n"
      ],
      "metadata": {
        "id": "S3-tJZy35Ck_"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "# Usages\n",
        "In Tianshou v0.4.7, there are three types of Trainer. They are designed to be used in  on-policy training, off-policy training and offline training respectively. We will use on-policy trainer as an example and leave the other two for further reading."
      ],
      "metadata": {
        "id": "ifsEQMzZ6mmz"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Pseudocode\n",
        "![1.PNG](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABGoAAAJuCAYAAADo9uQqAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAAEnQAABJ0Ad5mH3gAAP+lSURBVHhe7L29axtL+Pct7r9iW0OKY0gRdxb8GgtSRJAiAhcRuDDiFEYEniBcBOHGiBS+RYogUgRhbg7IxQG5CCgPHJCbgFwElCKgwBNQihQqcsMWKVSkuJ7r2p3ZN82uVq+W7e8H5pxYWu3O+8z13ZlrMgQAAAAAAAAAAAAANgIINQAAAAAAAAAAAAAbAoQaAAAAAAAAAAAAgA0BQg0AAAAAAAAAAADAhgChBgAAAAAAAAAAAGBDgFADAAAAAAAAAAAAsCFAqAEAAAAAAAAAAADYECDUAAAAAAAAAAAAAGwIEGoAAAAAAAAAAAAANoSFhZoXL17Q48ePERAQEBAQEBAQEBAQEBAQEO5N+L//9/8qZWS5LEWoyWQyCAgICAgICAgICAgICAgICPcmbKxQ8//+v/8vAgICAgICAgICAgICAgICwr0KGyvUAAAAAAAAAAAAAIDlAKEGAAAAAAAAAAAAYEOAUAMAAAAAAAAAAACwIUCoAQAAAAAAAAAAANgQINQAAAAAAAAAAAAAbAi3X6j52aailaGtFx2y1UfpGFFrP3q8Vo166tvbjU29syJtWxZtP29Qf7aMmeRniwqhfMpQ4WKkvrw72N871DwuUe5xlrY4jVu7OSodN6h1fUNp/WPT4GOTqkdFKuyXqXJWpfJBgQqHFWpc9Gg0Vtel5deAOucVKu2XqHJSp/pZhcp839rlgOyfPWqdlij/d4Xqr/j/y6g3K6T/Nke53S2/Pv4zVN/cTnqnwfa1RdnHnD4nuHXR++5BVn0eTr+E6id1MwAAAAAAAMCt5tYLNf2zHWWo5Kn5XX2YkrFt0+hLIyBC3A2hZnxVJctLU4asV12Kt+l7VONratfqTyNjsu0R9d8VvHveLaHGpu5JjvNsiwqnLep+G9HoW4fq+74hvLXfoP5vdfkaGF3VqfDAotxJh4bR5/4ZUe9tiQ34LJUvBqkEyuGHMmX5+urHUaguDM4LnhBQOB/yd2PqvrLcdB8n1ZvNYPAu58bdJNT8aFPpAadjl9v1GstudkbUPuB4WkVqfrEn8nz4j253BWr+UB9q/tjUf1902vva2uStyVcAAAAAAABuJ7dbqBl3qWqJAeOGnbO++mIWXKHCvcfdEGpsNsp1njjhKGG10ahNRb4mWahRXNe8e94loab/Jstp2qHqVTSXbOocK9FCAhum/ZUrF2PqvRbRyKLiPyKcxGN/qlGW42UdtChpPcn4s3td/t1AfaLh9B2ptFlV6v1xPx1dlmj7wTaV/t38VSqjC1fEMAk1/TNfaCv+u8n11V3dV4qJo06jCDWtqFDjYFP7MEasWgG3J18BAAAAAAC4ndxqocZmg1IbDE5gY7M7syF994QaGvepoVeDPChR63t8pug8vLdCjd2hspOmLcoft2moxAqPX20qqTRLyL6ZRwxMz/DCXR1hHafbyjd8n3fitXPSixF1xtQ9lrgbVmMIP9S2tmfJYs+mkiTU6JUf1h636w3exsWlSM3HJWr/Un9GmC7UcDWWFVMTQtyKuDX5CgAAAAAAwO3kFgs1bNw88Q1oHUqXs1oOd1CoUcjWrnFUeAjRp/qum/Z7K9R8roW2iWXfRo1dLXSo8KjOubYivtSdlS8zbeMLrCoz133tiynGyNf+h05uZ81PFGpuDdwHPW5QnMySRqih703K3dIyBAAAAAAAAIS5vUING7U7GYsqp1X+v2uoOuFJc8aVAXdXqEnEHlDz0N/CcG+FGqce6fLP0I5hxYzvI0RCkdorSbq7fcV5xv5sq1t6p2p71l81g4gEoWbz4T6IyzyuWqUSamQLI4QaAAAAAAAA7gS3VKhRDk+d1Q3RlTU7VP+iLktFOqHG/tqm+lGBsuJEU661til/1KBu0Loa22THOdccj6grJ+48ztG29qsjJ7jsl6nxcUC2aeXLrwH1rtrUlNN+9nOUPXSNOftzk8pPXJFla7dE9U+BlRR/xjT80qXORYPqcoLR3jYVg6KK3WWjMBCHmGAUbgxCjZyU1DjKe/ezHuaodNqZ3EIk/B5SP5ieBzq/bRpc1qjEcXVXt1i0vcfp+hjw0fKH8+9tmfIPlSjB+Z87rFH728x73SKMqXeWpy15ppx0ZCg/31CWYBBqfvepcZilLS7P0tu+H+dZCJyslZtxC8v4v4oXv8mTfyDUbDxSBgn5n0qokX7slm5fAwAAAAAAAIS5nUKN8huSP3fNkqivmuRTjqJME2rG1H+TdwWE3Sp1tJH+q0/NA4syVoXa122qvapS7UhOoLEo/7oX8i9i/1elnAgZVo4qF31flPk9pO6ZOnXnQYmaEdEhfGQvB1lp4TiGFVGhQpX9bfVdYKtMQEzRIbz6RU5wsjkMqPnMv6b6UT7zg3HLVEioGdLw3xJtP61R55tK7Y+Wc1S6fG8dtCdWCEykx8nvIbWcfNym4rEcGV2l0p4SYzidRX4O/epSdVdEoCJVzviak5Kbn3KNVaT2T/WAlTBt61PglCQV5+rV7FJN0AH0zNv3AquCtj2H2n1qqGOcXRFNxC995HMgaHFMhC/v8/Tbu6LHZItQ5Ih3x2WqnNap8py/d8TI4XSfO/bQOT68/EyOIq87x5IXX9QTj0c3CzVu2n0xsmpo1woRAM/dY8/LUv9elal0VAnFd/Sh4uTT9q6fX3J0e/2zuoAZfZBTuFQ+cn5s7ZaXVi/TCTUj6rzk+Gkhk4Mj2v1oU/WA8/PvHFl7FepEfj+6alL1RZmqXFb1kzIVHnM+vO3Q0FhYU/L1c4PrTuA4cSUcja4aVHnB/aMItE+ylD2sUy/GH48D903tszIVn5acelD5O0/FqCiu4uIJ5ypvbI5D+UCOnd9e+0ltAAAAAAAALItbKdQMz8WBasD5ZuT0p9B3U0kWavyjrg0G+Dc2TJzvslT7zN+JgfG2Qe3P/hG742v3xB35feU/swGvHcKK6DBpiA3YIJHfc9ivUW3fPQ1IDDPnSF/n3hkqfwhbVvrYYgnmbUp6pYUbZt76dFSm3MRpQ4FThGJXNgXSk6lQ7XWWrIMmDYIGlfjbUM/JPCqz4bVF+Tf9kKE/fO+nz7RdaWmEnAlbE/kcTrMbJq+ZTv+NPmbetCpmCoHVOJnDdkQQSbmiZsHVGN4x2QclKp8HxEhm/K3pCnhP6rGG8/hLnfLW5PHhzha9A4t2jtrG+CWuqPmtHUWbhRqJlzjFzb7q0CgkTHLbOtomK3JamqxccvqCZ+btleNPsg2T+4KJ08MWI51QoxlT54Vcy/XonxaVnbQF6uipnxPiuDr3kvM1lOFDTrvUxYRnTclXr1/kfOpecBsP5YdaAfmI+1pDd+iK2pMnnrlOtne4bUR/pPuTAjUualR+J8fV96n+SD6L6/sAAAAAAADYbG6hUKMm4REjqn/mG7oS9Gqb6SQJNUEjnA2XiTfkParq304YyIJvMCS+1dcn7xjvExZUgj543GOl5fPshCjiG3erEWoymRw1vqnPAwRXzaR5rvnI62CZZCYMZodgXBL8eyzGmPqvdR6zQc9GrsG2pPHnurfCx9qrz3WEdzDfFhJqJgSX9Qg1ur7lJpwxu8iKIUfkMPnfUSuxJo8PV/zqUJm/N51slSjUePXI0Pb06q8nDRpEVo+N/i26eTnR5nV7jvFTJGLT6+WLhrMJNYG6ZFWooxrO6LJMucclanzROdinmqqzQfHGQdcJY58mJOSrEKiPBUM/rEXW6pX6QPO9SXn13Mns1T6cytQJiX2B/sQrS1kFWaDc/uQKIgAAAAAAAG4Dt06ocVe4GFa36Em+DqlP50kSagLGTIxQE/9b5jpwolCiIRwQfCaeExY2wuKHTcPrLvW+T5pTKxdqYvJ3VqHGLKgF8zVmK9EahJrgaqhcZDvbBOKfyJ5DoVGEVtREDdhppBL61iPUxPuK8UXL8NYu7WMq5vhwB3/7WXRV2nxCjQiw7hah0r+
        "\n",
        "For the on-policy trainer, the main difference is that we clear the buffer after Line 10."
      ],
      "metadata": {
        "id": "XfsuU2AAE52C"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Training without trainer\n",
        "As we have learned the usages of the Collector and the Policy, it's possible that we write our own training logic.\n",
        "\n",
        "First, let us create the instances of Environment, ReplayBuffer, Policy and Collector."
      ],
      "metadata": {
        "id": "Hcp_o0CCFz12"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "import gym\n",
        "import numpy as np\n",
        "import torch\n",
        "\n",
        "from tianshou.data import Collector, VectorReplayBuffer\n",
        "from tianshou.env import DummyVectorEnv\n",
        "from tianshou.policy import PGPolicy\n",
        "from tianshou.utils.net.common import Net\n",
        "from tianshou.utils.net.discrete import Actor\n",
        "\n",
        "import warnings\n",
        "warnings.filterwarnings('ignore')\n",
        "\n",
        "train_env_num = 4\n",
        "buffer_size = 2000 # Since REINFORCE is an on-policy algorithm, we don't need a very large buffer size\n",
        "\n",
        "# Create the environments, used for training and evaluation\n",
        "env = gym.make(\"CartPole-v0\")\n",
        "test_envs = DummyVectorEnv([lambda: gym.make(\"CartPole-v0\") for _ in range(2)])\n",
        "train_envs = DummyVectorEnv([lambda: gym.make(\"CartPole-v0\") for _ in range(train_env_num)])\n",
        "\n",
        "# Create the Policy instance\n",
        "net = Net(env.observation_space.shape, hidden_sizes=[16,])\n",
        "actor = Actor(net, env.action_space.shape)\n",
        "optim = torch.optim.Adam(actor.parameters(), lr=0.001)\n",
        "policy = PGPolicy(actor, optim, dist_fn=torch.distributions.Categorical)\n",
        "\n",
        "# Create the replay buffer and the collector\n",
        "replaybuffer = VectorReplayBuffer(buffer_size, train_env_num)\n",
        "test_collector = Collector(policy, test_envs)\n",
        "train_collector = Collector(policy, train_envs, replaybuffer)"
      ],
      "metadata": {
        "id": "do-xZ-8B7nVH"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Now, we can try training our policy network. The logic is simple. We collect some data into the buffer and then we use the data to train our policy."
      ],
      "metadata": {
        "id": "wiEGiBgQIiFM"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "train_collector.reset()\n",
        "train_envs.reset()\n",
        "test_collector.reset()\n",
        "test_envs.reset()\n",
        "replaybuffer.reset()\n",
        "for i in range(10):\n",
        "  evaluation_result = test_collector.collect(n_episode=10)\n",
        "  print(\"Evaluation reward is {}\".format(evaluation_result[\"rew\"]))\n",
        "  train_collector.collect(n_step=2000)\n",
        "  # 0 means taking all data stored in train_collector.buffer\n",
        "  policy.update(0, train_collector.buffer, batch_size=512, repeat=1)\n",
        "  train_collector.reset_buffer(keep_statistics=True)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "JMUNPN5SI_kd",
        "outputId": "7d68323c-0322-4b82-dafb-7c7f63e7a26d"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Evaluation reward is 9.6\n",
            "Evaluation reward is 9.6\n",
            "Evaluation reward is 9.2\n",
            "Evaluation reward is 9.1\n",
            "Evaluation reward is 9.5\n",
            "Evaluation reward is 9.7\n",
            "Evaluation reward is 9.6\n",
            "Evaluation reward is 9.4\n",
            "Evaluation reward is 9.3\n",
            "Evaluation reward is 9.1\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The evaluation reward doesn't seem to improve. That is simply because we haven't trained it for enough time. Plus, the network size is too small and REINFORCE algorithm is actually not very stable. Don't worry, we will solve this problem in the end. Still we get some idea on how to start a training loop."
      ],
      "metadata": {
        "id": "QXBHIBckMs_2"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Training with trainer\n",
        "The trainer does almost the same thing. The only difference is that it has considered many details and is more modular."
      ],
      "metadata": {
        "id": "p-7U_cwgF5Ej"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "from tianshou.trainer import onpolicy_trainer\n",
        "\n",
        "train_collector.reset()\n",
        "train_envs.reset()\n",
        "test_collector.reset()\n",
        "test_envs.reset()\n",
        "replaybuffer.reset()\n",
        "\n",
        "result = onpolicy_trainer(\n",
        "    policy,\n",
        "    train_collector,\n",
        "    test_collector,\n",
        "    max_epoch=10,\n",
        "    step_per_epoch=1,\n",
        "    repeat_per_collect=1,\n",
        "    episode_per_test=10,\n",
        "    step_per_collect=2000,\n",
        "    batch_size=512,\n",
        ")\n",
        "print(result)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "vcvw9J8RNtFE",
        "outputId": "b483fa8b-2a57-4051-a3d0-6d8162d948c5"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #1: 2000it [00:00, 4144.84it/s, env_step=2000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.34]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #1: test_reward: 9.500000 ± 0.500000, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #2: 2000it [00:00, 4208.58it/s, env_step=4000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.41]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #2: test_reward: 9.400000 ± 0.489898, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #3: 2000it [00:00, 4472.80it/s, env_step=6000, len=9, loss=0.000, n/ep=212, n/st=2000, rew=9.39]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #3: test_reward: 9.100000 ± 0.700000, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #4: 2000it [00:00, 4340.62it/s, env_step=8000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.38]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #4: test_reward: 9.400000 ± 0.800000, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #5: 2000it [00:00, 4483.35it/s, env_step=10000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.42]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #5: test_reward: 9.400000 ± 1.019804, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #6: 2000it [00:00, 4068.51it/s, env_step=12000, len=9, loss=0.000, n/ep=212, n/st=2000, rew=9.42]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #6: test_reward: 9.400000 ± 0.663325, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #7: 2000it [00:00, 4091.46it/s, env_step=14000, len=9, loss=0.000, n/ep=214, n/st=2000, rew=9.32]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #7: test_reward: 9.300000 ± 0.640312, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #8: 2000it [00:00, 4042.49it/s, env_step=16000, len=9, loss=0.000, n/ep=215, n/st=2000, rew=9.34]\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #8: test_reward: 9.600000 ± 0.800000, best_reward: 9.900000 ± 0.700000 in #0\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "Epoch #9: 2000it [00:00, 4400.16it/s, env_step=18000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.38]"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Epoch #9: test_reward: 9.000000 ± 0.632456, best_reward: 9.900000 ± 0.700000 in #0\n",
            "{'duration': '4.79s', 'train_time/model': '0.22s', 'test_step': 940, 'test_episode': 100, 'test_time': '0.46s', 'test_speed': '2026.40 step/s', 'best_reward': 9.9, 'best_result': '9.90 ± 0.70', 'train_step': 18000, 'train_episode': 1918, 'train_time/collector': '4.11s', 'train_speed': '4156.80 step/s'}\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "# Further Reading\n",
        "## Logger usages\n",
        "Tianshou provides experiment loggers that are both tensorboard- and wandb-compatible. It also has a BaseLogger Class which allows you to self-define your own logger. Check the [documentation](https://tianshou.readthedocs.io/en/master/api/tianshou.utils.html#tianshou.utils.BaseLogger) for details.\n",
        "\n",
        "## Learn more about the APIs of Trainers\n",
        "[documentation](https://tianshou.readthedocs.io/en/master/api/tianshou.trainer.html)"
      ],
      "metadata": {
        "id": "_j3aUJZQ7nml"
      }
    }
  ]
}
Add notebooks from ./docs/tutorials/get_started.rst to ./notebooks 2023-10-17 10:28:24 +02:00			`{`
			`"nbformat": 4,`
			`"nbformat_minor": 0,`
			`"metadata": {`
			`"colab": {`
			`"provenance": [],`
			`"collapsed_sections": [`
			`"S3-tJZy35Ck_",`
			`"XfsuU2AAE52C",`
			`"p-7U_cwgF5Ej",`
			`"_j3aUJZQ7nml"`
			`]`
			`},`
			`"kernelspec": {`
			`"name": "python3",`
			`"display_name": "Python 3"`
			`},`
			`"language_info": {`
			`"name": "python"`
			`}`
			`},`
			`"cells": [`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"metadata": {`
			`"id": "wDZlC0v348Ym"`
			`},`
			`"outputs": [],`
			`"source": [`
			`"# Remember to install tianshou first\n",`
			`"!pip install tianshou==0.4.8\n",`
			`"!pip install gym"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"# Overview\n",`
			`"Trainer is the highest-level encapsulation in Tianshou. It controls the training loop and the evaluation method. It also controls the interaction between the Collector and the Policy, with the ReplayBuffer serving as the media.\n",`
			`"\n",`
			"![framework.svg](data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iVVRGLTgiPz4KPCFET0NUWVBFIHN2ZyBQVUJMSUMgIi0vL1czQy8vRFREIFNWRyAxLjEvL0VOIiAiaHR0cDovL3d3dy53My5vcmcvR3JhcGhpY3MvU1ZHLzEuMS9EVEQvc3ZnMTEuZHRkIj4KPHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHhtbG5zOnhsaW5rPSJodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rIiB2ZXJzaW9uPSIxLjEiIHdpZHRoPSI2MTFweCIgaGVpZ2h0PSI0NDJweCIgdmlld0JveD0iLTAuNSAtMC41IDYxMSA0NDIiIGNvbnRlbnQ9IiZsdDtteGZpbGUgaG9zdD0mcXVvdDtFbGVjdHJvbiZxdW90OyBtb2RpZmllZD0mcXVvdDsyMDIyLTA0LTE3VDEzOjMzOjA5LjA3N1omcXVvdDsgYWdlbnQ9JnF1b3Q7NS4wIChXaW5kb3dzIE5UIDEwLjA7IFdpbjY0OyB4NjQpIEFwcGxlV2ViS2l0LzUzNy4zNiAoS0hUTUwsIGxpa2UgR2Vja28pIGRyYXcuaW8vMTQuNS4xIENocm9tZS84OS4wLjQzODkuODIgRWxlY3Ryb24vMTIuMC4xIFNhZmFyaS81MzcuMzYmcXVvdDsgdmVyc2lvbj0mcXVvdDsxNC41LjEmcXVvdDsgZXRhZz0mcXVvdDtJb3BxY0U2Q2U5NkNiVnNkZ1cteiZxdW90OyB0eXBlPSZxdW90O2RldmljZSZxdW90OyZndDsmbHQ7ZGlhZ3JhbSBpZD0mcXVvdDtFUzR4czlIalFlV1pKWGNuT0VQaSZxdW90OyZndDs3VjFiczVzNEV2NDFydHA5aUl2NzVUSG5KSmw5U0xaT2JhWjJkcDZtT0JqYnpHRGtCWHd1Kyt0WE1wS05RTnlNRUhDc1ZDVXhRbURUL1hXcjFXcDlyUFRIdzlzdmlYZmMvd0NiSUZwcHl1WnRwWDlaYWZDUG9jUC9VTXQ3M3VKb2R0NndTOEpOM3FSZUczNkcvd3R3bzRKYlQrRW1TUE0yM0pRQkVHWGhNYVd1OWtFY0IzNUd0WGxKQWw3cGE3Y2dvci8xNk8wQ3FnZHErT2w3VVZEcDlsdTR5ZmFscDBEdC93akMzWjU4czJxNStabURSenJqRzZkN2J3TmVDMDM2MTVYK21BQ1E1WjhPYjQ5QmhJUkg1SkpmOTYzbTdPV0hKVUdjZGJsQXl5OTQ4YUlUZmpiOHU3SjM4ckM3Qkp5T0svMEI5d3lTTEhoalNkbDdqc3BDdS80SzlmSnNFQlFCT0FSWjhnNjc0QnQ5Y2hSOERRYUVadUxqMTZ0NExhTDlmVUcwQnJuUXd5cmRYVzUrZldyNEFUODRXd2g2dXhDZ0RPSk5nUHFyVUJTdit6QUxmaDQ5SDUxOWhSaUhiZnZzRU9IVGFaYUF2eTdJUUMxYkVHZmZ2RU1Zb2VkN0JLY2tEQkw0QmY4TVh2RkpqSEg0aVBxREY0VzdHQjc0VUhxd0cyeElmSHplYk5KRFVkNGFXOTVDeEdsTUs4NksrUHdJeEFGR3A4SlZuUGdDdlFSZXBRcGV3MkZJVzNVNFNOdThjMmtiWFlXdGNSQzJWUkgyNXgzNjJiT1NPQWNabTdTTVZiMHE1SXZnaTBMbUlXTzdIZERvMlVJNEhILzNub1BvQ2FSaEZnSWtrbWVRWmVBQVJVQTZmTWF5eWtCWjVudnZpRzUyZU51aEVHVzlqY0Nydi9lU2JKMmVEb2N3M3YyeFBjVitmdHVlNnZEU1l4NXpiTU0zQklHSFRaZ0UrRlpmVW5CQ0FueElRT2JocGsrdU1vNFNOWnZXb3E1cUZTMnlCZ0dWZ3hLZGlzNkNEUXloOENGSXNqM1lnZGlMdmw1Ykg2NUdnd1NRL2hWay9oNGYvSGs2SE1uRk1SUVViTHJlNHp0QTJqMnI5YzhneTk2eHUvRk9HYUNWSHJ5RjJYL1FIZGNtUHZxOWNPYkxHLzZ5ODhFN09ZamhreGN1UW9lL0Y4OWRMenNmVWRjOUJVa0lSWWRna1Q5VEJoSDJHUVdnMStjNHQzMExrU1N2ZlVnNGNMN1JobHpoUjE2YWhuN2VpQy9CWFFvWHdPdDNRWGI1YXVSM0lKN3gzUnVoek1ZZ1Vsd3pBcUdlNFozOGdQS1IrYzhvbUhRVnAwa1FRU040b2UvT1F0MzVVaWdGNzczUTRRakNPRXNMZDM1Q0RWZjRPeVVmWnBZaTRlYnVaSmlwNjY3WlpsTi8rQ0gvdlZkcnVUeDRKd055MjcwZ0Njekxhb1BlNXBTa1VLNy9DdEljRmozRzRTN0JmTXY0ckpVa3lSaWhpVEpvdjZOemNEekVlZDBpdUVGQ2NkbENhWDlvZzhORHErMFBMVFFrWVE1NVRGakNRZktMbHhJL3YwbkE4VmZpT0c0ZUZsWGxWbDN3QUNCclNtMUZHWlloU2pkNDJGVmEvejJoZWY0RExjNUxNL3kwdy8rZkwwK1BYa3pwbEhSRTkvMlV5L1F6N0tEYXg3ZjZ1enlUaG44SC9zTnB1MFhmbTUrQlQvWmM3ZzNiOHErdE5PY1BRNXBMWUd1SXRJSms3Y1grSGlRMUtDUllpb0p0eGhzQWJ5dktSN3pUaHdWNE9NYmFkU3pIVlhUWHNFek5jS3RnZ1Qwc0I0NTJEanl2R0tyZE1IeDFoazZIUkFTZmJFd3YrVENDLzR1bDBIRWpEMWZXSVhzZ3cvOGlYdXJWV0JxSURYSGh2OW9oS3pIS0tOd2lFdDJwaU1DeXgwSnlOVmxBZTNMYXBlTEJvZDI3cXl6dkRqMDVPbGZybjJ1OGVXMk1vTFRIQ0JYa2w2M3VFRzQyNTRuZERaT09OdVNiclNPOGFUTDB5a090clB4RXp3RzZRWVdhR0YySlU4a2xLVnF4dk5FMDVOeW9vUzBXQ05JUlBPVWQ4b0ZXaHlFNkZNcEZTUEU1U0tQUG9pdk8vekpWamM5QjhXV2ZzQ3JRU2F5TkdpVG9IeFFKak9uZ2FFaGd6S0lmdGRXRFRmMWJsaWRTRTJzNjlBZ2lGTFdTeE0wMmpLSlNVM2VYeU5JU3JjZGkyUEFhcEJrZE5Rd0lHbXEwUS9JYUtNOUZSUTJNNk0rb3FvdW9jSWk2Tk5iY2ZYbUdHMzlRdzNYRUdhN0dTR2hJdzUydjRUSnlIbEpkODFXWFh0SEZuRlpuVnRlMW1ldEtUY3ZxakxvcXJzMWNsMnB1WHAyNXJyVVVGMmpVVmVNQ0RYNzQ2K3BNL2wxa2RRWWRDVjJkSVFtbDR2Sk1QaTJ0NHJKMjNhV3k5RkZLRHhrMmpVajhoUGsxVjFEMlhiNHBKUy9zNHIzYU9odDJ5UnlHcmNXUWloWnBML2RvTDg0MDluSUxUazJKMDd2RnFWYVQwNSs1WDNjbWRleldyQTJHS2xOUnBNRndOaGh0a1Faak9WTWFUSFVXTnllRGtTUE1xSkVRVm42eHNrdXZXVytidVJFTm1VNTBmQUp1SmpmclVrcjFGcE5UZUp2Y0dLV1U4ekE1UmpGbG5oWHFZWEo5YlVWVisweTl5NzE1dzkrVjhMOWYrRE5HSE9Id254Yi9wTkJLNHY4ZThlOE13My9uRFpEcW5FRjIyM1lOQ2JKZTgrQ0puV3pMckhac0o2dk5HZi9TeVFwSW5FNk0vNVkwNk5qNDcxQjRQbXJSTmJRT3lxSjQ3RUdwRkdKenJiRVdYMU5OTmdwMXFhbSt2YjU4K1A0dnphQUxHMVNyV3RsQWRrdFFlNGN0RGpMcVVYYytwWXhJWlFlWllvZ1VVWDFaZW5oelRickNLbWdPNHBkMW1nWEh2LzI5dlN3OXJDMlN3MVZDWFV1REN2Nm15S3VoTWh6VXBVaW80am9xMEdqbjc4QS9XTDNWeitqTjVVS2ZISHE0NkFRWExsNW4xaG4vWHFFUlB
			`"\n"`
			`],`
			`"metadata": {`
			`"id": "S3-tJZy35Ck_"`
			`}`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"# Usages\n",`
			`"In Tianshou v0.4.7, there are three types of Trainer. They are designed to be used in on-policy training, off-policy training and offline training respectively. We will use on-policy trainer as an example and leave the other two for further reading."`
			`],`
			`"metadata": {`
			`"id": "ifsEQMzZ6mmz"`
			`}`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"## Pseudocode\n",`
			"![1.PNG](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABGoAAAJuCAYAAADo9uQqAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAAEnQAABJ0Ad5mH3gAAP+lSURBVHhe7L29axtL+Pct7r9iW0OKY0gRdxb8GgtSRJAiAhcRuDDiFEYEniBcBOHGiBS+RYogUgRhbg7IxQG5CCgPHJCbgFwElCKgwBNQihQqcsMWKVSkuJ7r2p3ZN82uVq+W7e8H5pxYWu3O+8z13ZlrMgQAAAAAAAAAAAAANgIINQAAAAAAAAAAAAAbAoQaAAAAAAAAAAAAgA0BQg0AAAAAAAAAAADAhgChBgAAAAAAAAAAAGBDgFADAAAAAAAAAAAAsCFAqAEAAAAAAAAAAADYECDUAAAAAAAAAAAAAGwIEGoAAAAAAAAAAAAANoSFhZoXL17Q48ePERAQEBAQEBAQEBAQEBAQEO5N+L//9/8qZWS5LEWoyWQyCAgICAgICAgICAgICAgICPcmbKxQ8//+v/8vAgICAgICAgICAgICAgICwr0KGyvUAAAAAAAAAAAAAIDlAKEGAAAAAAAAAAAAYEOAUAMAAAAAAAAAAACwIUCoAQAAAAAAAAAAANgQINQAAAAAAAAAAAAAbAi3X6j52aailaGtFx2y1UfpGFFrP3q8Vo166tvbjU29syJtWxZtP29Qf7aMmeRniwqhfMpQ4WKkvrw72N871DwuUe5xlrY4jVu7OSodN6h1fUNp/WPT4GOTqkdFKuyXqXJWpfJBgQqHFWpc9Gg0Vtel5deAOucVKu2XqHJSp/pZhcp839rlgOyfPWqdlij/d4Xqr/j/y6g3K6T/Nke53S2/Pv4zVN/cTnqnwfa1RdnHnD4nuHXR++5BVn0eTr+E6id1MwAAAAAAAMCt5tYLNf2zHWWo5Kn5XX2YkrFt0+hLIyBC3A2hZnxVJctLU4asV12Kt+l7VONratfqTyNjsu0R9d8VvHveLaHGpu5JjvNsiwqnLep+G9HoW4fq+74hvLXfoP5vdfkaGF3VqfDAotxJh4bR5/4ZUe9tiQ34LJUvBqkEyuGHMmX5+urHUaguDM4LnhBQOB/yd2PqvrLcdB8n1ZvNYPAu58bdJNT8aFPpAadjl9v1GstudkbUPuB4WkVqfrEn8nz4j253BWr+UB9q/tjUf1902vva2uStyVcAAAAAAABuJ7dbqBl3qWqJAeOGnbO++mIWXKHCvcfdEGpsNsp1njjhKGG10ahNRb4mWahRXNe8e94loab/Jstp2qHqVTSXbOocK9FCAhum/ZUrF2PqvRbRyKLiPyKcxGN/qlGW42UdtChpPcn4s3td/t1AfaLh9B2ptFlV6v1xPx1dlmj7wTaV/t38VSqjC1fEMAk1/TNfaCv+u8n11V3dV4qJo06jCDWtqFDjYFP7MEasWgG3J18BAAAAAAC4ndxqocZmg1IbDE5gY7M7syF994QaGvepoVeDPChR63t8pug8vLdCjd2hspOmLcoft2moxAqPX20qqTRLyL6ZRwxMz/DCXR1hHafbyjd8n3fitXPSixF1xtQ9lrgbVmMIP9S2tmfJYs+mkiTU6JUf1h636w3exsWlSM3HJWr/Un9GmC7UcDWWFVMTQtyKuDX5CgAAAAAAwO3kFgs1bNw88Q1oHUqXs1oOd1CoUcjWrnFUeAjRp/qum/Z7K9R8roW2iWXfRo1dLXSo8KjOubYivtSdlS8zbeMLrCoz133tiynGyNf+h05uZ81PFGpuDdwHPW5QnMySRqih703K3dIyBAAAAAAAAIS5vUING7U7GYsqp1X+v2uoOuFJc8aVAXdXqEnEHlDz0N/CcG+FGqce6fLP0I5hxYzvI0RCkdorSbq7fcV5xv5sq1t6p2p71l81g4gEoWbz4T6IyzyuWqUSamQLI4QaAAAAAAAA7gS3VKhRDk+d1Q3RlTU7VP+iLktFOqHG/tqm+lGBsuJEU661til/1KBu0Loa22THOdccj6grJ+48ztG29qsjJ7jsl6nxcUC2aeXLrwH1rtrUlNN+9nOUPXSNOftzk8pPXJFla7dE9U+BlRR/xjT80qXORYPqcoLR3jYVg6KK3WWjMBCHmGAUbgxCjZyU1DjKe/ezHuaodNqZ3EIk/B5SP5ieBzq/bRpc1qjEcXVXt1i0vcfp+hjw0fKH8+9tmfIPlSjB+Z87rFH728x73SKMqXeWpy15ppx0ZCg/31CWYBBqfvepcZilLS7P0tu+H+dZCJyslZtxC8v4v4oXv8mTfyDUbDxSBgn5n0qokX7slm5fAwAAAAAAAIS5nUKN8huSP3fNkqivmuRTjqJME2rG1H+TdwWE3Sp1tJH+q0/NA4syVoXa122qvapS7UhOoLEo/7oX8i9i/1elnAgZVo4qF31flPk9pO6ZOnXnQYmaEdEhfGQvB1lp4TiGFVGhQpX9bfVdYKtMQEzRIbz6RU5wsjkMqPnMv6b6UT7zg3HLVEioGdLw3xJtP61R55tK7Y+Wc1S6fG8dtCdWCEykx8nvIbWcfNym4rEcGV2l0p4SYzidRX4O/epSdVdEoCJVzviak5Kbn3KNVaT2T/WAlTBt61PglCQV5+rV7FJN0AH0zNv3AquCtj2H2n1qqGOcXRFNxC995HMgaHFMhC/v8/Tbu6LHZItQ5Ih3x2WqnNap8py/d8TI4XSfO/bQOT68/EyOIq87x5IXX9QTj0c3CzVu2n0xsmpo1woRAM/dY8/LUv9elal0VAnFd/Sh4uTT9q6fX3J0e/2zuoAZfZBTuFQ+cn5s7ZaXVi/TCTUj6rzk+Gkhk4Mj2v1oU/WA8/PvHFl7FepEfj+6alL1RZmqXFb1kzIVHnM+vO3Q0FhYU/L1c4PrTuA4cSUcja4aVHnB/aMItE+ylD2sUy/GH48D903tszIVn5acelD5O0/FqCiu4uIJ5ypvbI5D+UCOnd9e+0ltAAAAAAAALItbKdQMz8WBasD5ZuT0p9B3U0kWavyjrg0G+Dc2TJzvslT7zN+JgfG2Qe3P/hG742v3xB35feU/swGvHcKK6DBpiA3YIJHfc9ivUW3fPQ1IDDPnSF/n3hkqfwhbVvrYYgnmbUp6pYUbZt76dFSm3MRpQ4FThGJXNgXSk6lQ7XWWrIMmDYIGlfjbUM/JPCqz4bVF+Tf9kKE/fO+nz7RdaWmEnAlbE/kcTrMbJq+ZTv+NPmbetCpmCoHVOJnDdkQQSbmiZsHVGN4x2QclKp8HxEhm/K3pCnhP6rGG8/hLnfLW5PHhzha9A4t2jtrG+CWuqPmtHUWbhRqJlzjFzb7q0CgkTHLbOtomK3JamqxccvqCZ+btleNPsg2T+4KJ08MWI51QoxlT54Vcy/XonxaVnbQF6uipnxPiuDr3kvM1lOFDTrvUxYRnTclXr1/kfOpecBsP5YdaAfmI+1pDd+iK2pMnnrlOtne4bUR/pPuTAjUualR+J8fV96n+SD6L6/sAAAAAAADYbG6hUKMm4REjqn/mG7oS9Gqb6SQJNUEjnA2XiTfkParq304YyIJvMCS+1dcn7xjvExZUgj543GOl5fPshCjiG3erEWoymRw1vqnPAwRXzaR5rvnI62CZZCYMZodgXBL8eyzGmPqvdR6zQc9GrsG2pPHnurfCx9qrz3WEdzDfFhJqJgSX9Qg1ur7lJpwxu8iKIUfkMPnfUSuxJo8PV/zqUJm/N51slSjUePXI0Pb06q8nDRpEVo+N/i26eTnR5nV7jvFTJGLT6+WLhrMJNYG6ZFWooxrO6LJMucclanzROdinmqqzQfHGQdcJY58mJOSrEKiPBUM/rEXW6pX6QPO9SXn13Mns1T6cytQJiX2B/sQrS1kFWaDc/uQKIgAAAAAAAG4Dt06ocVe4GFa36Em+DqlP50kSagLGTIxQE/9b5jpwolCiIRwQfCaeExY2wuKHTcPrLvW+T5pTKxdqYvJ3VqHGLKgF8zVmK9EahJrgaqhcZDvbBOKfyJ5DoVGEVtREDdhppBL61iPUxPuK8UXL8NYu7WMq5vhwB3/7WXRV2nxCjQiw7hah0r+
			`"\n",`
			`"For the on-policy trainer, the main difference is that we clear the buffer after Line 10."`
			`],`
			`"metadata": {`
			`"id": "XfsuU2AAE52C"`
			`}`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"## Training without trainer\n",`
			`"As we have learned the usages of the Collector and the Policy, it's possible that we write our own training logic.\n",`
			`"\n",`
			`"First, let us create the instances of Environment, ReplayBuffer, Policy and Collector."`
			`],`
			`"metadata": {`
			`"id": "Hcp_o0CCFz12"`
			`}`
			`},`
			`{`
			`"cell_type": "code",`
			`"source": [`
			`"import gym\n",`
			`"import numpy as np\n",`
			`"import torch\n",`
			`"\n",`
			`"from tianshou.data import Collector, VectorReplayBuffer\n",`
			`"from tianshou.env import DummyVectorEnv\n",`
			`"from tianshou.policy import PGPolicy\n",`
			`"from tianshou.utils.net.common import Net\n",`
			`"from tianshou.utils.net.discrete import Actor\n",`
			`"\n",`
			`"import warnings\n",`
			`"warnings.filterwarnings('ignore')\n",`
			`"\n",`
			`"train_env_num = 4\n",`
			`"buffer_size = 2000 # Since REINFORCE is an on-policy algorithm, we don't need a very large buffer size\n",`
			`"\n",`
			`"# Create the environments, used for training and evaluation\n",`
			`"env = gym.make(\"CartPole-v0\")\n",`
			`"test_envs = DummyVectorEnv([lambda: gym.make(\"CartPole-v0\") for _ in range(2)])\n",`
			`"train_envs = DummyVectorEnv([lambda: gym.make(\"CartPole-v0\") for _ in range(train_env_num)])\n",`
			`"\n",`
			`"# Create the Policy instance\n",`
			`"net = Net(env.observation_space.shape, hidden_sizes=[16,])\n",`
			`"actor = Actor(net, env.action_space.shape)\n",`
			`"optim = torch.optim.Adam(actor.parameters(), lr=0.001)\n",`
			`"policy = PGPolicy(actor, optim, dist_fn=torch.distributions.Categorical)\n",`
			`"\n",`
			`"# Create the replay buffer and the collector\n",`
			`"replaybuffer = VectorReplayBuffer(buffer_size, train_env_num)\n",`
			`"test_collector = Collector(policy, test_envs)\n",`
			`"train_collector = Collector(policy, train_envs, replaybuffer)"`
			`],`
			`"metadata": {`
			`"id": "do-xZ-8B7nVH"`
			`},`
			`"execution_count": null,`
			`"outputs": []`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"Now, we can try training our policy network. The logic is simple. We collect some data into the buffer and then we use the data to train our policy."`
			`],`
			`"metadata": {`
			`"id": "wiEGiBgQIiFM"`
			`}`
			`},`
			`{`
			`"cell_type": "code",`
			`"source": [`
			`"train_collector.reset()\n",`
			`"train_envs.reset()\n",`
			`"test_collector.reset()\n",`
			`"test_envs.reset()\n",`
			`"replaybuffer.reset()\n",`
			`"for i in range(10):\n",`
			`" evaluation_result = test_collector.collect(n_episode=10)\n",`
			`" print(\"Evaluation reward is {}\".format(evaluation_result[\"rew\"]))\n",`
			`" train_collector.collect(n_step=2000)\n",`
			`" # 0 means taking all data stored in train_collector.buffer\n",`
			`" policy.update(0, train_collector.buffer, batch_size=512, repeat=1)\n",`
			`" train_collector.reset_buffer(keep_statistics=True)"`
			`],`
			`"metadata": {`
			`"colab": {`
			`"base_uri": "https://localhost:8080/"`
			`},`
			`"id": "JMUNPN5SI_kd",`
			`"outputId": "7d68323c-0322-4b82-dafb-7c7f63e7a26d"`
			`},`
			`"execution_count": null,`
			`"outputs": [`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Evaluation reward is 9.6\n",`
			`"Evaluation reward is 9.6\n",`
			`"Evaluation reward is 9.2\n",`
			`"Evaluation reward is 9.1\n",`
			`"Evaluation reward is 9.5\n",`
			`"Evaluation reward is 9.7\n",`
			`"Evaluation reward is 9.6\n",`
			`"Evaluation reward is 9.4\n",`
			`"Evaluation reward is 9.3\n",`
			`"Evaluation reward is 9.1\n"`
			`]`
			`}`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"The evaluation reward doesn't seem to improve. That is simply because we haven't trained it for enough time. Plus, the network size is too small and REINFORCE algorithm is actually not very stable. Don't worry, we will solve this problem in the end. Still we get some idea on how to start a training loop."`
			`],`
			`"metadata": {`
			`"id": "QXBHIBckMs_2"`
			`}`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"## Training with trainer\n",`
			`"The trainer does almost the same thing. The only difference is that it has considered many details and is more modular."`
			`],`
			`"metadata": {`
			`"id": "p-7U_cwgF5Ej"`
			`}`
			`},`
			`{`
			`"cell_type": "code",`
			`"source": [`
			`"from tianshou.trainer import onpolicy_trainer\n",`
			`"\n",`
			`"train_collector.reset()\n",`
			`"train_envs.reset()\n",`
			`"test_collector.reset()\n",`
			`"test_envs.reset()\n",`
			`"replaybuffer.reset()\n",`
			`"\n",`
			`"result = onpolicy_trainer(\n",`
			`" policy,\n",`
			`" train_collector,\n",`
			`" test_collector,\n",`
			`" max_epoch=10,\n",`
			`" step_per_epoch=1,\n",`
			`" repeat_per_collect=1,\n",`
			`" episode_per_test=10,\n",`
			`" step_per_collect=2000,\n",`
			`" batch_size=512,\n",`
			`")\n",`
			`"print(result)"`
			`],`
			`"metadata": {`
			`"colab": {`
			`"base_uri": "https://localhost:8080/"`
			`},`
			`"id": "vcvw9J8RNtFE",`
			`"outputId": "b483fa8b-2a57-4051-a3d0-6d8162d948c5"`
			`},`
			`"execution_count": null,`
			`"outputs": [`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #1: 2000it [00:00, 4144.84it/s, env_step=2000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.34]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #1: test_reward: 9.500000 ± 0.500000, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #2: 2000it [00:00, 4208.58it/s, env_step=4000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.41]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #2: test_reward: 9.400000 ± 0.489898, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #3: 2000it [00:00, 4472.80it/s, env_step=6000, len=9, loss=0.000, n/ep=212, n/st=2000, rew=9.39]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #3: test_reward: 9.100000 ± 0.700000, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #4: 2000it [00:00, 4340.62it/s, env_step=8000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.38]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #4: test_reward: 9.400000 ± 0.800000, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #5: 2000it [00:00, 4483.35it/s, env_step=10000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.42]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #5: test_reward: 9.400000 ± 1.019804, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #6: 2000it [00:00, 4068.51it/s, env_step=12000, len=9, loss=0.000, n/ep=212, n/st=2000, rew=9.42]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #6: test_reward: 9.400000 ± 0.663325, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #7: 2000it [00:00, 4091.46it/s, env_step=14000, len=9, loss=0.000, n/ep=214, n/st=2000, rew=9.32]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #7: test_reward: 9.300000 ± 0.640312, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #8: 2000it [00:00, 4042.49it/s, env_step=16000, len=9, loss=0.000, n/ep=215, n/st=2000, rew=9.34]\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #8: test_reward: 9.600000 ± 0.800000, best_reward: 9.900000 ± 0.700000 in #0\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"Epoch #9: 2000it [00:00, 4400.16it/s, env_step=18000, len=9, loss=0.000, n/ep=213, n/st=2000, rew=9.38]"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stdout",`
			`"text": [`
			`"Epoch #9: test_reward: 9.000000 ± 0.632456, best_reward: 9.900000 ± 0.700000 in #0\n",`
			`"{'duration': '4.79s', 'train_time/model': '0.22s', 'test_step': 940, 'test_episode': 100, 'test_time': '0.46s', 'test_speed': '2026.40 step/s', 'best_reward': 9.9, 'best_result': '9.90 ± 0.70', 'train_step': 18000, 'train_episode': 1918, 'train_time/collector': '4.11s', 'train_speed': '4156.80 step/s'}\n"`
			`]`
			`},`
			`{`
			`"output_type": "stream",`
			`"name": "stderr",`
			`"text": [`
			`"\n"`
			`]`
			`}`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"source": [`
			`"# Further Reading\n",`
			`"## Logger usages\n",`
			`"Tianshou provides experiment loggers that are both tensorboard- and wandb-compatible. It also has a BaseLogger Class which allows you to self-define your own logger. Check the [documentation](https://tianshou.readthedocs.io/en/master/api/tianshou.utils.html#tianshou.utils.BaseLogger) for details.\n",`
			`"\n",`
			`"## Learn more about the APIs of Trainers\n",`
			`"[documentation](https://tianshou.readthedocs.io/en/master/api/tianshou.trainer.html)"`
			`],`
			`"metadata": {`
			`"id": "_j3aUJZQ7nml"`
			`}`
			`}`
			`]`
			`}`