update tests

2024-04-24 17:06:59 +02:00 · 2024-04-24 17:06:59 +02:00 · 49c750fb09
commit 49c750fb09
parent 8cb17de190
35 changed files with 129 additions and 127 deletions
--- a/test/base/test_policy.py
+++ b/test/base/test_policy.py
@ -64,6 +64,7 @@ def policy(request: pytest.FixtureRequest) -> PPOPolicy:
 class TestPolicyBasics:
    def test_get_action(self, policy: PPOPolicy) -> None:
        policy.is_eval = True
        sample_obs = torch.randn(obs_shape)
        policy.deterministic_eval = False
        actions = [policy.compute_action(sample_obs) for _ in range(10)]
--- a/test/continuous/test_ddpg.py
+++ b/test/continuous/test_ddpg.py
@ -138,9 +138,8 @@ def test_ddpg(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/continuous/test_npg.py
+++ b/test/continuous/test_npg.py
@ -160,9 +160,8 @@ def test_npg(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/continuous/test_ppo.py
+++ b/test/continuous/test_ppo.py
@ -195,9 +195,8 @@ def test_ppo(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(epoch_stat)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/continuous/test_redq.py
+++ b/test/continuous/test_redq.py
@ -169,9 +169,8 @@ def test_redq(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/continuous/test_sac_with_il.py
+++ b/test/continuous/test_sac_with_il.py
@ -161,7 +161,6 @@ def test_sac_with_il(args: argparse.Namespace = get_args()) -> None:
    assert stop_fn(result.best_reward)
    # here we define an imitation collector with a trivial policy
    policy.eval()
    if args.task.startswith("Pendulum"):
        args.reward_threshold -= 50  # lower the goal
    il_net = Net(
--- a/test/continuous/test_td3.py
+++ b/test/continuous/test_td3.py
@ -160,10 +160,9 @@ def test_td3(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(epoch_stat.info_stat)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
        collector.reset()
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/continuous/test_trpo.py
+++ b/test/continuous/test_trpo.py
@ -160,9 +160,8 @@ def test_trpo(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_a2c_with_il.py
+++ b/test/discrete/test_a2c_with_il.py
@ -4,12 +4,12 @@ import pprint
 import gymnasium as gym
 import numpy as np
 import pytest
 import torch
 from gymnasium.spaces import Box
 from torch.utils.tensorboard import SummaryWriter
 from tianshou.data import Collector, VectorReplayBuffer
 from tianshou.env import DummyVectorEnv, SubprocVectorEnv
 from tianshou.policy import A2CPolicy, ImitationPolicy
 from tianshou.policy.base import BasePolicy
 from tianshou.trainer import OffpolicyTrainer, OnpolicyTrainer
@ -25,7 +25,7 @@ except ImportError:
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--buffer-size", type=int, default=20000)
@ -60,29 +60,35 @@ def get_args() -> argparse.Namespace:
    return parser.parse_known_args()[0]
@pytest.mark.skipif(envpool is None, reason="EnvPool doesn't support this platform")
 def test_a2c_with_il(args: argparse.Namespace = get_args()) -> None:
    # if you want to use python vector env, please refer to other test scripts
    train_envs = env = envpool.make(
        args.task,
        env_type="gymnasium",
        num_envs=args.training_num,
        seed=args.seed,
    )
    test_envs = envpool.make(
        args.task,
        env_type="gymnasium",
        num_envs=args.test_num,
        seed=args.seed,
    )
    args.state_shape = env.observation_space.shape or env.observation_space.n
    args.action_shape = env.action_space.shape or env.action_space.n
    if args.reward_threshold is None:
        default_reward_threshold = {"CartPole-v0": 195}
        args.reward_threshold = default_reward_threshold.get(args.task, env.spec.reward_threshold)
    # seed
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    if envpool is not None:
        train_envs = env = envpool.make(
            args.task,
            env_type="gymnasium",
            num_envs=args.training_num,
            seed=args.seed,
        )
        test_envs = envpool.make(
            args.task,
            env_type="gymnasium",
            num_envs=args.test_num,
            seed=args.seed,
        )
    else:
        env = gym.make(args.task)
        train_envs = DummyVectorEnv([lambda: gym.make(args.task) for _ in range(args.training_num)])
        test_envs = DummyVectorEnv([lambda: gym.make(args.task) for _ in range(args.test_num)])
        train_envs.seed(args.seed)
        test_envs.seed(args.seed)
    args.state_shape = env.observation_space.shape or env.observation_space.n
    args.action_shape = env.action_space.shape or env.action_space.n
    if args.reward_threshold is None:
        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(args.task, env.spec.reward_threshold)
    # model
    net = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes, device=args.device)
    actor = Actor(net, args.action_shape, device=args.device).to(args.device)
@ -145,14 +151,13 @@ def test_a2c_with_il(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
    policy.eval()
    # here we define an imitation collector with a trivial policy
-    # if args.task == 'CartPole-v0':
+    # if args.task == 'CartPole-v1':
    #     env.spec.reward_threshold = 190  # lower the goal
    net = Net(state_shape=args.state_shape, hidden_sizes=args.hidden_sizes, device=args.device)
    actor = Actor(net, args.action_shape, device=args.device).to(args.device)
@ -162,9 +167,23 @@ def test_a2c_with_il(args: argparse.Namespace = get_args()) -> None:
        optim=optim,
        action_space=env.action_space,
    )
    if envpool is not None:
        il_env = envpool.make(
            args.task,
            env_type="gymnasium",
            num_envs=args.test_num,
            seed=args.seed,
        )
    else:
        il_env = SubprocVectorEnv(
            [lambda: gym.make(args.task) for _ in range(args.test_num)],
            context="fork",
        )
        il_env.seed(args.seed)
    il_test_collector = Collector(
        il_policy,
-        envpool.make(args.task, env_type="gymnasium", num_envs=args.test_num, seed=args.seed),
+        il_env,
    )
    train_collector.reset()
    result = OffpolicyTrainer(
@ -186,9 +205,9 @@ def test_a2c_with_il(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        il_policy.eval()
        collector = Collector(il_policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_bdq.py
+++ b/test/discrete/test_bdq.py
@ -148,11 +148,14 @@ def test_bdq(args: argparse.Namespace = get_args()) -> None:
    if __name__ == "__main__":
        pprint.pprint(result)
        # Let's watch its performance!
        policy.eval()
        policy.set_eps(args.eps_test)
        test_envs.seed(args.seed)
        test_collector.reset()
-        collector_stats = test_collector.collect(n_episode=args.test_num, render=args.render)
+        collector_stats = test_collector.collect(
            n_episode=args.test_num,
            render=args.render,
            is_eval=True,
        )
        collector_stats.pprint_asdict()
--- a/test/discrete/test_c51.py
+++ b/test/discrete/test_c51.py
@ -25,7 +25,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -68,7 +68,7 @@ def test_c51(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -206,10 +206,10 @@ def test_c51(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_dqn.py
+++ b/test/discrete/test_dqn.py
@ -24,7 +24,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -62,7 +62,7 @@ def test_dqn(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -159,10 +159,10 @@ def test_dqn(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_drqn.py
+++ b/test/discrete/test_drqn.py
@ -19,7 +19,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -55,7 +55,7 @@ def test_drqn(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -136,9 +136,9 @@ def test_drqn(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_fqf.py
+++ b/test/discrete/test_fqf.py
@ -25,7 +25,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -67,7 +67,7 @@ def test_fqf(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -176,10 +176,10 @@ def test_fqf(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_iqn.py
+++ b/test/discrete/test_iqn.py
@ -25,7 +25,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=0)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -67,7 +67,7 @@ def test_iqn(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -172,10 +172,10 @@ def test_iqn(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_pg.py
+++ b/test/discrete/test_pg.py
@ -20,7 +20,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--buffer-size", type=int, default=20000)
@ -51,7 +51,7 @@ def test_pg(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -129,9 +129,9 @@ def test_pg(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_ppo.py
+++ b/test/discrete/test_ppo.py
@ -23,7 +23,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--buffer-size", type=int, default=20000)
@ -64,7 +64,7 @@ def test_ppo(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -156,9 +156,9 @@ def test_ppo(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_qrdqn.py
+++ b/test/discrete/test_qrdqn.py
@ -20,7 +20,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -60,10 +60,10 @@ def test_qrdqn(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
-    if args.task == "CartPole-v0" and env.spec:
+    if args.task == "CartPole-v1" and env.spec:
        env.spec.reward_threshold = 190  # lower the goal
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -161,10 +161,10 @@ def test_qrdqn(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_rainbow.py
+++ b/test/discrete/test_rainbow.py
@ -22,7 +22,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -69,7 +69,7 @@ def test_rainbow(args: argparse.Namespace = get_args()) -> None:
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -223,10 +223,10 @@ def test_rainbow(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/discrete/test_sac.py
+++ b/test/discrete/test_sac.py
@ -21,7 +21,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--buffer-size", type=int, default=20000)
@ -60,7 +60,7 @@ def test_discrete_sac(args: argparse.Namespace = get_args()) -> None:
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 170}  # lower the goal
+        default_reward_threshold = {"CartPole-v1": 170}  # lower the goal
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -147,9 +147,9 @@ def test_discrete_sac(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector.reset()
        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/highlevel/env_factory.py
+++ b/test/highlevel/env_factory.py
@ -7,7 +7,7 @@ from tianshou.highlevel.env import (
 class DiscreteTestEnvFactory(EnvFactoryRegistered):
    def __init__(self) -> None:
        super().__init__(
-            task="CartPole-v0",
+            task="CartPole-v1",
            train_seed=42,
            test_seed=1337,
            venv_type=VectorEnvType.DUMMY,
--- a/test/modelbased/test_dqn_icm.py
+++ b/test/modelbased/test_dqn_icm.py
@ -21,7 +21,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -79,7 +79,7 @@ def test_dqn_icm(args: argparse.Namespace = get_args()) -> None:
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -202,10 +202,9 @@ def test_dqn_icm(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/modelbased/test_ppo_icm.py
+++ b/test/modelbased/test_ppo_icm.py
@ -22,7 +22,7 @@ from tianshou.utils.space_info import SpaceInfo
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--buffer-size", type=int, default=20000)
@ -83,7 +83,7 @@ def test_ppo(args: argparse.Namespace = get_args()) -> None:
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 195}
+        default_reward_threshold = {"CartPole-v1": 195}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -194,9 +194,8 @@ def test_ppo(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/modelbased/test_psrl.py
+++ b/test/modelbased/test_psrl.py
@ -120,10 +120,9 @@ def test_psrl(args: argparse.Namespace = get_args()) -> None:
    if __name__ == "__main__":
        pprint.pprint(result)
        # Let's watch its performance!
        policy.eval()
        test_envs.seed(args.seed)
        test_collector.reset()
-        stats = test_collector.collect(n_episode=args.test_num, render=args.render)
+        stats = test_collector.collect(n_episode=args.test_num, render=args.render, is_eval=True)
        stats.pprint_asdict()
    elif env.spec.reward_threshold:
        assert result.best_reward >= env.spec.reward_threshold
--- a/test/offline/gather_cartpole_data.py
+++ b/test/offline/gather_cartpole_data.py
@ -19,12 +19,12 @@ from tianshou.utils.space_info import SpaceInfo
 def expert_file_name() -> str:
-    return os.path.join(os.path.dirname(__file__), "expert_QRDQN_CartPole-v0.pkl")
+    return os.path.join(os.path.dirname(__file__), "expert_QRDQN_CartPole-v1.pkl")
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1)
    parser.add_argument("--eps-test", type=float, default=0.05)
@ -67,7 +67,7 @@ def gather_data() -> VectorReplayBuffer | PrioritizedVectorReplayBuffer:
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 190}
+        default_reward_threshold = {"CartPole-v1": 190}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -167,7 +167,7 @@ def gather_data() -> VectorReplayBuffer | PrioritizedVectorReplayBuffer:
    policy.set_eps(0.2)
    collector = Collector(policy, test_envs, buf, exploration_noise=True)
    collector.reset()
-    collector_stats = collector.collect(n_step=args.buffer_size)
+    collector_stats = collector.collect(n_step=args.buffer_size, is_eval=True)
    if args.save_buffer_name.endswith(".hdf5"):
        buf.save_hdf5(args.save_buffer_name)
    else:
--- a/test/offline/test_bcq.py
+++ b/test/offline/test_bcq.py
@ -189,9 +189,8 @@ def test_bcq(args: argparse.Namespace = get_args()) -> None:
        policy.load_state_dict(
            torch.load(os.path.join(log_path, "policy.pth"), map_location=torch.device("cpu")),
        )
        policy.eval()
        collector = Collector(policy, env)
-        collector.collect(n_episode=1, render=1 / 35)
+        collector.collect(n_episode=1, render=1 / 35, is_eval=True)
    # trainer
    result = OfflineTrainer(
@ -213,9 +212,8 @@ def test_bcq(args: argparse.Namespace = get_args()) -> None:
    if __name__ == "__main__":
        pprint.pprint(result)
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/offline/test_cql.py
+++ b/test/offline/test_cql.py
@ -210,9 +210,8 @@ def test_cql(args: argparse.Namespace = get_args()) -> None:
    if __name__ == "__main__":
        pprint.pprint(epoch_stat.info_stat)
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_result = collector.collect(n_episode=1, render=args.render)
+        collector_result = collector.collect(n_episode=1, render=args.render, is_eval=True)
        if collector_result.returns_stat and collector_result.lens_stat:
            print(
                f"Final reward: {collector_result.returns_stat.mean}, length: {collector_result.lens_stat.mean}",
--- a/test/offline/test_discrete_bcq.py
+++ b/test/offline/test_discrete_bcq.py
@ -25,7 +25,7 @@ else:  # pytest
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.001)
@ -61,7 +61,7 @@ def test_discrete_bcq(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 185}
+        default_reward_threshold = {"CartPole-v1": 185}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -169,10 +169,9 @@ def test_discrete_bcq(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/offline/test_discrete_cql.py
+++ b/test/offline/test_discrete_cql.py
@ -24,7 +24,7 @@ else:  # pytest
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--eps-test", type=float, default=0.001)
@ -58,7 +58,7 @@ def test_discrete_cql(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 170}
+        default_reward_threshold = {"CartPole-v1": 170}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -131,10 +131,9 @@ def test_discrete_cql(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        policy.set_eps(args.eps_test)
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/offline/test_discrete_crr.py
+++ b/test/offline/test_discrete_crr.py
@ -25,7 +25,7 @@ else:  # pytest
 def get_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()
-    parser.add_argument("--task", type=str, default="CartPole-v0")
+    parser.add_argument("--task", type=str, default="CartPole-v1")
    parser.add_argument("--reward-threshold", type=float, default=None)
    parser.add_argument("--seed", type=int, default=1626)
    parser.add_argument("--lr", type=float, default=7e-4)
@ -56,7 +56,7 @@ def test_discrete_crr(args: argparse.Namespace = get_args()) -> None:
    args.state_shape = space_info.observation_info.obs_shape
    args.action_shape = space_info.action_info.action_shape
    if args.reward_threshold is None:
-        default_reward_threshold = {"CartPole-v0": 180}
+        default_reward_threshold = {"CartPole-v1": 180}
        args.reward_threshold = default_reward_threshold.get(
            args.task,
            env.spec.reward_threshold if env.spec else None,
@ -135,9 +135,8 @@ def test_discrete_crr(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/offline/test_gail.py
+++ b/test/offline/test_gail.py
@ -231,9 +231,8 @@ def test_gail(args: argparse.Namespace = get_args()) -> None:
        pprint.pprint(result)
        # Let's watch its performance!
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/offline/test_td3_bc.py
+++ b/test/offline/test_td3_bc.py
@ -198,9 +198,8 @@ def test_td3_bc(args: argparse.Namespace = get_args()) -> None:
    if __name__ == "__main__":
        pprint.pprint(epoch_stat.info_stat)
        env = gym.make(args.task)
        policy.eval()
        collector = Collector(policy, env)
-        collector_stats = collector.collect(n_episode=1, render=args.render)
+        collector_stats = collector.collect(n_episode=1, render=args.render, is_eval=True)
        print(collector_stats)
--- a/test/pettingzoo/pistonball.py
+++ b/test/pettingzoo/pistonball.py
@ -188,8 +188,7 @@ def watch(args: argparse.Namespace = get_args(), policy: BasePolicy | None = Non
            "watching random agents, as loading pre-trained policies is currently not supported",
        )
        policy, _, _ = get_agents(args)
    policy.eval()
    [agent.set_eps(args.eps_test) for agent in policy.policies.values()]
    collector = Collector(policy, env, exploration_noise=True)
-    result = collector.collect(n_episode=1, render=args.render)
+    result = collector.collect(n_episode=1, render=args.render, is_eval=True)
    result.pprint_asdict()
--- a/test/pettingzoo/pistonball_continuous.py
+++ b/test/pettingzoo/pistonball_continuous.py
@ -284,7 +284,6 @@ def watch(args: argparse.Namespace = get_args(), policy: BasePolicy | None = Non
            "watching random agents, as loading pre-trained policies is currently not supported",
        )
        policy, _, _ = get_agents(args)
    policy.eval()
    collector = Collector(policy, env)
-    collector_result = collector.collect(n_episode=1, render=args.render)
+    collector_result = collector.collect(n_episode=1, render=args.render, is_eval=True)
    collector_result.pprint_asdict()
--- a/test/pettingzoo/tic_tac_toe.py
+++ b/test/pettingzoo/tic_tac_toe.py
@ -228,8 +228,7 @@ def watch(
 ) -> None:
    env = DummyVectorEnv([partial(get_env, render_mode="human")])
    policy, optim, agents = get_agents(args, agent_learn=agent_learn, agent_opponent=agent_opponent)
    policy.eval()
    policy.policies[agents[args.agent_id - 1]].set_eps(args.eps_test)
    collector = Collector(policy, env, exploration_noise=True)
-    result = collector.collect(n_episode=1, render=args.render)
+    result = collector.collect(n_episode=1, render=args.render, is_eval=True)
    result.pprint_asdict()