design exploration and evaluators for off-policy algos

2018-03-04 13:53:29 +08:00 · 2018-03-04 13:53:29 +08:00 · 54a7b1343d
commit 54a7b1343d
parent 2eb056a721
3 changed files with 25 additions and 13 deletions
--- a/examples/ddpg_example.py
+++ b/examples/ddpg_example.py
@ -78,13 +78,10 @@ if __name__ == '__main__':
        critic.sync_weights()
        start_time = time.time()
-        for i in range(100):
+        data_collector.collect(num_timesteps=1e3)  # warm-up
        for i in range(int(1e8)):
            # collect data
-            data_collector.collect(num_episodes=50)
+            data_collector.collect()
            # print current return
            print('Epoch {}:'.format(i))
            data_collector.statistics()
            # update network
            for _ in range(num_batches):
@ -92,3 +89,7 @@ if __name__ == '__main__':
                sess.run([actor_train_op, critic_train_op], feed_dict=feed_dict)
            print('Elapsed time: {:.1f} min'.format((time.time() - start_time) / 60))
            # test every 1000 training steps
            if i % 1000 == 0:
                test(env, actor)
--- a/examples/dqn_replay.py
+++ b/examples/dqn_replay.py
@ -77,17 +77,28 @@ if __name__ == '__main__':
        pi.sync_weights()  # TODO: automate this for policies with target network
        start_time = time.time()
-        for i in range(100):
+        epsilon = 0.5
        pi.set_epsilon_train(epsilon)
        data_collector.collect(num_timesteps=1e3)  # warm-up
        for i in range(int(1e8)):  # number of training steps
            # anneal epsilon step-wise
            if (i + 1) % 1e4 == 0 and epsilon > 0.1:
                epsilon -= 0.1
                pi.set_epsilon_train(epsilon)
            # collect data
            data_collector.collect()
            # print current return
            print('Epoch {}:'.format(i))
            data_collector.statistics()
            # update network
            for _ in range(num_batches):
                feed_dict = data_collector.next_batch(batch_size)
                sess.run(train_op, feed_dict=feed_dict)
            print('Elapsed time: {:.1f} min'.format((time.time() - start_time) / 60))
            # test every 1000 training steps
            # tester could share some code with batch!
            if i % 1000 == 0:
                # epsilon 0.05 as in nature paper
                pi.set_epsilon_test(0.05)
                test(env, pi)  # go for act_test of pi, not act
--- a/tianshou/data/data_collector.py
+++ b/tianshou/data/data_collector.py
@ -59,7 +59,7 @@ class DataCollector(object):
        if self.process_mode == 'minibatch':
            pass
-        # flatten rank-2 list to numpy array
+        # flatten rank-2 list to numpy array, construct feed_dict
        return