python source code of train_eval_rnn

agents-master
- test_individually.txt
- STYLE_GUIDE.md
- pip_pkg.sh
- LICENSE
- build_docs.py
- CONTRIBUTING.md
- tests_release.sh
- setup.py
- PRINCIPLES.md
- tf_agents
  - utils
    - tensor_normalizer.py
    - example_encoding_dataset_test.py
    - test_utils.py
    - numpy_storage_test.py
    - composite_test.py
    - object_identity_test.py
    - example_encoding_dataset.py
    - xla.py
    - common_test.py
    - numpy_storage.py
    - nest_utils.py
    - composite.py
    - example_encoding_test.py
    - value_ops.py
    - eager_utils_test.py
    - session_utils.py
    - nest_utils_test.py
    - test_utils_test.py
    - xla_test.py
    - tensor_normalizer_test.py
    - common.py
    - __init__.py
    - value_ops_test.py
    - eager_utils.py
    - common_members_not_overridden_test.py
    - session_utils_test.py
    - object_identity.py
    - timer.py
    - example_encoding.py
  - policies
    - py_epsilon_greedy_policy_test.py
    - policy_saver.py
    - scripted_py_policy_test.py
    - random_tf_policy.py
    - fixed_policy.py
    - py_epsilon_greedy_policy.py
    - batched_py_policy.py
    - py_policy.py
    - ou_noise_policy_test.py
    - greedy_policy.py
    - policy_saver_test.py
    - tf_policy.py
    - temporal_action_smoothing.py
    - q_policy_test.py
    - epsilon_greedy_policy.py
    - actor_policy_test.py
    - q_policy.py
    - random_py_policy_test.py
    - gaussian_policy.py
    - fixed_policy_test.py
    - batched_py_policy_test.py
    - async_policy_saver.py
    - py_tf_eager_policy_test.py
    - policy_loader_test.py
    - tf_py_policy_test.py
    - boltzmann_policy.py
    - random_tf_policy_test.py
    - greedy_policy_test.py
    - py_tf_eager_policy.py
    - gaussian_policy_test.py
    - py_tf_policy.py
    - async_policy_saver_test.py
    - policy_loader.py
    - epsilon_greedy_policy_test.py
    - scripted_py_policy.py
    - py_tf_policy_test.py
    - __init__.py
    - tf_py_policy.py
    - categorical_q_policy_test.py
    - ou_noise_policy.py
    - random_py_policy.py
    - actor_policy.py
    - categorical_q_policy.py
    - policy_info_updater_wrapper_test.py
    - temporal_action_smoothing_test.py
    - tf_policy_test.py
    - boltzmann_policy_test.py
    - policy_info_updater_wrapper.py
  - distributions
    - shifted_categorical_test.py
    - gumbel_softmax_test.py
    - shifted_categorical.py
    - utils_test.py
    - masked_test.py
    - gumbel_softmax.py
    - __init__.py
    - utils.py
    - masked.py
    - tanh_bijector_stable.py
    - reparameterized_sampling.py
  - replay_buffers
    - tf_uniform_replay_buffer_test.py
    - tf_uniform_replay_buffer.py
    - table_test.py
    - py_uniform_replay_buffer.py
    - replay_buffer.py
    - episodic_replay_buffer_driver_test.py
    - episodic_replay_buffer_test.py
    - table.py
    - __init__.py
    - episodic_replay_buffer.py
    - py_hashed_replay_buffer.py
    - replay_buffer_test.py
    - py_replay_buffers_test.py
    - episodic_table_test.py
    - episodic_table.py
  - keras_layers
    - dynamic_unroll_layer_test.py
    - inner_reshape.py
    - sequential_layer_test.py
    - bias_layer.py
    - rnn_wrapper.py
    - __init__.py
    - sequential_layer.py
    - inner_reshape_test.py
    - rnn_wrapper_test.py
    - dynamic_unroll_layer.py
    - bias_layer_test.py
  - version.py
  - networks
    - categorical_q_network.py
    - test_utils.py
    - value_network.py
    - categorical_projection_network.py
    - sequential.py
    - normal_projection_network.py
    - categorical_q_network_test.py
    - utils_test.py
    - nest_map.py
    - actor_distribution_network.py
    - value_network_test.py
    - q_network.py
    - lstm_encoding_network.py
    - encoding_network.py
    - normal_projection_network_test.py
    - encoding_network_test.py
    - value_rnn_network.py
    - categorical_projection_network_test.py
    - nest_map_test.py
    - actor_distribution_rnn_network_test.py
    - __init__.py
    - utils.py
    - actor_distribution_network_test.py
    - network_test.py
    - value_rnn_network_test.py
    - sequential_test.py
    - q_rnn_network_test.py
    - q_rnn_network.py
    - network.py
    - q_network_test.py
    - actor_distribution_rnn_network.py
    - expand_dims_layer.py
  - drivers
    - test_utils.py
    - dynamic_episode_driver.py
    - driver.py
    - dynamic_step_driver.py
    - tf_driver_test.py
    - test_utils_test.py
    - dynamic_step_driver_test.py
    - tf_driver.py
    - __init__.py
    - dynamic_episode_driver_test.py
    - py_driver.py
    - py_driver_test.py
  - typing
    - __init__.py
    - types.py
  - trajectories
    - time_step_test.py
    - test_utils.py
    - trajectory.py
    - policy_step_test.py
    - time_step.py
    - trajectory_test.py
    - policy_step.py
    - __init__.py
  - eval
    - metric_utils_test.py
    - metric_utils.py
    - __init__.py
  - bandits
    - policies
      - linear_bandit_policy.py
      - greedy_reward_prediction_policy.py
      - linear_bandit_policy_test.py
      - greedy_reward_prediction_policy_test.py
      - lin_ucb_policy.py
      - categorical_policy.py
      - neural_linucb_policy_test.py
      - linear_thompson_sampling_policy.py
      - linalg.py
      - neural_linucb_policy.py
      - linalg_test.py
      - mixture_policy.py
      - categorical_policy_test.py
      - __init__.py
      - policy_utilities_test.py
      - mixture_policy_test.py
      - policy_utilities.py
    - networks
      - global_and_arm_feature_network.py
      - heteroscedastic_q_network.py
      - global_and_arm_feature_network_test.py
      - __init__.py
      - heteroscedastic_q_network_test.py
    - drivers
      - driver_utils.py
      - __init__.py
    - agents
      - dropout_thompson_sampling_agent_test.py
      - constraints_test.py
      - static_mixture_agent.py
      - greedy_reward_prediction_agent.py
      - neural_linucb_agent.py
      - constraints.py
      - exp3_agent.py
      - examples
        v2
        train_eval_dqn.py
        train_eval_mushroom.py
        train_eval_covertype.py
        train_eval_per_arm_stationary_linear.py
        train_eval_stationary_linear.py
        train_eval_wheel.py
        train_eval_sparse_features.py
        train_eval_drifting_linear.py
        __init__.py
        trainer_test.py
        trainer.py
        train_eval_piecewise_linear.py
        train_eval_structured_linear.py
        v1
        train_eval_stationary_linear.py
        train_eval_wheel.py
        train_eval_drifting_linear.py
        __init__.py
        trainer_test.py
        trainer.py
        train_eval_piecewise_linear.py
        __init__.py
      - loss_utils_test.py
      - utils_test.py
      - dropout_thompson_sampling_agent.py
      - neural_epsilon_greedy_agent_test.py
      - neural_linucb_agent_test.py
      - greedy_reward_prediction_agent_test.py
      - linear_bandit_agent.py
      - mixture_agent.py
      - exp3_mixture_agent.py
      - mixture_agent_test.py
      - exp3_mixture_agent_test.py
      - __init__.py
      - utils.py
      - lin_ucb_agent.py
      - exp3_agent_test.py
      - linear_bandit_agent_test.py
      - loss_utils.py
      - linear_thompson_sampling_agent.py
      - neural_epsilon_greedy_agent.py
    - colabs
      - bandits_tutorial.ipynb
    - multi_objective
      - multi_objective_scalarizer_test.py
      - __init__.py
      - multi_objective_scalarizer.py
    - __init__.py
    - metrics
      - tf_metrics_test.py
      - tf_metrics.py
      - __init__.py
    - specs
      - __init__.py
      - utils.py
    - environments
      - stationary_stochastic_structured_py_environment.py
      - piecewise_stochastic_environment_test.py
      - bandit_py_environment.py
      - mushroom_environment_utilities_test.py
      - wheel_py_environment.py
      - bandit_tf_environment_test.py
      - stationary_stochastic_structured_py_environment_test.py
      - wheel_py_environment_test.py
      - non_stationary_stochastic_environment_test.py
      - non_stationary_stochastic_environment.py
      - bernoulli_action_mask_tf_environment.py
      - stationary_stochastic_per_arm_py_environment_test.py
      - bandit_tf_environment.py
      - bernoulli_py_environment_test.py
      - piecewise_stochastic_environment.py
      - bernoulli_py_environment.py
      - piecewise_bernoulli_py_environment_test.py
      - classification_environment_test.py
      - drifting_linear_environment.py
      - drifting_linear_environment_test.py
      - random_bandit_environment.py
      - __init__.py
      - bernoulli_action_mask_tf_environment_test.py
      - stationary_stochastic_py_environment.py
      - stationary_stochastic_py_environment_test.py
      - classification_environment.py
      - mushroom_environment_utilities.py
      - random_bandit_environment_test.py
      - piecewise_bernoulli_py_environment.py
      - environment_utilities.py
      - stationary_stochastic_per_arm_py_environment.py
  - agents
    - tf_agent.py
    - ddpg
      - critic_rnn_network_test.py
      - examples
        v2
        train_eval_rnn.py
        __init__.py
        train_eval.py
        v1
        train_eval_rnn.py
        __init__.py
        train_eval.py
        __init__.py
      - critic_rnn_network.py
      - critic_network.py
      - actor_network.py
      - ddpg_agent_test.py
      - __init__.py
      - actor_rnn_network.py
      - actor_network_test.py
      - actor_rnn_network_test.py
      - critic_network_test.py
      - ddpg_agent.py
    - sac
      - sac_agent_test.py
      - examples
        v2
        train_eval_rnn.py
        __init__.py
        train_eval.py
        v1
        __init__.py
        train_eval.py
        __init__.py
      - tanh_normal_projection_network_test.py
      - __init__.py
      - sac_agent.py
      - tanh_normal_projection_network.py
    - tf_agent_test.py
    - td3
      - examples
        v2
        train_eval_rnn.py
        train_eval.py
        v1
        train_eval_rnn.py
        train_eval.py
        __init__.py
      - td3_agent.py
      - td3_agent_test.py
      - __init__.py
    - dqn
      - dqn_agent.py
      - examples
        v2
        train_eval_test.py
        __init__.py
        train_eval.py
        v1
        oog_train_eval.py
        train_eval_gym.py
        train_eval_rnn_gym.py
        __init__.py
        train_eval_atari.py
        __init__.py
      - dqn_agent_test.py
      - __init__.py
    - reinforce
      - examples
        v2
        __init__.py
        train_eval.py
        v1
        __init__.py
        train_eval.py
        __init__.py
      - reinforce_agent.py
      - reinforce_agent_test.py
      - __init__.py
    - behavioral_cloning
      - behavioral_cloning_agent.py
      - behavioral_cloning_agent_test.py
      - __init__.py
    - __init__.py
    - random
      - random_agent.py
      - fixed_policy_agent.py
      - __init__.py
      - random_agent_test.py
    - categorical_dqn
      - categorical_dqn_agent_test.py
      - examples
        train_eval_atari.py
      - categorical_dqn_agent.py
      - __init__.py
    - ppo
      - ppo_policy.py
      - examples
        v2
        train_eval_clip_agent.py
        __init__.py
        v1
        train_eval_clip_agent_atari.py
        train_eval_clip_agent.py
        __init__.py
        train_eval_clip_agent_random_py_env.py
        __init__.py
      - ppo_utils.py
      - ppo_utils_test.py
      - ppo_policy_test.py
      - ppo_kl_penalty_agent.py
      - __init__.py
      - ppo_agent.py
      - ppo_agent_test.py
      - ppo_clip_agent.py
  - __init__.py
  - system
    - multiprocessing_test.py
    - default
      - multiprocessing_core.py
      - __init__.py
    - system_multiprocessing.py
    - __init__.py
  - metrics
    - tf_py_metric_test.py
    - batched_py_metric_test.py
    - tf_metric.py
    - tf_metrics_test.py
    - batched_py_metric.py
    - py_metrics.py
    - py_metrics_test.py
    - py_metric.py
    - tf_metrics.py
    - tf_py_metric.py
    - __init__.py
    - py_metric_test.py
    - metric_equality_test.py
  - specs
    - distribution_spec.py
    - distribution_spec_test.py
    - tensor_spec.py
    - array_spec_test.py
    - array_spec.py
    - __init__.py
    - tensor_spec_test.py
    - specs_test.py
  - environments
    - py_environment_test.py
    - atari_wrappers_test.py
    - suite_pybullet.py
    - gym_wrapper_test.py
    - parallel_py_environment.py
    - suite_mujoco.py
    - suite_pybullet_test.py
    - py_environment.py
    - trajectory_replay_test.py
    - suite_gym_test.py
    - tf_wrappers_test.py
    - atari_preprocessing_test.py
    - wrappers_test.py
    - test_envs.py
    - wrappers.py
    - examples
      - tic_tac_toe_environment_test.py
      - __init__.py
      - tic_tac_toe_environment.py
      - masked_cartpole.py
    - trajectory_replay.py
    - dm_control_wrapper.py
    - suite_atari.py
    - utils_test.py
    - batched_py_environment_test.py
    - tf_wrappers.py
    - random_tf_environment.py
    - gym_wrapper.py
    - atari_wrappers.py
    - tf_environment.py
    - random_py_environment.py
    - suite_mujoco_test.py
    - suite_dm_control_test.py
    - tf_py_environment.py
    - tf_py_environment_test.py
    - random_py_environment_test.py
    - suite_gym.py
    - batched_py_environment.py
    - configs
      - suite_pybullet.gin
      - suite_bsuite.gin
      - suite_gym.gin
      - suite_mujoco.gin
    - __init__.py
    - utils.py
    - atari_preprocessing.py
    - suite_dm_control.py
    - suite_bsuite.py
    - test_envs_test.py
    - suite_atari_test.py
    - suite_bsuite_test.py
    - random_tf_environment_test.py
    - dm_control_wrapper_test.py
    - tf_environment_test.py
    - parallel_py_environment_test.py
  - benchmark
    - distribution_strategy_utils.py
    - dqn_benchmark_test.py
    - __init__.py
    - utils.py
- README.md
- CODE_OF_CONDUCT.md
- broken_tests.txt
- tools
  - test_colabs.py
  - docker
    - ubuntu_1804_tf_agents
- .gitignore
- docs
  - overview.md
  - tutorials
    - 6_reinforce_tutorial.ipynb
    - 5_replay_buffers_tutorial.ipynb
    - images
    - 8_networks_tutorial.ipynb
    - 7_SAC_minitaur_tutorial.ipynb
    - 3_policies_tutorial.ipynb
    - 10_checkpointer_policysaver_tutorial.ipynb
    - colab_kernel_init.py
    - 2_environments_tutorial.ipynb
    - 4_drivers_tutorial.ipynb
    - 0_intro_rl.ipynb
    - 9_c51_tutorial.ipynb
    - 1_dqn_tutorial.ipynb
  - _book.yaml
  - _index.yaml
- tests_nightly_pypi.sh

# coding=utf-8
# Copyright 2018 The TF-Agents Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Lint as: python2, python3
r"""Train and Eval DQN.

To run:

```bash
tensorboard --logdir $HOME/tmp/dqn_rnn_v1/gym/MaskedCartPole-v0/ --port 2223 &

python tf_agents/agents/dqn/examples/v1/train_eval_rnn_gym.py \
  --root_dir=$HOME/tmp/dqn_rnn_v1/gym/MaskedCartPole-v0/ \
  --alsologtostderr
```
"""

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import os
import time

from absl import app
from absl import flags
from absl import logging

from six.moves import range
import tensorflow as tf  # pylint: disable=g-explicit-tensorflow-version-import

from tf_agents.agents.dqn import dqn_agent
from tf_agents.drivers import dynamic_episode_driver
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.environments.examples import masked_cartpole  # pylint: disable=unused-import
from tf_agents.eval import metric_utils
from tf_agents.metrics import py_metrics
from tf_agents.metrics import tf_metrics
from tf_agents.networks import q_rnn_network
from tf_agents.policies import py_tf_policy
from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.utils import common

flags.DEFINE_string('root_dir', os.getenv('TEST_UNDECLARED_OUTPUTS_DIR'),
                    'Root directory for writing logs/summaries/checkpoints.')
flags.DEFINE_integer('num_iterations', 100000,
                     'Total number train/eval iterations to perform.')
flags.DEFINE_integer('eval_interval', 1000,
                     'Total number train/eval iterations to perform.')
FLAGS = flags.FLAGS


def train_eval(
    root_dir,
    env_name='MaskedCartPole-v0',
    num_iterations=100000,
    input_fc_layer_params=(50,),
    lstm_size=(20,),
    output_fc_layer_params=(20,),
    train_sequence_length=10,
    # Params for collect
    initial_collect_steps=50,
    collect_episodes_per_iteration=1,
    epsilon_greedy=0.1,
    replay_buffer_capacity=100000,
    # Params for target update
    target_update_tau=0.05,
    target_update_period=5,
    # Params for train
    train_steps_per_iteration=10,
    batch_size=128,
    learning_rate=1e-3,
    gamma=0.99,
    reward_scale_factor=1.0,
    gradient_clipping=None,
    # Params for eval
    num_eval_episodes=10,
    eval_interval=1000,
    # Params for summaries and logging
    train_checkpoint_interval=10000,
    policy_checkpoint_interval=5000,
    rb_checkpoint_interval=20000,
    log_interval=100,
    summary_interval=1000,
    summaries_flush_secs=10,
    debug_summaries=False,
    summarize_grads_and_vars=False,
    eval_metrics_callback=None):
  """A simple train and eval for DQN."""
  root_dir = os.path.expanduser(root_dir)
  train_dir = os.path.join(root_dir, 'train')
  eval_dir = os.path.join(root_dir, 'eval')

  train_summary_writer = tf.compat.v2.summary.create_file_writer(
      train_dir, flush_millis=summaries_flush_secs * 1000)
  train_summary_writer.set_as_default()

  eval_summary_writer = tf.compat.v2.summary.create_file_writer(
      eval_dir, flush_millis=summaries_flush_secs * 1000)
  eval_metrics = [
      py_metrics.AverageReturnMetric(buffer_size=num_eval_episodes),
      py_metrics.AverageEpisodeLengthMetric(buffer_size=num_eval_episodes),
  ]

  global_step = tf.compat.v1.train.get_or_create_global_step()
  with tf.compat.v2.summary.record_if(
      lambda: tf.math.equal(global_step % summary_interval, 0)):
    eval_py_env = suite_gym.load(env_name)
    tf_env = tf_py_environment.TFPyEnvironment(suite_gym.load(env_name))

    q_net = q_rnn_network.QRnnNetwork(
        tf_env.time_step_spec().observation,
        tf_env.action_spec(),
        input_fc_layer_params=input_fc_layer_params,
        lstm_size=lstm_size,
        output_fc_layer_params=output_fc_layer_params)

    # TODO(b/127301657): Decay epsilon based on global step, cf. cl/188907839
    tf_agent = dqn_agent.DqnAgent(
        tf_env.time_step_spec(),
        tf_env.action_spec(),
        q_network=q_net,
        optimizer=tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate),
        epsilon_greedy=epsilon_greedy,
        target_update_tau=target_update_tau,
        target_update_period=target_update_period,
        td_errors_loss_fn=common.element_wise_squared_loss,
        gamma=gamma,
        reward_scale_factor=reward_scale_factor,
        gradient_clipping=gradient_clipping,
        debug_summaries=debug_summaries,
        summarize_grads_and_vars=summarize_grads_and_vars,
        train_step_counter=global_step)

    replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
        tf_agent.collect_data_spec,
        batch_size=tf_env.batch_size,
        max_length=replay_buffer_capacity)

    eval_py_policy = py_tf_policy.PyTFPolicy(tf_agent.policy)

    train_metrics = [
        tf_metrics.NumberOfEpisodes(),
        tf_metrics.EnvironmentSteps(),
        tf_metrics.AverageReturnMetric(),
        tf_metrics.AverageEpisodeLengthMetric(),
    ]

    initial_collect_policy = random_tf_policy.RandomTFPolicy(
        tf_env.time_step_spec(), tf_env.action_spec())
    initial_collect_op = dynamic_episode_driver.DynamicEpisodeDriver(
        tf_env,
        initial_collect_policy,
        observers=[replay_buffer.add_batch] + train_metrics,
        num_episodes=initial_collect_steps).run()

    collect_policy = tf_agent.collect_policy
    collect_op = dynamic_episode_driver.DynamicEpisodeDriver(
        tf_env,
        collect_policy,
        observers=[replay_buffer.add_batch] + train_metrics,
        num_episodes=collect_episodes_per_iteration).run()

    # Need extra step to generate transitions of train_sequence_length.
    # Dataset generates trajectories with shape [BxTx...]
    dataset = replay_buffer.as_dataset(
        num_parallel_calls=3,
        sample_batch_size=batch_size,
        num_steps=train_sequence_length + 1).prefetch(3)

    iterator = tf.compat.v1.data.make_initializable_iterator(dataset)
    experience, _ = iterator.get_next()
    loss_info = common.function(tf_agent.train)(experience=experience)

    train_checkpointer = common.Checkpointer(
        ckpt_dir=train_dir,
        agent=tf_agent,
        global_step=global_step,
        metrics=metric_utils.MetricsGroup(train_metrics, 'train_metrics'))
    policy_checkpointer = common.Checkpointer(
        ckpt_dir=os.path.join(train_dir, 'policy'),
        policy=tf_agent.policy,
        global_step=global_step)
    rb_checkpointer = common.Checkpointer(
        ckpt_dir=os.path.join(train_dir, 'replay_buffer'),
        max_to_keep=1,
        replay_buffer=replay_buffer)

    summary_ops = []
    for train_metric in train_metrics:
      summary_ops.append(train_metric.tf_summaries(
          train_step=global_step, step_metrics=train_metrics[:2]))

    with eval_summary_writer.as_default(), \
         tf.compat.v2.summary.record_if(True):
      for eval_metric in eval_metrics:
        eval_metric.tf_summaries(train_step=global_step)

    init_agent_op = tf_agent.initialize()

    with tf.compat.v1.Session() as sess:
      sess.run(train_summary_writer.init())
      sess.run(eval_summary_writer.init())
      # Initialize the graph.
      train_checkpointer.initialize_or_restore(sess)
      rb_checkpointer.initialize_or_restore(sess)
      sess.run(iterator.initializer)
      common.initialize_uninitialized_variables(sess)

      sess.run(init_agent_op)
      logging.info('Collecting initial experience.')
      sess.run(initial_collect_op)

      # Compute evaluation metrics.
      global_step_val = sess.run(global_step)
      metric_utils.compute_summaries(
          eval_metrics,
          eval_py_env,
          eval_py_policy,
          num_episodes=num_eval_episodes,
          global_step=global_step_val,
          callback=eval_metrics_callback,
          log=True,
      )

      collect_call = sess.make_callable(collect_op)
      train_step_call = sess.make_callable([loss_info, summary_ops])
      global_step_call = sess.make_callable(global_step)

      timed_at_step = global_step_call()
      time_acc = 0
      steps_per_second_ph = tf.compat.v1.placeholder(
          tf.float32, shape=(), name='steps_per_sec_ph')
      steps_per_second_summary = tf.compat.v2.summary.scalar(
          name='global_steps_per_sec', data=steps_per_second_ph,
          step=global_step)

      for _ in range(num_iterations):
        # Train/collect/eval.
        start_time = time.time()
        collect_call()
        for _ in range(train_steps_per_iteration):
          loss_info_value, _ = train_step_call()
        time_acc += time.time() - start_time
        global_step_val = global_step_call()

        if global_step_val % log_interval == 0:
          logging.info('step = %d, loss = %f', global_step_val,
                       loss_info_value.loss)
          steps_per_sec = (global_step_val - timed_at_step) / time_acc
          logging.info('%.3f steps/sec', steps_per_sec)
          sess.run(
              steps_per_second_summary,
              feed_dict={steps_per_second_ph: steps_per_sec})
          timed_at_step = global_step_val
          time_acc = 0

        if global_step_val % train_checkpoint_interval == 0:
          train_checkpointer.save(global_step=global_step_val)

        if global_step_val % policy_checkpoint_interval == 0:
          policy_checkpointer.save(global_step=global_step_val)

        if global_step_val % rb_checkpoint_interval == 0:
          rb_checkpointer.save(global_step=global_step_val)

        if global_step_val % eval_interval == 0:
          metric_utils.compute_summaries(
              eval_metrics,
              eval_py_env,
              eval_py_policy,
              num_episodes=num_eval_episodes,
              global_step=global_step_val,
              log=True,
              callback=eval_metrics_callback,
          )


def main(_):
  logging.set_verbosity(logging.INFO)
  tf.compat.v1.enable_resource_variables()
  train_eval(
      FLAGS.root_dir,
      num_iterations=FLAGS.num_iterations,
      eval_interval=FLAGS.eval_interval)


if __name__ == '__main__':
  flags.mark_flag_as_required('root_dir')
  app.run(main)