python source code of mnist_env

Project: HardRLWithYoutube (GitHub Link)

HardRLWithYoutube-master
- embedding_visualization.py
- LICENSE
- VAEFeaturizer.py
- BaseFeaturizer.py
- montezuma.txt
- baselines
  - LICENSE
  - setup.py
  - data
  - benchmarks_mujoco1M.htm
  - baselines
    - gail
      - statistics.py
      - result
        gail-result.md
      - run_mujoco.py
      - adversary.py
      - dataset
        mujoco_dset.py
        __init__.py
      - mlp_policy.py
      - __init__.py
      - README.md
      - trpo_mpi.py
      - behavior_clone.py
      - gail-eval.py
    - her
      - util.py
      - ddpg.py
      - rollout.py
      - replay_buffer.py
      - actor_critic.py
      - normalizer.py
      - __init__.py
      - README.md
      - experiment
        config.py
        play.py
        plot.py
        train.py
        __init__.py
      - her.py
    - deepq
      - replay_buffer.py
      - build_graph.py
      - models.py
      - experiments
        run_atari.py
        train_cartpole.py
        enjoy_mountaincar.py
        enjoy_cartpole.py
        enjoy_pong.py
        run_retro.py
        train_mountaincar.py
        custom_cartpole.py
        __init__.py
        enjoy_retro.py
      - __init__.py
      - README.md
      - utils.py
      - deepq.py
      - defaults.py
    - ddpg
      - ddpg.py
      - training.py
      - models.py
      - noise.py
      - memory.py
      - __init__.py
      - main.py
      - README.md
    - acer
      - acer.py
      - buffer.py
      - policies.py
      - __init__.py
      - README.md
      - runner.py
      - defaults.py
    - run.py
    - a2c
      - __init__.py
      - README.md
      - utils.py
      - runner.py
      - a2c.py
    - ppo2
      - ppo2.py
      - __init__.py
      - README.md
      - defaults.py
    - ppo1
      - pposgd_simple.py
      - run_atari.py
      - run_mujoco.py
      - run_robotics.py
      - run_humanoid.py
      - cnn_policy.py
      - mlp_policy.py
      - __init__.py
      - README.md
    - common
      - tile_images.py
      - mpi_util.py
      - console_util.py
      - mpi_adam.py
      - mpi_moments.py
      - runners.py
      - misc_util.py
      - retro_wrappers.py
      - mpi_fork.py
      - distributions.py
      - schedules.py
      - math_util.py
      - vec_env
        util.py
        subproc_vec_env.py
        dummy_vec_env.py
        vec_normalize.py
        shmem_vec_env.py
        test_vec_env.py
        vec_frame_stack.py
        __init__.py
        vec_monitor.py
      - cmd_util.py
      - atari_wrappers.py
      - identity_env.py
      - running_stat.py
      - models.py
      - cg.py
      - policies.py
      - filters.py
      - input.py
      - __init__.py
      - tests
        test_mnist.py
        util.py
        test_doc_examples.py
        test_serialization.py
        test_tf_util.py
        test_schedules.py
        test_segment_tree.py
        test_fixed_sequence.py
        __init__.py
        test_cartpole.py
        test_identity.py
        envs
        identity_env.py
        mnist_env.py
        __init__.py
        fixed_sequence_env.py
      - mpi_running_mean_std.py
      - dataset.py
      - tf_util.py
      - mpi_adam_optimizer.py
      - running_mean_std.py
      - segment_tree.py
    - logger.py
    - __init__.py
    - results_plotter.py
    - trpo_mpi
      - __init__.py
      - README.md
      - trpo_mpi.py
      - defaults.py
    - acktr
      - acktr_cont.py
      - run_mujoco.py
      - acktr.py
      - value_functions.py
      - policies.py
      - acktr_disc.py
      - __init__.py
      - kfac_utils.py
      - README.md
      - utils.py
      - kfac.py
    - bench
      - monitor.py
      - __init__.py
      - benchmarks.py
  - .travis.yml
  - README.md
  - Dockerfile
  - .gitignore
  - .benchmark_pattern
- __init__.py
- README.md
- TDCFeaturizer.py
- download_videos.py
- train_featurizer.py
- .gitignore
- immitation_env
  - atari
    - __init__.py
    - montezuma_immitation_env.py
  - immitation_wrapper.py
  - __init__.py
- residual_block.py
- ForwardModelFeaturizer.py

import os.path as osp
import numpy as np
import tempfile
import filelock
from gym import Env
from gym.spaces import Discrete, Box



class MnistEnv(Env):
    def __init__(
            self,
            seed=0,
            episode_len=None,
            no_images=None
    ):
        from tensorflow.examples.tutorials.mnist import input_data
        # we could use temporary directory for this with a context manager and 
        # TemporaryDirecotry, but then each test that uses mnist would re-download the data
        # this way the data is not cleaned up, but we only download it once per machine
        mnist_path = osp.join(tempfile.gettempdir(), 'MNIST_data')
        with filelock.FileLock(mnist_path + '.lock'):
           self.mnist = input_data.read_data_sets(mnist_path)

        self.np_random = np.random.RandomState()
        self.np_random.seed(seed)

        self.observation_space = Box(low=0.0, high=1.0, shape=(28,28,1))
        self.action_space = Discrete(10)
        self.episode_len = episode_len
        self.time = 0
        self.no_images = no_images

        self.train_mode()
        self.reset()
        
    def reset(self):
        self._choose_next_state()
        self.time = 0

        return self.state[0]

    def step(self, actions):
        rew = self._get_reward(actions)
        self._choose_next_state()
        done = False
        if self.episode_len and self.time >= self.episode_len:
            rew = 0
            done = True

        return self.state[0], rew, done, {}

    def train_mode(self):
        self.dataset = self.mnist.train

    def test_mode(self):
        self.dataset = self.mnist.test

    def _choose_next_state(self):
        max_index = (self.no_images if self.no_images is not None else self.dataset.num_examples) - 1
        index = self.np_random.randint(0, max_index)
        image = self.dataset.images[index].reshape(28,28,1)*255
        label = self.dataset.labels[index]
        self.state = (image, label)
        self.time += 1

    def _get_reward(self, actions):
        return 1 if self.state[1] == actions else 0