python source code of gym

fine-lm-master
- src
  - tensor2tensor
    - AUTHORS
    - tensor2tensor
      - serving
        export.py
        query.py
        __init__.py
        README.md
        serving_utils.py
      - utils
        video2gif.py
        avg_checkpoints.py
        expert_utils_test.py
        data_reader_test.py
        quantization.py
        trainer_lib_test.py
        modality.py
        cloud_tpu.py
        usr_dir.py
        get_rouge.py
        metrics_test.py
        learning_rate.py
        devices.py
        yellowfin_test.py
        metrics.py
        cloud_mlengine.py
        decoding.py
        adv_attack_utils.py
        rouge.py
        video_metrics.py
        diet_test.py
        flags.py
        adafactor.py
        get_ende_bleu.sh
        diet.py
        data_reader.py
        rouge_test.py
        registry.py
        restore_hook.py
        checkpoint_compatibility_test.py
        t2t_model.py
        yellowfin.py
        __init__.py
        multistep_optimizer_test.py
        registry_test.py
        bleu_hook_test.py
        optimize.py
        expert_utils.py
        compute_video_metrics.py
        metrics_hook_test.py
        beam_search.py
        beam_search_test.py
        trainer_lib.py
        get_cnndm_rouge.sh
        metrics_hook.py
        multistep_optimizer.py
        bleu_hook.py
      - layers
        discretization.py
        latent_layers.py
        discretization_test.py
        rev_block_test.py
        common_hparams.py
        modalities_test.py
        common_image_attention.py
        rev_block.py
        common_message_passing_attention.py
        common_layers.py
        common_attention.py
        common_attention_test.py
        common_image_attention_test.py
        __init__.py
        modalities.py
        common_layers_test.py
      - models
        revnet_test.py
        slicenet.py
        distillation.py
        transformer.py
        basic_test.py
        slicenet_test.py
        neural_gpu.py
        basic.py
        bytenet_test.py
        image_transformer_2d.py
        xception.py
        bytenet.py
        image_transformer_2d_test.py
        resnet.py
        lstm_test.py
        image_transformer.py
        lstm.py
        xception_test.py
        __init__.py
        README.md
        shake_shake.py
        transformer_test.py
        resnet_test.py
        research
        universal_transformer_util.py
        rl.py
        autoencoders.py
        transformer_moe.py
        cycle_gan.py
        autoencoders_test.py
        gene_expression.py
        multimodel.py
        attention_lm_moe.py
        transformer_vae_test.py
        gene_expression_test.py
        transformer_revnet.py
        adafactor_experiments.py
        transformer_nat.py
        transformer_revnet_test.py
        transformer_vae.py
        attention_lm.py
        universal_transformer_test.py
        next_frame.py
        lm_experiments.py
        transformer_symshard.py
        super_lm.py
        transformer_sketch.py
        multimodel_test.py
        __init__.py
        universal_transformer.py
        next_frame_test.py
        aligned.py
        neural_gpu_test.py
        revnet.py
        image_transformer_test.py
        vanilla_gan.py
      - rl
        model_rl_experiment_test.py
        rl_trainer_lib_test.py
        ppo.py
        model_rl_experiment_stochastic_test.py
        t2t_rl_trainer.py
        model_rl_experiment.py
        rl_trainer_lib.py
        __init__.py
        README.md
        collect.py
        envs
        py_func_batch_env.py
        batch_env_factory.py
        tf_atari_wrappers.py
        in_graph_batch_env.py
        batch_env.py
        __init__.py
        utils.py
        simulated_batch_env.py
      - test_data
        example_usr_dir
        my_submodule.py
        __init__.py
        requirements.txt
        vocab.ende.8192
        transformer_test_ckpt
        flags.txt
        model.ckpt-1.index
        hparams.json
        checkpoint
        model.ckpt-1.data-00000-of-00002
      - notebooks
        hello_t2t-rl.ipynb
        asr_transformer.ipynb
      - data_generators
        translate_test.py
        translate_enmk.py
        snli.py
        translate_enzh.py
        gym_utils.py
        twentybn.py
        mscoco_test.py
        speech_recognition.py
        audio_test.py
        gym_problems.py
        imdb.py
        gym_problems_specs.py
        timeseries_data_generator.py
        desc2code.py
        wsj_parsing.py
        tokenizer.py
        cipher.py
        gene_expression.py
        wikitext103.py
        mnist.py
        celeba.py
        librispeech.py
        translate_ende.py
        timeseries.py
        gene_expression_test.py
        ptb.py
        problem_hparams.py
        dna_encoder_test.py
        translate_enid.py
        text_encoder_test.py
        lm1b.py
        generator_utils.py
        dna_encoder.py
        cnn_dailymail.py
        wnli.py
        fsns.py
        mscoco.py
        celeba_test.py
        imagenet_test.py
        babi_qa.py
        desc2code_test.py
        text_encoder_build_subword.py
        algorithmic_test.py
        tokenizer_test.py
        video_generated.py
        program_search.py
        image_utils.py
        audio.py
        ice_parsing.py
        image_lsun.py
        algorithmic_math.py
        style_transfer.py
        test_data
        vocab-1.txt
        vocab-2.txt
        corpus-1.txt
        corpus-2.txt
        multi_problem.py
        algorithmic.py
        rte.py
        video_utils.py
        ocr.py
        problem.py
        subject_verb_agreement.py
        timeseries_data_generator_test.py
        bair_robot_pushing.py
        sst_binary.py
        image_utils_test.py
        gym_problems_test.py
        text_problems.py
        translate_enet.py
        generator_utils_test.py
        gh_function_docstring_encoder.py
        __init__.py
        text_problems_test.py
        common_voice.py
        README.md
        google_robot_pushing.py
        timeseries_test.py
        text_encoder.py
        program_search_test.py
        wikisum
        delete_instances.sh
        validate_data.py
        wikisum.py
        utils_test.py
        parallel_launch.py
        get_references_web_single_group.py
        test_data
        para_good1.txt
        para_bad1.txt
        get_references_commoncrawl.py
        get_references_web.py
        produce_examples.py
        __init__.py
        README.md
        utils.py
        generate_vocab.py
        translate_envi.py
        multinli.py
        all_problems.py
        algorithmic_math_test.py
        translate.py
        lm1b_imdb.py
        inspect_tfrecord.py
        cola.py
        imagenet.py
        cifar.py
        lambada.py
        wiki.py
        qnli.py
        translate_enfr.py
        quora_qpairs.py
        translate_encs.py
        squad.py
      - __init__.py
      - visualization
        visualization_test.py
        attention.py
        TransformerVisualization.ipynb
        attention.js
        __init__.py
        visualization.py
      - bin
        t2t-trainer
        t2t_trainer.py
        t2t_translate_all.py
        t2t-translate-all
        t2t_datagen.py
        t2t-decoder
        t2t-make-tf-configs
        t2t-avg-all
        make_tf_configs.py
        t2t_avg_all.py
        t2t_trainer_test.py
        t2t_distill.py
        t2t_attack.py
        t2t-exporter
        t2t-bleu
        __init__.py
        t2t-insights-server
        t2t_bleu.py
        t2t_decoder.py
        t2t-datagen
        t2t-query-server
      - problems_test.py
      - problems.py
      - insights
        query_processor.py
        graph.py
        insight_configuration.proto
        server.py
        polymer
        explore_view
        explore-view.js
        explore-view.html
        query_card
        query-card.js
        query-card.html
        insights_app
        insights-app.html
        insights-app.js
        language_selector
        language-selector-content.html
        language-selector-content.js
        language-selector.html
        language-selector.js
        attention_visualization
        attention-visualization.js
        attention-visualization.html
        processing_visualization
        processing-visualization.js
        processing-visualization.html
        bower.json
        translation_result
        translation-result.html
        translation-result.js
        common-types.js
        graph_visualization
        graph-visualization.html
        graph-visualization.js
        .bowerrc
        tensor2tensor.html
        index.html
        __init__.py
        README.md
        transformer_model.py
    - LICENSE
    - CONTRIBUTING.md
    - ISSUE_TEMPLATE.md
    - setup.py
    - .travis.yml
    - README.md
    - pylintrc
    - .gitignore
    - docs
      - new_model.md
      - walkthrough.md
      - cloud_mlengine.md
      - index.md
      - overview.md
      - tutorials
        asr_with_transformer.md
      - distributed_training.md
      - new_problem.md
      - cloud_tpu.md
  - README.md
  - scripts
    - opennmt-unmt
      - train.sh
      - train.py
      - inference.py
    - en-lm.sh
    - gcloud-ctpu-startup.sh
- LICENSE
- imgs
- presentations
  - intro
    - xaringan-themer.css
    - libs
      - dt-core
        js
        jquery.dataTables.min.js
        css
        jquery.dataTables.min.css
        jquery.dataTables.extra.css
      - jquery
        jquery.min.js
        LICENSE.txt
      - crosstalk
        js
        crosstalk.min.js.map
        crosstalk.js.map
        crosstalk.min.js
        crosstalk.js
        css
        crosstalk.css
      - datatables-css
        datatables-crosstalk.css
      - datatables-binding
        datatables.js
      - htmlwidgets
        htmlwidgets.js
    - imgs
      - stupendousman.jpeg
    - intro-slides_files
      - figure-html
        cars-1.svg
    - index.html
    - intro-slides.html
    - index.Rmd
  - lit
    - delayed-impact
      - xaringan-themer.css
      - imgs
      - icml.html
      - icml.Rmd
  - progress
    - xaringan-themer.css
    - libs
      - dt-core
        js
        jquery.dataTables.min.js
        css
        jquery.dataTables.min.css
        jquery.dataTables.extra.css
      - jquery
        jquery.min.js
        LICENSE.txt
      - crosstalk
        js
        crosstalk.min.js.map
        crosstalk.js.map
        crosstalk.min.js
        crosstalk.js
        css
        crosstalk.css
      - datatables-css
        datatables-crosstalk.css
      - datatables-binding
        datatables.js
      - htmlwidgets
        htmlwidgets.js
    - imgs
      - stupendousman.jpeg
    - index.html
    - index.Rmd
- README.md
- .gitignore
- docs
  - xaringan-themer.css
  - libs
    - dt-core
      - js
        jquery.dataTables.min.js
      - css
        jquery.dataTables.min.css
        jquery.dataTables.extra.css
    - jquery
      - jquery.min.js
      - LICENSE.txt
    - crosstalk
      - js
        crosstalk.min.js.map
        crosstalk.js.map
        crosstalk.min.js
        crosstalk.js
      - css
        crosstalk.css
    - datatables-css
      - datatables-crosstalk.css
    - datatables-binding
      - datatables.js
    - htmlwidgets
      - htmlwidgets.js
  - imgs
    - stupendousman.jpeg
  - index_files
    - figure-html
  - index.html
  - index.Rmd
- fine-lm.Rproj

# coding=utf-8
# Copyright 2018 The Tensor2Tensor Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""Utilities for openai gym."""

from collections import deque
import gym

import numpy as np


# pylint: disable=method-hidden
class WarmupWrapper(gym.Wrapper):
  """Warmup wrapper."""

  def __init__(self, env, warm_up_examples=0, warmup_action=0):
    gym.Wrapper.__init__(self, env)
    self.warm_up_examples = warm_up_examples
    self.warm_up_action = warmup_action
    self.observation_space = gym.spaces.Box(
        low=0, high=255, shape=(210, 160, 3), dtype=np.uint8)

  def get_starting_data(self, num_frames):
    self.reset()
    starting_observations, starting_actions, starting_rewards = [], [], []
    for _ in range(num_frames):
      observation, rew, _, _ = self.env.step(self.warm_up_action)
      starting_observations.append(observation)
      starting_rewards.append(rew)
      starting_actions.append(self.warm_up_action)

    return starting_observations, starting_actions, starting_rewards

  def step(self, action):
    return self.env.step(action)

  def reset(self, **kwargs):
    del kwargs
    self.env.reset()
    observation = None
    for _ in range(self.warm_up_examples):
      observation, _, _, _ = self.env.step(self.warm_up_action)

    return observation


class PongWrapper(WarmupWrapper):
  """Pong Wrapper."""

  def __init__(self, env, warm_up_examples=0,
               action_space_reduction=False,
               reward_skip_steps=0,
               big_ball=False):
    super(PongWrapper, self).__init__(env, warm_up_examples=warm_up_examples)
    self.action_space_reduction = action_space_reduction
    if self.action_space_reduction:
      self.action_space = gym.spaces.Discrete(2)
    self.warm_up_examples = warm_up_examples
    self.observation_space = gym.spaces.Box(
        low=0, high=255, shape=(210, 160, 3), dtype=np.uint8)
    self.reward_skip_steps = reward_skip_steps
    self.big_ball = big_ball

  def step(self, action):
    if self.action_space_reduction:
      action = 2 if int(action) == 0 else 5
    ob, rew, done, info = self.env.step(action)
    ob = self.process_observation(ob)
    if rew != 0 and self.reward_skip_steps != 0:
      for _ in range(self.reward_skip_steps):
        self.env.step(0)
    return ob, rew, done, info

  def reset(self, **kwargs):
    observation = super(PongWrapper, self).reset(**kwargs)
    observation = self.process_observation(observation)
    return observation

  def process_observation(self, obs):
    if self.big_ball:
      pos = PongWrapper.find_ball(obs)
      if pos is not None:
        x, y = pos
        obs[x-5:x+5, y-5:y+5, :] = 255

    return obs

  @staticmethod
  def find_ball(obs, default=None):
    ball_area = obs[37:193, :, 0]
    res = np.argwhere(ball_area == 236)
    if not res:
      return default
    else:
      x, y = res[0]
      x += 37
      return x, y


def wrapped_pong_factory(warm_up_examples=0, action_space_reduction=False,
                         reward_skip_steps=0, big_ball=False):
  """Wrapped pong games."""
  env = gym.make("PongDeterministic-v4")
  env = env.env  # Remove time_limit wrapper.
  env = PongWrapper(env, warm_up_examples=warm_up_examples,
                    action_space_reduction=action_space_reduction,
                    reward_skip_steps=reward_skip_steps,
                    big_ball=big_ball)
  return env


gym.envs.register(id="T2TPongWarmUp20RewSkip200Steps-v1",
                  entry_point=lambda: wrapped_pong_factory(  # pylint: disable=g-long-lambda
                      warm_up_examples=20, reward_skip_steps=15),
                  max_episode_steps=200)


gym.envs.register(id="T2TPongWarmUp20RewSkip2000Steps-v1",
                  entry_point=lambda: wrapped_pong_factory(  # pylint: disable=g-long-lambda
                      warm_up_examples=20, reward_skip_steps=15),
                  max_episode_steps=2000)


class BreakoutWrapper(WarmupWrapper):
  """Breakout Wrapper."""

  FIRE_ACTION = 1

  def __init__(self, env, warm_up_examples=0,
               ball_down_skip=0,
               big_ball=False,
               include_direction_info=False,
               reward_clipping=True):
    super(BreakoutWrapper, self).__init__(
        env, warm_up_examples=warm_up_examples,
        warmup_action=BreakoutWrapper.FIRE_ACTION)
    self.warm_up_examples = warm_up_examples
    self.observation_space = gym.spaces.Box(low=0, high=255,
                                            shape=(210, 160, 3),
                                            dtype=np.uint8)
    self.ball_down_skip = ball_down_skip
    self.big_ball = big_ball
    self.reward_clipping = reward_clipping
    self.include_direction_info = include_direction_info
    self.direction_info = deque([], maxlen=2)
    self.points_gained = False
    msg = ("ball_down_skip should be bigger equal 9 for "
           "include_direction_info to work correctly")
    assert not self.include_direction_info or ball_down_skip >= 9, msg

  def step(self, action):
    ob, rew, done, info = self.env.step(action)

    if BreakoutWrapper.find_ball(ob) is None and self.ball_down_skip != 0:
      for _ in range(self.ball_down_skip):
        # We assume that nothing interesting happens during ball_down_skip
        # and discard all information.
        # We fire all the time to start new game
        ob, _, _, _ = self.env.step(BreakoutWrapper.FIRE_ACTION)
        self.direction_info.append(BreakoutWrapper.find_ball(ob))

    ob = self.process_observation(ob)

    self.points_gained = self.points_gained or rew > 0

    if self.reward_clipping:
      rew = np.sign(rew)

    return ob, rew, done, info

  def reset(self, **kwargs):
    observation = super(BreakoutWrapper, self).reset(**kwargs)
    self.env.step(BreakoutWrapper.FIRE_ACTION)
    self.direction_info = deque([], maxlen=2)
    observation = self.process_observation(observation)
    return observation

  @staticmethod
  def find_ball(ob, default=None):
    off_x = 63
    clipped_ob = ob[off_x:-21, :, 0]
    pos = np.argwhere(clipped_ob == 200)

    if not pos.size:
      return default

    x = off_x + pos[0][0]
    y = 0 + pos[0][1]
    return x, y

  def process_observation(self, obs):
    if self.big_ball:
      pos = BreakoutWrapper.find_ball(obs)
      if pos is not None:
        x, y = pos
        obs[x-5:x+5, y-5:y+5, :] = 255

    if self.include_direction_info:
      for point in list(self.direction_info):
        if point is not None:
          x, y = point
          obs[x-2:x+2, y-2:y+2, 1] = 255

    return obs


def wrapped_breakout_factory(warm_up_examples=0,
                             ball_down_skip=0,
                             big_ball=False,
                             include_direction_info=False,
                             reward_clipping=True):
  """Wrapped breakout games."""
  env = gym.make("BreakoutDeterministic-v4")
  env = env.env  # Remove time_limit wrapper.
  env = BreakoutWrapper(env, warm_up_examples=warm_up_examples,
                        ball_down_skip=ball_down_skip,
                        big_ball=big_ball,
                        include_direction_info=include_direction_info,
                        reward_clipping=reward_clipping)
  return env


gym.envs.register(id="T2TBreakoutWarmUp20RewSkip500Steps-v1",
                  entry_point=lambda: wrapped_breakout_factory(  # pylint: disable=g-long-lambda
                      warm_up_examples=1,
                      ball_down_skip=9,
                      big_ball=False,
                      include_direction_info=True,
                      reward_clipping=True
                  ),
                  max_episode_steps=500)


class FreewayWrapper(WarmupWrapper):
  """Wrapper for Freeway."""

  def __init__(self, env,
               warm_up_examples=0,
               reward_clipping=True,
               easy_freeway=False):
    super(FreewayWrapper, self).__init__(env, warm_up_examples)
    self.easy_freeway = easy_freeway
    self.half_way_reward = 1.0

    # this is probably not needed, just in case
    self.reward_clipping = reward_clipping

  def chicken_height(self, image):
    raise NotImplementedError()

  def step(self, action):
    ob, rew, done, info = self.env.step(action)

    if self.easy_freeway:
      if rew > 0:
        self.half_way_reward = 1
      chicken_height = self.chicken_height(ob)
      if chicken_height < 105:
        rew += self.half_way_reward
        self.half_way_reward = 0

    if self.reward_clipping:
      rew = np.sign(rew)

    return ob, rew, done, info

  def reset(self, **kwargs):
    self.half_way_reward = 1.0
    observation = super(FreewayWrapper, self).reset(**kwargs)
    return observation


def wrapped_freeway_factory(warm_up_examples=0,
                            reward_clipping=True,
                            easy_freeway=False):
  """Wrapped freeway games."""
  env = gym.make("FreewayDeterministic-v4")
  env = env.env  # Remove time_limit wrapper.
  env = FreewayWrapper(env, warm_up_examples=warm_up_examples,
                       reward_clipping=reward_clipping,
                       easy_freeway=easy_freeway)

  return env

gym.envs.register(id="T2TFreewayWarmUp20RewSkip500Steps-v1",
                  entry_point=lambda: wrapped_freeway_factory(  # pylint: disable=g-long-lambda
                      warm_up_examples=1,
                      reward_clipping=True,
                      easy_freeway=False
                  ),
                  max_episode_steps=500)