python source code of run

cloudml-samples-master
- .github
  - ISSUE_TEMPLATE
    - sample-feature-request.md
    - bug_report.md
- cloudml-template
  - examples
    - classification
      - german
        config.yaml
        trainer
        featurizer.py
        task.py
        inputs.py
        model.py
        metadata.py
        experiment.py
        __init__.py
        setup.py
        data
        train-data-01.csv
        train-data-04.csv
        train-data-02.csv
        train-data-03.csv
        eval-data-01.csv
      - census
        config.yaml
        trainer
        featurizer.py
        task.py
        inputs.py
        model.py
        metadata.py
        experiment.py
        __init__.py
        setup.py
        data
        new-data.json
    - regression
      - housing
        config.yaml
        trainer
        featurizer.py
        task.py
        inputs.py
        model.py
        metadata.py
        experiment.py
        __init__.py
        setup.py
        data
        train-data-01.csv
        new-data.json
        train-data-02.csv
        eval-data-01.csv
      - babyweight
        config.yaml
        trained_models
        housing_regressor
        model.ckpt-0.data-00000-of-00002
        model.ckpt-1000.data-00001-of-00002
        model.ckpt-1000.index
        eval
        checkpoint
        export
        evaluate
        1554227548
        variables
        variables.data-00000-of-00002
        variables.data-00001-of-00002
        variables.index
        estimate
        1554227547
        variables
        variables.data-00000-of-00002
        variables.data-00001-of-00002
        variables.index
        model.ckpt-0.data-00001-of-00002
        model.ckpt-1000.data-00000-of-00002
        model.ckpt-0.index
        trainer
        featurizer.py
        task.py
        inputs.py
        model.py
        metadata.py
        experiment.py
        __init__.py
        setup.py
        data
  - template
    - config.yaml
    - trainer
      - featurizer.py
      - task.py
      - inputs.py
      - model.py
      - metadata.py
      - experiment.py
      - __init__.py
    - setup.py
    - inference.py
  - README.md
  - scripts
    - cloudml-deploy-model.sh
    - cloudml-submit-train-job.sh
    - config.yaml
    - local-train.sh
  - requirements.txt
  - .gitignore
- LICENSE
- census
  - tftransformestimator
    - preprocess.py
    - trainer
      - task.py
      - model.py
      - __init__.py
    - setup.py
    - requirements_dataflow.txt
    - input_metadata
      - __init__.py
      - input_metadata.py
    - README.md
    - requirements.txt
  - test.json
  - tf-keras
    - trainer
      - util.py
      - task.py
      - model.py
      - __init__.py
    - hptuning_config.yaml
    - README.md
    - scripts
      - train-local.sh
    - requirements.txt
  - hptuning_config.yaml
  - tensorflowcore
    - trainer
      - task.py
      - model.py
      - __init__.py
    - scripts
      - train-local.sh
    - requirements.txt
  - customestimator
    - trainer
      - task.py
      - model.py
      - __init__.py
    - scripts
      - train-local.sh
    - requirements.txt
  - README.md
  - requirements.txt
  - estimator
    - trainer
      - featurizer.py
      - task.py
      - model.py
      - input.py
      - __init__.py
    - constants
      - constants.py
      - __init__.py
    - setup.py
    - dataflow_setup.py
    - scripts
      - train-local.sh
    - preprocessing
      - preprocess.py
      - run_preprocessing.py
      - __init__.py
      - preprocessing_config.ini
    - requirements.txt
    - .gitignore
  - sample.sh
  - keras
    - preprocess.py
    - trainer
      - task.py
      - model.py
      - __init__.py
    - setup.py
    - README.md
    - scripts
      - train-local.sh
    - requirements.txt
  - test.csv
- CONTRIBUTING.md
- pytorch
  - containers
    - hp_tuning
      - task.py
      - model.py
      - hptuning_config.yaml
      - README.md
      - Dockerfile
      - data_utils.py
    - custom_container
      - task.py
      - model.py
      - README.md
      - Dockerfile
      - data_utils.py
    - published_container
      - sonar_training
        trainer
        task.py
        model.py
        __init__.py
        data_utils.py
        setup.py
      - README.md
    - quickstart
      - README.md
      - mnist
        trainer
        mnist.py
        Dockerfile-gpu
        Dockerfile
  - notebooks
    - Serving PyTorch Models with CMLE Custom Prediction Code.ipynb
  - README.md
- xgboost
  - iris_training.py
  - notebooks
    - census_training
      - train.py
      - __init__.py
  - README.md
- ISSUE_TEMPLATE.md
- notebooks
  - pytorch
    - TrainingAndPredictionWithPyTorch.ipynb
    - TextClassificationUsingPyTorchAndCMLE.ipynb
  - xgboost
    - HyperparameterTuningWithXGBoostInCMLE.ipynb
    - TrainingWithXGBoostInCMLE.ipynb
    - TrainingAndPredictionWithXGBoost.ipynb
    - OnlinePredictionWithXGBoostInCMLE.ipynb
  - README.md
  - tpu
    - templates
      - tpu_gan_estimator
        trainer.ipynb
        trainer_single.ipynb
      - tpu_grl_estimator
        trainer.ipynb
      - tpu_lstm_estimator
        trainer.ipynb
      - tpu_cnn_estimator
        trainer.ipynb
      - tpu_estimator
        trainer.ipynb
      - tpu_rewrite
        trainer_infeed_outfeed.ipynb
        trainer.ipynb
      - tpu_film_estimator
        trainer.ipynb
      - tpu_triplet_loss_estimator
        trainer.ipynb
      - tpu_lstm_keras
        trainer.ipynb
  - keras
    - cascade.ipynb
    - TextClassificationUsingKerasAndCMLE.ipynb
    - README.md
  - tensorflow
    - custom-prediction-routine-keras.ipynb
    - census
      - tensorflowcore
        trainer
        task.ipynb
      - customestimator
        trainer
        task.ipynb
      - estimator
        trainer
        task.ipynb
      - keras
        trainer
        task.ipynb
  - scikit-learn
    - TrainingAndPredictionWithScikitLearn.ipynb
    - HyperparameterTuningWithScikitLearnInCMLE.ipynb
    - TrainingWithScikitLearnInCMLE.ipynb
    - custom-prediction-routine-scikit-learn.ipynb
    - OnlinePredictionWithScikitLearnInCMLE.ipynb
    - custom-pipeline.ipynb
    - hptuning_config.yaml
    - 20_newsgroups_automl.ipynb
- molecules
  - preprocess.py
  - pubchem
    - pipeline.py
    - sdf.py
    - __init__.py
  - run-cloud
  - trainer
    - task.py
    - __init__.py
  - data-extractor.py
  - subscriber.py
  - predict.py
  - publisher.py
  - setup.py
  - run-local
  - README.md
  - sample-requests.json
  - requirements.txt
- sklearn
  - sklearn-template
    - examples
      - README.md
    - template
      - trainer
        task.py
        model.py
        metadata.py
        __init__.py
        utils.py
      - config
        config.yaml
        hptuning_config.yaml
      - sample_data
        sample.txt
      - .pylintrc
      - setup.py
      - README.md
      - scripts
        train.sh
        predict.py
        predict.sh
        deploy.sh
      - requirements.txt
      - .gitignore
    - README.md
  - iris_training.py
  - notebooks
    - census_training
      - train.py
      - __init__.py
  - README.md
- README.md
- tpu
  - utils
    - tpu_utils.py
    - survival
      - tpu_utils.py
      - tpu_survival_job.py
      - tpu_survival.py
      - README.md
      - requirements.txt
      - submit_preemptible.sh
    - README.md
    - input_fn_tuning
      - tpu_utils.py
      - input_fn_tuning_job.py
      - README.md
      - requirements.txt
      - input_fn_tuning_trace_base.sh
      - trainer.py
      - input_fn_tuning_submit_base.sh
  - hptuning
    - resnet-hptuning
      - submit_resnet_hptuning.sh
      - config_resnet.yaml
      - resnet
        imagenet_input.py
        resnet_preprocessing.py
        resnet_model.py
        __init__.py
        resnet_main.py
      - README.md
    - resnet-hypertune
      - config_resnet_hypertune.yaml
      - resnet
        resnet_main_hypertune.py
        hypertune_hook.py
        imagenet_input.py
        resnet_preprocessing.py
        resnet_model.py
        __init__.py
      - setup.py
      - submit_resnet_hypertune.sh
      - README.md
  - training
    - resnet
      - resnet
        imagenet_input.py
        resnet_preprocessing.py
        resnet_model.py
        __init__.py
        resnet_main.py
      - submit_resnet.sh
      - README.md
  - templates
    - tpu_gan_estimator
      - trainer_single_readme.md
      - trainer_single.py
      - trainer.ipynb
      - __init__.py
      - trainer_single.ipynb
      - trainer_readme.md
      - trainer.py
    - tpu_grl_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - config.yaml
    - tpu_lstm_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - tpu_cnn_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - tpu_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - setup.py
    - tpu_rewrite
      - trainer_infeed_outfeed.ipynb
      - trainer.ipynb
      - trainer_infeed_outfeed.py
      - __init__.py
      - trainer_readme.md
      - trainer.py
      - trainer_infeed_outfeed_readme.md
    - README.md
    - tools
      - sub_readme_gen.py
      - readme_gen.py
      - SUB_README_BASE.md
      - requirements.txt
      - README_BASE.md
      - parser_add.py
      - samples.yaml
    - tpu_film_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - tpu_triplet_loss_estimator
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
    - tpu_lstm_keras
      - trainer.ipynb
      - __init__.py
      - trainer_readme.md
      - trainer.py
  - README.md
- .kokoro
  - python3.7
    - continuous.cfg
    - periodic.cfg
    - presubmit.cfg
    - common.cfg
  - python3.5
    - continuous.cfg
    - periodic.cfg
    - presubmit.cfg
    - common.cfg
  - trampoline.sh
  - tests
    - run_tests.sh
    - run_tests_only_diff.sh
- tools
  - setup_docker.sh
  - frozen_sample.ipynb
  - sample.py
  - templates
    - notebooks_tpu_create.p
    - notebooks_tpu_args.p
    - notebooks_pre.p
    - notebooks_tpu_post.p
    - colab_pre.p
    - colab_tpu.p
  - sample.ipynb
  - setup_cloud_shell.sh
  - README.md
  - requirements.txt
  - check_environment.py
  - samples.yaml
  - to_ipynb.py
- CODEOWNERS
- TESTING.md
- tensorflow
  - containers
    - unsupported_runtime
      - task.py
      - model.py
      - README.md
      - Dockerfile
      - data_utils.py
  - standard
    - reinforcement_learning
      - rl_on_gcp_demo
        trainer
        c2a2_agent.py
        task.py
        common
        util.py
        replay_buffer.py
        actor_critic.py
        __init__.py
        td3_agent.py
        __init__.py
        agent.py
        ddpg_agent.py
        setup.py
        hptuning_config.yaml
        __init__.py
        README.md
        start.sh
        requirements.txt
    - boston
      - trainer
        task.py
        model.py
        __init__.py
        utils.py
      - setup.py
      - README.md
      - requirements.txt
      - sample.sh
    - iris
      - trainer
        task.py
        model.py
        __init__.py
      - setup.py
      - hptuning_config.yaml
      - __init__.py
      - README.md
      - requirements.txt
      - sample.sh
      - test.csv
    - __init__.py
    - mnist
      - deprecated
        hptuning
        trainer
        util.py
        task.py
        model.py
        __init__.py
        setup.py
        __init__.py
        distributed
        trainer
        util.py
        task.py
        model.py
        __init__.py
        setup.py
        local_predict.py
        data
        eval_sample.tensor.json
        eval_sample.tfrecord
        __init__.py
        trainer
        model.py
        distribution_utils.py
        __init__.py
        dataset.py
        hooks_helper.py
        model_helpers.py
        deployable
        trainer
        input_data.py
        task.py
        __init__.py
        setup.py
        data
        eval_sample.tensor.json
        predict_sample.tensor.json
        README.md
        requirements.txt
        trainable
        trainer
        task.py
        __init__.py
        setup.py
        __init__.py
      - trainer
        task.py
        model.py
        __init__.py
        utils.py
      - setup.py
      - README.md
      - requirements.txt
      - sample.sh
    - legacy
      - movielens
        preprocess.py
        config.yaml
        trainer
        task.py
        __init__.py
        setup.py
        preproc
        __init__.py
        movielens.py
        __init__.py
        README.md
        requirements.txt
        config_hypertune.yaml
      - flowers
        pipeline.py
        trainer
        preprocess.py
        util.py
        task.py
        model.py
        __init__.py
        setup.py
        __init__.py
        README.md
        requirements.txt
        images_to_json.py
        sample.sh
      - reddit_tft
        preprocess.py
        reddit.py
        config-small.yaml
        path_constants.py
        trainer
        task.py
        __init__.py
        setup.py
        __init__.py
        README.md
        requirements.txt
      - __init__.py
      - README.md
      - criteo_tft
        preprocess.py
        config-small.yaml
        path_constants.py
        trainer
        task.py
        __init__.py
        criteo.py
        setup.py
        config-single.yaml
        __init__.py
        README.md
        requirements.txt
        config-large.yaml
    - imdb
      - trainer
        task.py
        model.py
        __init__.py
        utils.py
      - setup.py
      - __init__.py
      - README.md
      - requirements.txt
      - sample.sh
  - __init__.py
  - README.md
- chainer
  - containers
    - quickstart
      - README.md
      - mnist
        trainer
        mnist.py
        Dockerfile
  - README.md
- .gitignore

# Copyright 2018 Google Inc. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""Runs the preprocessing job to produce records for training."""

import argparse
import ConfigParser
import logging
import os
import sys

import apache_beam as beam

from preprocessing import preprocess


def _parse_arguments(argv):
    """Parses command line arguments."""
    parser = argparse.ArgumentParser(
        description='Runs preprocessing on census train data.')
    parser.add_argument(
        '--project_id',
        required=True,
        help='Name of the project.')
    parser.add_argument(
        '--job_name',
        required=False,
        help='Name of the dataflow job.')
    parser.add_argument(
        '--job_dir',
        required=True,
        help='Directory to write outputs.')
    parser.add_argument(
        '--cloud',
        default=False,
        action='store_true',
        help='Run preprocessing on the cloud.')
    parser.add_argument(
        '--input_data',
        required=True,
        help='Path to input data.')
    args, _ = parser.parse_known_args(args=argv[1:])
    return args


def _parse_config(env, config_file_path):
    """Parses configuration file.

    Args:
      env: The environment in which the preprocessing job will be run.
      config_file_path: Path to the configuration file to be parsed.

    Returns:
      A dictionary containing the parsed runtime config.
    """
    config = ConfigParser.ConfigParser()
    config.read(config_file_path)
    return dict(config.items(env))


def _set_logging(log_level):
    logging.getLogger().setLevel(getattr(logging, log_level.upper()))


def main():
    """Configures pipeline and spawns preprocessing job."""

    args = _parse_arguments(sys.argv)
    config_path = os.path.abspath(
        os.path.join(__file__, os.pardir, 'preprocessing_config.ini'))
    config = _parse_config('CLOUD' if args.cloud else 'LOCAL',
                           config_path)
    ml_project = args.project_id
    options = {'project': ml_project}

    if args.cloud:
        if not args.job_name:
            raise ValueError('Job name must be specified for cloud runs.')
        options.update({
            'job_name': args.job_name,
            'num_workers': int(config.get('num_workers')),
            'max_num_workers': int(config.get('max_num_workers')),
            'staging_location': os.path.join(args.job_dir, 'staging'),
            'temp_location': os.path.join(args.job_dir, 'tmp'),
            'region': config.get('region'),
            'setup_file': os.path.abspath(
                os.path.join(__file__, '../..', 'dataflow_setup.py')),
        })
    pipeline_options = beam.pipeline.PipelineOptions(flags=[], **options)
    _set_logging(config.get('log_level'))

    with beam.Pipeline(config.get('runner'), options=pipeline_options) as p:
        preprocess.run(p, args.input_data, args.job_dir)


if __name__ == '__main__':
    main()