python source code of models

Project: DRL_DeliveryDuel (GitHub Link)

DRL_DeliveryDuel-master
- img
- deliveryduel
  - builds
    - win_x86
      - DRL_DeliveryDuel_Data
        Managed
        UnityEngine.UNETModule.xml
        UnityEngine.GameCenterModule.xml
        UnityEngine.WindModule.xml
        UnityEngine.AccessibilityModule.xml
        UnityEngine.ParticleSystemModule.xml
        UnityEngine.ClusterRendererModule.xml
        UnityEngine.TerrainModule.xml
        UnityEngine.TerrainPhysicsModule.xml
        UnityEngine.SharedInternalsModule.xml
        UnityEngine.PhysicsModule.xml
        UnityEngine.VideoModule.xml
        UnityEngine.ClothModule.xml
        UnityEngine.VehiclesModule.xml
        UnityEngine.AIModule.xml
        UnityEngine.WebModule.xml
        UnityEngine.TextRenderingModule.xml
        UnityEngine.CrashReportingModule.xml
        UnityEngine.ARModule.xml
        UnityEngine.ScreenCaptureModule.xml
        UnityEngine.UnityWebRequestTextureModule.xml
        UnityEngine.ParticlesLegacyModule.xml
        UnityEngine.VRModule.xml
        UnityEngine.SpriteMaskModule.xml
        UnityEngine.PerformanceReportingModule.xml
        UnityEngine.AssetBundleModule.xml
        UnityEngine.UnityWebRequestWWWModule.xml
        UnityEngine.SpriteShapeModule.xml
        UnityEngine.JSONSerializeModule.xml
        UnityEngine.UnityConnectModule.xml
        UnityEngine.UnityAnalyticsModule.xml
        UnityEngine.ClusterInputModule.xml
        UnityEngine.ImageConversionModule.xml
        UnityEngine.AnimationModule.xml
        UnityEngine.AudioModule.xml
        UnityEngine.InputModule.xml
        UnityEngine.TilemapModule.xml
        UnityEngine.UnityWebRequestAudioModule.xml
        UnityEngine.Physics2DModule.xml
        UnityEngine.DirectorModule.xml
        UnityEngine.UIElementsModule.xml
        UnityEngine.UIModule.xml
        UnityEngine.StyleSheetsModule.xml
        UnityEngine.UnityWebRequestModule.xml
        UnityEngine.GridModule.xml
        boot.config
        globalgamemanagers.assets
        sharedassets0.resource
        level0.resS
        Resources
        MonoBleedingEdge
        EmbedRuntime
        etc
        mono
        2.0
        DefaultWsdlHelpGenerator.aspx
        machine.config
        Browsers
        Compat.browser
        web.config
        settings.map
        4.5
        DefaultWsdlHelpGenerator.aspx
        machine.config
        Browsers
        Compat.browser
        web.config
        settings.map
        config
        4.0
        DefaultWsdlHelpGenerator.aspx
        machine.config
        Browsers
        Compat.browser
        web.config
        settings.map
        mconfig
        config.xml
        globalgamemanagers
        app.info
- results
  - a2c_3d_cont_linear.csv
  - a2c_3d_cont_phys.csv
  - dqn_2d_non-cont_phys.csv
  - dqn_3d_cont_phys.csv
  - dqn_2d_cont_phys.csv
  - dqn_3d_non-cont_linear.csv
  - a2c_3d_non-cont_linear.csv
  - dqn_3d_cont_linear.csv
  - dqn_2d_cont_linear.csv
  - a2c_3d_non-cont_phys.csv
  - dqn_2d_non-cont_linear.csv
  - a2c_2d_non-cont_phys.csv
  - a2c_2d_cont_phys.csv
  - a2c_2d_non-cont_linear.csv
  - dqn_3d_non-cont_phys.csv
  - a2c_2d_cont_linear.csv
- LICENSE
- frameworks
  - gym
    - gym
      - utils
        reraise.py
        ezpickle.py
        seeding.py
        play.py
        atomic_write.py
        __init__.py
        tests
        test_atexit.py
        test_seeding.py
        colorize.py
        closer.py
        reraise_impl_py3.py
        json_utils.py
        reraise_impl_py2.py
      - version.py
      - logger.py
      - __init__.py
      - tests
        test_core.py
      - core.py
      - spaces
        tuple_space.py
        box.py
        multi_binary.py
        dict_space.py
        multi_discrete.py
        prng.py
        __init__.py
        discrete.py
        tests
        test_spaces.py
        __init__.py
      - error.py
      - wrappers
        time_limit.py
        monitoring
        video_recorder.py
        __init__.py
        tests
        test_video_recorder.py
        __init__.py
        helpers.py
        stats_recorder.py
        monitor.py
        __init__.py
        README.md
        tests
        test_wrappers.py
        __init__.py
        dict.py
      - envs
        classic_control
        continuous_mountain_car.py
        pendulum.py
        mountain_car.py
        rendering.py
        __init__.py
        acrobot.py
        cartpole.py
        assets
        mujoco
        humanoid.py
        reacher.py
        striker.py
        swimmer.py
        walker2d.py
        humanoidstandup.py
        mujoco_env.py
        pusher.py
        __init__.py
        hopper.py
        inverted_double_pendulum.py
        thrower.py
        ant.py
        inverted_pendulum.py
        half_cheetah.py
        assets
        inverted_pendulum.xml
        inverted_double_pendulum.xml
        thrower.xml
        striker.xml
        half_cheetah.xml
        reacher.xml
        ant.xml
        hopper.xml
        humanoidstandup.xml
        swimmer.xml
        pusher.xml
        humanoid.xml
        point.xml
        walker2d.xml
        box2d
        car_dynamics.py
        lunar_lander.py
        bipedal_walker.py
        car_racing.py
        __init__.py
        registration.py
        atari
        atari_env.py
        __init__.py
        robotics
        fetch
        push.py
        reach.py
        slide.py
        __init__.py
        pick_and_place.py
        rotations.py
        hand_env.py
        hand
        reach.py
        manipulate.py
        __init__.py
        fetch_env.py
        __init__.py
        README.md
        utils.py
        robot_env.py
        assets
        fetch
        push.xml
        robot.xml
        shared.xml
        reach.xml
        slide.xml
        pick_and_place.xml
        textures
        hand
        manipulate_pen.xml
        manipulate_egg.xml
        robot.xml
        manipulate_block.xml
        shared.xml
        reach.xml
        shared_asset.xml
        LICENSE.md
        stls
        fetch
        shoulder_pan_link_collision.stl
        bellows_link_collision.stl
        wrist_roll_link_collision.stl
        l_wheel_link_collision.stl
        wrist_flex_link_collision.stl
        torso_fixed_link.stl
        upperarm_roll_link_collision.stl
        elbow_flex_link_collision.stl
        forearm_roll_link_collision.stl
        gripper_link.stl
        r_wheel_link_collision.stl
        shoulder_lift_link_collision.stl
        head_tilt_link_collision.stl
        head_pan_link_collision.stl
        torso_lift_link_collision.stl
        .get
        hand
        knuckle.stl
        F3.stl
        TH3_z.stl
        TH1_z.stl
        forearm_electric_cvx.stl
        F1.stl
        wrist.stl
        F2.stl
        lfmetacarpal.stl
        TH2_z.stl
        toy_text
        cliffwalking.py
        guessing_game.py
        blackjack.py
        taxi.py
        hotter_colder.py
        __init__.py
        discrete.py
        frozen_lake.py
        roulette.py
        kellycoinflip.py
        nchain.py
        __init__.py
        README.md
        tests
        test_determinism.py
        test_envs.py
        test_envs_semantics.py
        __init__.py
        spec_list.py
        test_registration.py
        unittest
        __init__.py
        memorize_digits.py
        cube_crash.py
        algorithmic
        repeat_copy.py
        algorithmic_env.py
        reversed_addition.py
        reverse.py
        duplicated_input.py
        __init__.py
        tests
        test_algorithmic.py
        __init__.py
        copy_.py
    - Makefile
    - examples
      - agents
        cem.py
        random_agent.py
        _policies.py
        keyboard_agent.py
      - scripts
        sim_env
        benchmark_runner
        list_envs
    - test.dockerfile
    - CODE_OF_CONDUCT.rst
    - vendor
      - Xdummy
    - README.rst
    - setup.py
    - LICENSE.md
    - .travis.yml
    - scripts
      - generate_json.py
    - bin
      - render.py
      - docker_entrypoint
    - requirements.txt
    - Dockerfile
    - unittest.cfg
    - .gitignore
    - docs
      - agents.md
      - readme.md
      - environments.md
      - misc.md
    - .dockerignore
    - tox.ini
    - requirements_dev.txt
  - baselines
    - LICENSE
    - setup.py
    - data
    - baselines
      - gail
        statistics.py
        result
        gail-result.md
        run_mujoco.py
        adversary.py
        dataset
        mujoco_dset.py
        __init__.py
        mlp_policy.py
        __init__.py
        README.md
        trpo_mpi.py
        behavior_clone.py
        gail-eval.py
      - her
        util.py
        ddpg.py
        rollout.py
        replay_buffer.py
        actor_critic.py
        normalizer.py
        __init__.py
        README.md
        experiment
        config.py
        play.py
        plot.py
        train.py
        __init__.py
        her.py
      - deepq
        simple.py
        replay_buffer.py
        build_graph.py
        models.py
        experiments
        run_atari.py
        train_cartpole.py
        enjoy_mountaincar.py
        enjoy_cartpole.py
        enjoy_pong.py
        train_mountaincar.py
        custom_cartpole.py
        __init__.py
        __init__.py
        README.md
        utils.py
      - ddpg
        ddpg.py
        training.py
        models.py
        noise.py
        memory.py
        __init__.py
        main.py
        README.md
      - acer
        run_atari.py
        buffer.py
        policies.py
        acer_simple.py
        __init__.py
        README.md
      - a2c
        run_atari.py
        policies.py
        __init__.py
        README.md
        utils.py
        a2c.py
      - ppo2
        run_atari.py
        ppo2.py
        run_mujoco.py
        policies.py
        __init__.py
        README.md
      - ppo1
        pposgd_simple.py
        run_atari.py
        run_mujoco.py
        cnn_policy.py
        mlp_policy.py
        __init__.py
        README.md
      - common
        console_util.py
        mpi_adam.py
        mpi_moments.py
        misc_util.py
        mpi_fork.py
        distributions.py
        schedules.py
        math_util.py
        vec_env
        subproc_vec_env.py
        dummy_vec_env.py
        vec_normalize.py
        vec_frame_stack.py
        __init__.py
        cmd_util.py
        atari_wrappers.py
        cg.py
        __init__.py
        tests
        test_tf_util.py
        test_schedules.py
        test_segment_tree.py
        mpi_running_mean_std.py
        dataset.py
        tf_util.py
        running_mean_std.py
        segment_tree.py
      - logger.py
      - __init__.py
      - results_plotter.py
      - trpo_mpi
        run_atari.py
        run_mujoco.py
        nosharing_cnn_policy.py
        __init__.py
        README.md
        trpo_mpi.py
      - acktr
        run_atari.py
        acktr_cont.py
        run_mujoco.py
        running_stat.py
        value_functions.py
        policies.py
        filters.py
        acktr_disc.py
        __init__.py
        kfac_utils.py
        README.md
        utils.py
        kfac.py
      - bench
        monitor.py
        __init__.py
        benchmarks.py
    - README.md
    - .gitignore
  - ml-agents
    - LICENSE
    - unity-volume
      - .gitignore
    - CONTRIBUTING.md
    - .gitattributes
    - unity-environment
      - Assets
        ML-Agents
        Examples
        Crawler.meta
        3DBall
        TFModels.meta
        3DBall.unity
        Scripts
        Ball3DAgent.cs.meta
        Ball3DDecision.cs.meta
        Ball3DAgent.cs
        Ball3DHardAgent.cs
        Ball3DHardAgent.cs.meta
        Ball3DAcademy.cs.meta
        Ball3DDecision.cs
        Ball3DAcademy.cs
        Materials.meta
        Prefabs
        Game.prefab
        GameHard.prefab.meta
        GameHard.prefab
        Game.prefab.meta
        3DBallHard.unity.meta
        Scripts.meta
        Prefabs.meta
        TFModels
        3DBall.bytes.meta
        3DBallHard.bytes.meta
        3DBall.bytes
        3DBallHard.unity
        Materials
        logo.png.meta
        Materials.meta
        Text.mat
        Text.mat.meta
        Materials
        logo2.mat.meta
        logo1.mat.meta
        logo1.mat
        logo2.mat
        3DBall.unity.meta
        Reacher
        TFModels.meta
        Scripts
        ReacherAcademy.cs
        ReacherDecision.cs
        ReacherGoal.cs
        ReacherAgent.cs.meta
        ReacherGoal.cs.meta
        ReacherAcademy.cs.meta
        ReacherDecision.cs.meta
        ReacherAgent.cs
        Scene.unity
        Materials.meta
        Scene.unity.meta
        Prefabs
        Agent.prefab.meta
        Agent.prefab
        Scripts.meta
        Prefabs.meta
        TFModels
        Reacher.bytes.meta
        Materials
        Goal_on.mat.meta
        Materials.meta
        Goal_on.mat
        Goal.mat
        Goal.mat.meta
        Materials
        checker1.mat
        checker1.mat.meta
        checker.mat.meta
        checker.mat
        PushBlock
        TFModels.meta
        Scripts
        GoalDetect.cs.meta
        PushAgentBasic.cs.meta
        PushBlockAcademy.cs.meta
        GoalDetect.cs
        PushAgentBasic.cs
        PushBlockAcademy.cs
        Scenes
        PushBlock.unity
        PushBlock.unity.meta
        Prefabs
        PushBlockArea.prefab.meta
        PushBlockArea.prefab
        Scripts.meta
        Prefabs.meta
        TFModels
        PushBlock.bytes.meta
        Scenes.meta
        WallJump
        TFModels.meta
        Scripts
        WallJumpAcademy.cs
        WallJumpAgent.cs
        WallJumpAcademy.cs.meta
        WallJumpAgent.cs.meta
        Scenes
        WallJump.unity.meta
        WallJump.unity
        Prefabs
        WallJumpArea.prefab.meta
        WallJumpArea.prefab
        Scripts.meta
        Prefabs.meta
        TFModels
        WallJump.bytes.meta
        Scenes.meta
        Material.meta
        Material
        spawnVolumeMaterial.mat.meta
        spawnVolumeMaterial.mat
        wallMaterial.mat.meta
        wallMaterial.mat
        Template
        Scripts
        TemplateDecision.cs.meta
        TemplateAgent.cs
        TemplateAcademy.cs.meta
        TemplateAgent.cs.meta
        TemplateDecision.cs
        TemplateAcademy.cs
        Scene.unity
        Scene.unity.meta
        Scripts.meta
        PushBlock.meta
        Tennis
        TFModels.meta
        Scripts
        TennisAcademy.cs.meta
        hitWall.cs
        hitWall.cs.meta
        TennisAgent.cs
        TennisAgent.cs.meta
        TennisArea.cs
        TennisArea.cs.meta
        TennisAcademy.cs
        Racket.meta
        Materials.meta
        Prefabs
        TennisArea.prefab.meta
        TennisArea.prefab
        Racket
        Racket.obj.meta
        Materials.meta
        Racket.obj
        Materials
        defaultMat.mat
        defaultMat.mat.meta
        Scripts.meta
        Prefabs.meta
        Tennis.unity
        TFModels
        Tennis.bytes
        Tennis.bytes.meta
        Materials
        invisible.mat.meta
        racketMat.physicMaterial
        ballMat.physicMaterial.meta
        ballMat.physicMaterial
        bounce.physicMaterial.meta
        racketMat.physicMaterial.meta
        bounce.physicMaterial
        sand.mat
        invisible.mat
        sand.mat.meta
        NetMat.mat
        NetMat.mat.meta
        Tennis.unity.meta
        Hallway
        TFModels.meta
        Scripts
        HallwayAcademy.cs
        HallwayAgent.cs.meta
        HallwayAgent.cs
        HallwayAcademy.cs.meta
        Scenes
        Hallway.unity
        Hallway.unity.meta
        Prefabs
        orangeBlock.prefab
        violetBlock.prefab
        orangeBlock.prefab.meta
        HallwayArea.prefab.meta
        HallwayArea.prefab
        violetBlock.prefab.meta
        Scripts.meta
        Prefabs.meta
        TFModels
        Hallway.bytes.meta
        Scenes.meta
        Material.meta
        Material
        Orange.mat
        Red.mat
        Red.mat.meta
        Goal.mat
        Orange.mat.meta
        Goal.mat.meta
        PrototypeCheckerAlbedo.png.meta
        GridWorld.meta
        Soccer.meta
        BananaCollectors.meta
        SharedAssets.meta
        SharedAssets
        Scripts
        Area.cs
        FlyCamera.cs.meta
        RayPerception.cs.meta
        RandomDecision.cs.meta
        RayPerception.cs
        FlyCamera.cs
        CameraFollow.cs.meta
        RandomDecision.cs
        CameraFollow.cs
        Area.cs.meta
        Materials.meta
        Scripts.meta
        Materials
        Obstacle.mat
        agent.mat.meta
        CheckerSquare.mat
        Ground.mat
        Ball.mat.meta
        SuccessGround.mat
        Block.mat
        SuccessGround.mat.meta
        CheckerGoal.mat.meta
        FailGround.mat.meta
        Obstacle.mat.meta
        Ball.mat
        CheckerMany.mat
        redAgent.mat.meta
        agent.mat
        Wall.mat.meta
        goal.mat.meta
        CheckerRectangle.mat
        UIDefault.mat
        Ground.mat.meta
        goal.mat
        redAgent.mat
        FailGround.mat
        Block.mat.meta
        CheckerSquare.mat.meta
        blueAgent.mat
        CheckerRectangle.mat.meta
        CheckerMany.mat.meta
        blueAgent.mat.meta
        PrototypeCheckerAlbedo.png.meta
        CheckerGoal.mat
        Wall.mat
        UIDefault.mat.meta
        Basic.meta
        Crawler
        TFModels.meta
        Scripts
        CrawlerBodyContact.cs
        CrawlerAcademy.cs.meta
        CrawlerAgentConfigurable.cs.meta
        CrawlerLegContact.cs.meta
        CrawlerAcademy.cs
        CrawlerLegContact.cs
        CrawlerBodyContact.cs.meta
        CrawlerAgentConfigurable.cs
        Prefabs
        Crawler.prefab
        Crawler.prefab.meta
        Crawler.unity
        Crawler.unity.meta
        Scripts.meta
        Prefabs.meta
        TFModels
        crawler.bytes.meta
        Template.meta
        WallJump.meta
        Reacher.meta
        BananaCollectors
        BananaRL.unity
        Models.meta
        TFModels.meta
        BananaImitation.unity
        BananaImitation.unity.meta
        Scripts
        BananaAcademy.cs.meta
        BananaAcademy.cs
        BananaArea.cs.meta
        BananaLogic.cs.meta
        BananaLogic.cs
        BananaAgent.cs.meta
        BananaAgent.cs
        BananaArea.cs
        Materials.meta
        Models
        banana.fbx.meta
        banana.fbx
        Prefabs
        Banana.prefab
        Banana.prefab.meta
        BadBanana.prefab
        StudentAgent.prefab.meta
        TeachingArea.prefab
        TeacherAgent.prefab
        TeacherAgent.prefab.meta
        StudentAgent.prefab
        RLAgent.prefab.meta
        RLAgent.prefab
        RLArea.prefab
        TeachingArea.prefab.meta
        RLArea.prefab.meta
        BadBanana.prefab.meta
        Scripts.meta
        Prefabs.meta
        TFModels
        BananaRL.bytes.meta
        BananaIL.bytes
        BananaIL.bytes.meta
        BananaRL.unity.meta
        Materials
        white.mat
        agent.mat.meta
        lazer.mat.meta
        swatch.mat
        badColor.mat.meta
        badColor.mat
        red.mat
        black.mat.meta
        agent.mat
        black.mat
        swatch.mat.meta
        bad.mat.meta
        lazer.mat
        red.mat.meta
        swatchMaster.psd.meta
        white.mat.meta
        bad.mat
        swatchMaster.psd
        Soccer
        TFModels.meta
        Scripts
        SoccerBallController.cs.meta
        SoccerBallController.cs
        AgentSoccer.cs
        SoccerAcademy.cs.meta
        SoccerFieldArea.cs
        SoccerFieldArea.cs.meta
        SoccerAcademy.cs
        AgentSoccer.cs.meta
        Scenes
        SoccerTwos.unity
        SoccerTwos.unity.meta
        Materials.meta
        Prefabs
        SoccerFieldTwos.prefab.meta
        SoccerBall
        Textures
        SoccerBallNormalMap.png.meta
        Meshes
        SoccerBallMesh.fbx.meta
        SoccerBallMesh.fbx
        Meshes.meta
        Materials.meta
        Prefabs
        SoccerBall.prefab
        SoccerBall.prefab.meta
        Prefabs.meta
        Materials
        Black-Ball-Material.mat
        White-Ball-Material.mat
        White-Ball-Material.mat.meta
        Black-Ball-Material.mat.meta
        Textures.meta
        SoccerBall.meta
        SoccerFieldTwos.prefab
        Scripts.meta
        Prefabs.meta
        TFModels
        Soccer.bytes.meta
        Scenes.meta
        Materials
        redGoal.mat
        NoFriction.physicMaterial.meta
        rollyCubeFriction.physicMaterial.meta
        white.mat
        Clear.mat.meta
        NoFriction.physicMaterial
        blueGoal.mat
        Bouncy.physicMaterial.meta
        wall.mat.meta
        swatch.mat
        zeroFriction.physicMaterial
        zeroFriction.physicMaterial.meta
        blueGoal.mat.meta
        black.mat.meta
        grass.mat
        black.mat
        Bouncy.physicMaterial
        wall.mat
        swatch.mat.meta
        rollyCubeFriction.physicMaterial
        Clear.mat
        redGoal.mat.meta
        swatchMaster.psd.meta
        reducedFriction.physicMaterial
        white.mat.meta
        swatchMaster.psd
        grass.mat.meta
        reducedFriction.physicMaterial.meta
        3DBall.meta
        Basic
        TFModels.meta
        Scripts
        BasicAcademy.cs
        BasicDecision.cs.meta
        BasicAgent.cs
        BasicAcademy.cs.meta
        BasicAgent.cs.meta
        BasicDecision.cs
        Scene.unity
        Scene.unity.meta
        Scripts.meta
        TFModels
        Basic.bytes.meta
        Basic.bytes
        Bouncer.meta
        Tennis.meta
        Bouncer
        TFModels.meta
        Bouncer.unity.meta
        Scripts
        BouncerAgent.cs
        BouncerBanana.cs
        BouncerBanana.cs.meta
        BouncerAgent.cs.meta
        BouncerAcademy.cs.meta
        BouncerAcademy.cs
        Bouncer.unity
        Prefabs
        Environment.prefab.meta
        Environment.prefab
        RLAgent.prefab.meta
        RLAgent.prefab
        Scripts.meta
        Prefabs.meta
        TFModels
        Bouncer.bytes.meta
        Bouncer.bytes
        GridWorld
        TFModels.meta
        GridWorld.unity
        Scripts
        GridAcademy.cs.meta
        GridAgent.cs
        GridAcademy.cs
        GridAgent.cs.meta
        GridWorld.unity.meta
        Resources
        goal.prefab
        agent.prefab
        pit.prefab
        pit.prefab.meta
        agent.prefab.meta
        goal.prefab.meta
        Materials.meta
        Scripts.meta
        Resources.meta
        TFModels
        GridWorld_3x3.bytes.meta
        GridWorld_5x5.bytes.meta
        Materials
        goalMaterial.mat
        pitMaterial.mat.meta
        pitMaterial.mat
        Floor.mat
        goalMaterial.mat.meta
        Floor.mat.meta
        Hallway.meta
        Scripts
        ResetParameters.cs.meta
        CoreBrainPlayer.cs.meta
        Decision.cs
        CoreBrainInternal.cs.meta
        Brain.cs.meta
        Monitor.cs.meta
        Brain.cs
        CoreBrain.cs.meta
        ResetParameters.cs
        Academy.cs
        ExternalCommunicator.cs.meta
        CoreBrainHeuristic.cs
        UnityAgentsException.cs.meta
        CoreBrain.cs
        CoreBrainInternal.cs
        ExternalCommunicator.cs
        BCTeacherHelper.cs.meta
        BCTeacherHelper.cs
        Communicator.cs
        UnityAgentsException.cs
        Decision.cs.meta
        CoreBrainHeuristic.cs.meta
        Communicator.cs.meta
        Agent.cs
        CoreBrainExternal.cs.meta
        CoreBrainExternal.cs
        Monitor.cs
        CoreBrainPlayer.cs
        Academy.cs.meta
        Agent.cs.meta
        Editor
        AgentEditor.cs
        MLAgentsEditModeTest.cs
        BrainEditor.cs
        BrainEditor.cs.meta
        ResetParameterDrawer.cs.meta
        ResetParameterDrawer.cs
        AgentEditor.cs.meta
        MLAgentsEditModeTest.cs.meta
        Examples.meta
        Plugins
        JSON.meta
        JSON
        Newtonsoft.Json.dll.meta
        Plugins.meta
        Scripts.meta
        Editor.meta
        ML-Agents.meta
      - ProjectSettings
        DynamicsManager.asset
        PresetManager.asset
        NetworkManager.asset
        QualitySettings.asset
        ClusterInputManager.asset
        TagManager.asset
        EditorSettings.asset
        GraphicsSettings.asset
        AudioManager.asset
        EditorBuildSettings.asset
        UnityConnectSettings.asset
        Physics2DSettings.asset
        TimeManager.asset
        ProjectSettings.asset
        ProjectVersion.txt
        InputManager.asset
        NavMeshAreas.asset
    - python
      - Basics.ipynb
      - learn.py
      - trainer_config.yaml
      - unityagents
        curriculum.py
        __init__.py
        exception.py
        brain.py
        environment.py
      - setup.py
      - curricula
        test.json
        push.json
        wall.json
      - tests
        test_bc.py
        test_unitytrainers.py
        test_unityagents.py
        test_ppo.py
        __init__.py
      - requirements.txt
      - unitytrainers
        models.py
        buffer.py
        __init__.py
        trainer.py
        trainer_controller.py
        bc
        models.py
        __init__.py
        trainer.py
        ppo
        models.py
        __init__.py
        trainer.py
    - README.md
    - CODE_OF_CONDUCT.md
    - Dockerfile
    - .gitignore
    - docs
      - Training-ML-Agents.md
      - Feature-Monitor.md
      - Learning-Environment-Best-Practices.md
      - Learning-Environment-Design-Player-Brains.md
      - Learning-Environment-Design-Brains.md
      - Learning-Environment-Design.md
      - images
        cudnn_zip_files.PNG
        path_variables.PNG
        new_system_variable.PNG
        system_variable_name_value.PNG
        cuda_toolkit_directory.PNG
        anaconda_install.PNG
        anaconda_default.PNG
        conda_new.PNG
      - Learning-Environment-Examples.md
      - Training-Curriculum-Learning.md
      - Background-Unity.md
      - Using-Tensorboard.md
      - Readme.md
      - Limitations-and-Common-Issues.md
      - Learning-Environment-Create-New.md
      - ML-Agents-Overview.md
      - doxygen
        navtree.css
        doxygenbase.css
        unity.css
        Readme.md
        footer.html
        header.html
      - Installation.md
      - Learning-Environment-Design-Agents.md
      - Background-Jupyter.md
      - Background-Machine-Learning.md
      - Learning-Environment-Design-Academy.md
      - Learning-Environment-Design-External-Internal-Brains.md
      - Training-on-Amazon-Web-Service.md
      - Migrating-v0.3.md
      - Using-TensorFlow-Sharp-in-Unity.md
      - Background-TensorFlow.md
      - Getting-Started-with-Balance-Ball.md
      - Using-Docker.md
      - Learning-Environment-Design-Heuristic-Brains.md
      - Installation-Windows.md
      - API-Reference.md
      - Glossary.md
      - dox-ml-agents.conf
      - Training-Imitation-Learning.md
      - Training-PPO.md
      - Feature-Memory.md
      - Python-API.md
- .gitattributes
- README.md
- research
- run
  - baselines_wrapper.py
  - run_dqn.py
  - .gitignore
  - run_baselines.py
  - run_a2c.py

import logging

import numpy as np
import tensorflow as tf
import tensorflow.contrib.layers as c_layers

logger = logging.getLogger("unityagents")


class LearningModel(object):
    def __init__(self, m_size, normalize, use_recurrent, brain):
        self.brain = brain
        self.vector_in = None
        self.normalize = False
        self.use_recurrent = False
        self.global_step, self.increment_step = self.create_global_steps()
        self.visual_in = []
        self.batch_size = tf.placeholder(shape=None, dtype=tf.int32, name='batch_size')
        self.sequence_length = tf.placeholder(shape=None, dtype=tf.int32, name='sequence_length')
        self.m_size = m_size
        self.normalize = normalize
        self.use_recurrent = use_recurrent
        self.a_size = brain.vector_action_space_size

    @staticmethod
    def create_global_steps():
        """Creates TF ops to track and increment global training step."""
        global_step = tf.Variable(0, name="global_step", trainable=False, dtype=tf.int32)
        increment_step = tf.assign(global_step, tf.add(global_step, 1))
        return global_step, increment_step

    @staticmethod
    def swish(input_activation):
        """Swish activation function. For more info: https://arxiv.org/abs/1710.05941"""
        return tf.multiply(input_activation, tf.nn.sigmoid(input_activation))

    @staticmethod
    def create_visual_input(o_size_h, o_size_w, bw, name):
        if bw:
            c_channels = 1
        else:
            c_channels = 3

        visual_in = tf.placeholder(shape=[None, o_size_h, o_size_w, c_channels], dtype=tf.float32, name=name)
        return visual_in

    def create_vector_input(self, s_size):
        if self.brain.vector_observation_space_type == "continuous":
            self.vector_in = tf.placeholder(shape=[None, s_size], dtype=tf.float32, name='vector_observation')
            if self.normalize:
                self.running_mean = tf.get_variable("running_mean", [s_size], trainable=False, dtype=tf.float32,
                                                    initializer=tf.zeros_initializer())
                self.running_variance = tf.get_variable("running_variance", [s_size], trainable=False, dtype=tf.float32,
                                                        initializer=tf.ones_initializer())
                self.new_mean = tf.placeholder(shape=[s_size], dtype=tf.float32, name='new_mean')
                self.new_variance = tf.placeholder(shape=[s_size], dtype=tf.float32, name='new_variance')
                self.update_mean = tf.assign(self.running_mean, self.new_mean)
                self.update_variance = tf.assign(self.running_variance, self.new_variance)

                self.normalized_state = tf.clip_by_value((self.vector_in - self.running_mean) / tf.sqrt(
                    self.running_variance / (tf.cast(self.global_step, tf.float32) + 1)), -5, 5,
                                                         name="normalized_state")
            else:
                self.normalized_state = self.vector_in

        else:
            self.vector_in = tf.placeholder(shape=[None, 1], dtype=tf.int32, name='vector_observation')

    def create_continuous_state_encoder(self, h_size, activation, num_layers):
        """
        Builds a set of hidden state encoders.
        :param h_size: Hidden layer size.
        :param activation: What type of activation function to use for layers.
        :param num_layers: number of hidden layers to create.
        :return: List of hidden layer tensors.
        """
        hidden = self.normalized_state
        for j in range(num_layers):
            hidden = tf.layers.dense(hidden, h_size, activation=activation,
                                     kernel_initializer=c_layers.variance_scaling_initializer(1.0))
        return hidden

    def create_visual_encoder(self, h_size, activation, num_layers):
        """
        Builds a set of visual (CNN) encoders.
        :param h_size: Hidden layer size.
        :param activation: What type of activation function to use for layers.
        :param num_layers: number of hidden layers to create.
        :return: List of hidden layer tensors.
        """
        conv1 = tf.layers.conv2d(self.visual_in[-1], 16, kernel_size=[8, 8], strides=[4, 4],
                                 activation=tf.nn.elu)
        conv2 = tf.layers.conv2d(conv1, 32, kernel_size=[4, 4], strides=[2, 2],
                                 activation=tf.nn.elu)
        hidden = c_layers.flatten(conv2)

        for j in range(num_layers):
            hidden = tf.layers.dense(hidden, h_size, use_bias=False, activation=activation)
        return hidden

    def create_discrete_state_encoder(self, s_size, h_size, activation, num_layers):
        """
        Builds a set of hidden state encoders from discrete state input.
        :param s_size: state input size (discrete).
        :param h_size: Hidden layer size.
        :param activation: What type of activation function to use for layers.
        :param num_layers: number of hidden layers to create.
        :return: List of hidden layer tensors.
        """
        vector_in = tf.reshape(self.vector_in, [-1])
        state_onehot = c_layers.one_hot_encoding(vector_in, s_size)
        hidden = state_onehot
        for j in range(num_layers):
            hidden = tf.layers.dense(hidden, h_size, use_bias=False, activation=activation)
        return hidden

    def create_new_obs(self, num_streams, h_size, num_layers):
        brain = self.brain
        s_size = brain.vector_observation_space_size * brain.num_stacked_vector_observations
        if brain.vector_action_space_type == "continuous":
            activation_fn = tf.nn.tanh
        else:
            activation_fn = self.swish

        self.visual_in = []
        for i in range(brain.number_visual_observations):
            height_size, width_size = brain.camera_resolutions[i]['height'], brain.camera_resolutions[i]['width']
            bw = brain.camera_resolutions[i]['blackAndWhite']
            visual_input = self.create_visual_input(height_size, width_size, bw, name="visual_observation_" + str(i))
            self.visual_in.append(visual_input)
        self.create_vector_input(s_size)

        final_hiddens = []
        for i in range(num_streams):
            visual_encoders = []
            hidden_state, hidden_visual = None, None
            if brain.number_visual_observations > 0:
                for j in range(brain.number_visual_observations):
                    encoded_visual = self.create_visual_encoder(h_size, activation_fn, num_layers)
                    visual_encoders.append(encoded_visual)
                hidden_visual = tf.concat(visual_encoders, axis=1)
            if brain.vector_observation_space_size > 0:
                s_size = brain.vector_observation_space_size * brain.num_stacked_vector_observations
                if brain.vector_observation_space_type == "continuous":
                    hidden_state = self.create_continuous_state_encoder(h_size, activation_fn, num_layers)
                else:
                    hidden_state = self.create_discrete_state_encoder(s_size, h_size,
                                                                      activation_fn, num_layers)
            if hidden_state is not None and hidden_visual is not None:
                final_hidden = tf.concat([hidden_visual, hidden_state], axis=1)
            elif hidden_state is None and hidden_visual is not None:
                final_hidden = hidden_visual
            elif hidden_state is not None and hidden_visual is None:
                final_hidden = hidden_state
            else:
                raise Exception("No valid network configuration possible. "
                                "There are no states or observations in this brain")
            final_hiddens.append(final_hidden)
        return final_hiddens

    def create_recurrent_encoder(self, input_state, memory_in, name='lstm'):
        """
        Builds a recurrent encoder for either state or observations (LSTM).
        :param input_state: The input tensor to the LSTM cell.
        :param memory_in: The input memory to the LSTM cell.
        :param name: The scope of the LSTM cell.
        """
        s_size = input_state.get_shape().as_list()[1]
        m_size = memory_in.get_shape().as_list()[1]
        lstm_input_state = tf.reshape(input_state, shape=[-1, self.sequence_length, s_size])
        _half_point = int(m_size / 2)
        with tf.variable_scope(name):
            rnn_cell = tf.contrib.rnn.BasicLSTMCell(_half_point)
            lstm_vector_in = tf.contrib.rnn.LSTMStateTuple(memory_in[:, :_half_point], memory_in[:, _half_point:])
            recurrent_state, lstm_state_out = tf.nn.dynamic_rnn(rnn_cell, lstm_input_state,
                                                                initial_state=lstm_vector_in,
                                                                time_major=False,
                                                                dtype=tf.float32)

        recurrent_state = tf.reshape(recurrent_state, shape=[-1, _half_point])
        return recurrent_state, tf.concat([lstm_state_out.c, lstm_state_out.h], axis=1)

    def create_dc_actor_critic(self, h_size, num_layers):
        num_streams = 1
        hidden_streams = self.create_new_obs(num_streams, h_size, num_layers)
        hidden = hidden_streams[0]

        if self.use_recurrent:
            tf.Variable(self.m_size, name="memory_size", trainable=False, dtype=tf.int32)
            self.prev_action = tf.placeholder(shape=[None], dtype=tf.int32, name='prev_action')
            self.prev_action_oh = c_layers.one_hot_encoding(self.prev_action, self.a_size)
            hidden = tf.concat([hidden, self.prev_action_oh], axis=1)

            self.memory_in = tf.placeholder(shape=[None, self.m_size], dtype=tf.float32, name='recurrent_in')
            hidden, self.memory_out = self.create_recurrent_encoder(hidden, self.memory_in)
            self.memory_out = tf.identity(self.memory_out, name='recurrent_out')

        self.policy = tf.layers.dense(hidden, self.a_size, activation=None, use_bias=False,
                                      kernel_initializer=c_layers.variance_scaling_initializer(factor=0.01))

        self.all_probs = tf.nn.softmax(self.policy, name="action_probs")
        self.output = tf.multinomial(self.policy, 1)
        self.output = tf.identity(self.output, name="action")

        self.value = tf.layers.dense(hidden, 1, activation=None)
        self.value = tf.identity(self.value, name="value_estimate")
        self.entropy = -tf.reduce_sum(self.all_probs * tf.log(self.all_probs + 1e-10), axis=1)
        self.action_holder = tf.placeholder(shape=[None], dtype=tf.int32)
        self.selected_actions = c_layers.one_hot_encoding(self.action_holder, self.a_size)

        self.all_old_probs = tf.placeholder(shape=[None, self.a_size], dtype=tf.float32, name='old_probabilities')

        # We reshape these tensors to [batch x 1] in order to be of the same rank as continuous control probabilities.
        self.probs = tf.expand_dims(tf.reduce_sum(self.all_probs * self.selected_actions, axis=1), 1)
        self.old_probs = tf.expand_dims(tf.reduce_sum(self.all_old_probs * self.selected_actions, axis=1), 1)

    def create_cc_actor_critic(self, h_size, num_layers):
        num_streams = 2
        hidden_streams = self.create_new_obs(num_streams, h_size, num_layers)

        if self.use_recurrent:
            tf.Variable(self.m_size, name="memory_size", trainable=False, dtype=tf.int32)
            self.memory_in = tf.placeholder(shape=[None, self.m_size], dtype=tf.float32, name='recurrent_in')
            _half_point = int(self.m_size / 2)
            hidden_policy, memory_policy_out = self.create_recurrent_encoder(
                hidden_streams[0], self.memory_in[:, :_half_point], name='lstm_policy')

            hidden_value, memory_value_out = self.create_recurrent_encoder(
                hidden_streams[1], self.memory_in[:, _half_point:], name='lstm_value')
            self.memory_out = tf.concat([memory_policy_out, memory_value_out], axis=1, name='recurrent_out')
        else:
            hidden_policy = hidden_streams[0]
            hidden_value = hidden_streams[1]

        self.mu = tf.layers.dense(hidden_policy, self.a_size, activation=None, use_bias=False,
                                  kernel_initializer=c_layers.variance_scaling_initializer(factor=0.01))

        self.log_sigma_sq = tf.get_variable("log_sigma_squared", [self.a_size], dtype=tf.float32,
                                            initializer=tf.zeros_initializer())

        self.sigma_sq = tf.exp(self.log_sigma_sq)
        self.epsilon = tf.random_normal(tf.shape(self.mu), dtype=tf.float32)
        self.output = self.mu + tf.sqrt(self.sigma_sq) * self.epsilon
        self.output = tf.identity(self.output, name='action')
        a = tf.exp(-1 * tf.pow(tf.stop_gradient(self.output) - self.mu, 2) / (2 * self.sigma_sq))
        b = 1 / tf.sqrt(2 * self.sigma_sq * np.pi)
        self.all_probs = tf.multiply(a, b, name="action_probs")
        self.entropy = tf.reduce_mean(0.5 * tf.log(2 * np.pi * np.e * self.sigma_sq))
        self.value = tf.layers.dense(hidden_value, 1, activation=None)
        self.value = tf.identity(self.value, name="value_estimate")
        self.all_old_probs = tf.placeholder(shape=[None, self.a_size], dtype=tf.float32,
                                            name='old_probabilities')
        # We keep these tensors the same name, but use new nodes to keep code parallelism with discrete control.
        self.probs = tf.identity(self.all_probs)
        self.old_probs = tf.identity(self.all_old_probs)