java source code of EpsilonGreedy

burlap-master
- src
  - main
    - java
      - burlap
        shell
        ShellObserver.java
        SGWorldShell.java
        visual
        VisualExplorer.java
        SGVisualExplorer.java
        TextAreaStreams.java
        EnvironmentShell.java
        BurlapShell.java
        command
        ShellCommand.java
        world
        AddStateObjectSGCommand.java
        GenerateStateCommand.java
        JointActionCommand.java
        WorldObservationCommand.java
        RemoveStateObjectSGCommand.java
        IsTerminalSGCommand.java
        ManualAgentsCommands.java
        SetVarSGCommand.java
        LastJointActionCommand.java
        GameCommand.java
        RewardsCommand.java
        reserved
        CommandsCommand.java
        HelpCommand.java
        QuitCommand.java
        AliasCommand.java
        AliasesCommand.java
        env
        EpisodeRecordingCommands.java
        ResetEnvCommand.java
        ObservationCommand.java
        ListActionsCommand.java
        ListPropFunctions.java
        SetVarCommand.java
        IsTerminalCommand.java
        AddStateObjectCommand.java
        RemoveStateObjectCommand.java
        RewardCommand.java
        ExecuteActionCommand.java
        behavior
        policy
        CachedPolicy.java
        Policy.java
        support
        ActionProb.java
        PolicyUndefinedException.java
        AnnotatedAction.java
        GreedyDeterministicQPolicy.java
        SolverDerivedPolicy.java
        GreedyQPolicy.java
        EpsilonGreedy.java
        RandomPolicy.java
        EnumerablePolicy.java
        BoltzmannQPolicy.java
        PolicyUtils.java
        stochasticgames
        GameEpisode.java
        solvers
        CorrelatedEquilibriumSolver.java
        GeneralBimatrixSolverTools.java
        MinMaxSolver.java
        PolicyFromJointPolicy.java
        JointPolicy.java
        agents
        SetStrategySGAgent.java
        madp
        MADPPlanAgentFactory.java
        MADPPlannerFactory.java
        MultiAgentDPPlanningAgent.java
        naiveq
        SGNaiveQLAgent.java
        SGNaiveQFactory.java
        history
        SGQWActionHistoryFactory.java
        SGQWActionHistory.java
        HistoryState.java
        twoplayer
        repeatedsinglestage
        GrimTrigger.java
        TitForTat.java
        singlestage
        equilibriumplayer
        EquilibriumPlayingSGAgent.java
        equilibriumsolvers
        CorrelatedEquilibrium.java
        Utilitarian.java
        MaxMax.java
        MinMax.java
        BimatrixEquilibriumSolver.java
        maql
        MAQLFactory.java
        MultiAgentQLearning.java
        RandomSGAgent.java
        interfacing
        singleagent
        LearningAgentToSGAgentInterface.java
        auxiliary
        GameSequenceVisualizer.java
        performance
        MultiAgentPerformancePlotter.java
        MultiAgentExperimenter.java
        AgentFactoryAndType.java
        madynamicprogramming
        dpplanners
        MAValueIteration.java
        JAQValue.java
        SGBackupOperator.java
        MultiAgentQSourceProvider.java
        policies
        EGreedyMaxWellfare.java
        ECorrelatedQJointPolicy.java
        EMinMaxPolicy.java
        EGreedyJointPolicy.java
        QSourceForSingleAgent.java
        backupOperators
        MinMaxQ.java
        MaxQ.java
        CoCoQ.java
        CorrelatedQ.java
        AgentQSourceMap.java
        MAQSourcePolicy.java
        MADynamicProgramming.java
        functionapproximation
        sparse
        tilecoding
        TilingArrangement.java
        TileCodingFeatures.java
        Tiling.java
        SparseStateFeatures.java
        SparseStateActionFeatures.java
        LinearVFA.java
        StateFeature.java
        SparseCrossProductFeatures.java
        DifferentiableStateValue.java
        ParametricFunction.java
        supervised
        SupervisedVFA.java
        FunctionGradient.java
        GradientUtils.java
        dense
        DenseStateActionFeatures.java
        DenseStateFeatures.java
        DenseCrossProductFeatures.java
        NormalizedVariableFeatures.java
        DenseStateActionLinearVFA.java
        NumericVariableFeatures.java
        rbf
        functions
        GaussianRBF.java
        RBFFeatures.java
        RBF.java
        DistanceMetric.java
        metrics
        EuclideanDistance.java
        fourier
        FourierBasis.java
        FourierBasisLearningRateWrapper.java
        SparseToDenseFeatures.java
        DenseLinearVFA.java
        ConcatenatedObjectFeatures.java
        PFFeatures.java
        DifferentiableStateActionValue.java
        singleagent
        options
        OptionType.java
        EnvironmentOptionOutcome.java
        Option.java
        SubgoalOption.java
        model
        BFSNonMarkovOptionModel.java
        BFSMarkovOptionModel.java
        MacroAction.java
        Episode.java
        MDPSolverInterface.java
        pomdp
        qmdp
        QMDP.java
        wrappedmdpalgs
        BeliefSparseSampling.java
        BeliefPolicyAgent.java
        learning
        modellearning
        LearnedModel.java
        models
        TabularModel.java
        modelplanners
        VIModelLearningPlanner.java
        KWIKModel.java
        artdp
        ARTDP.java
        rmax
        PotentialShapedRMax.java
        RMaxModel.java
        UnmodeledFavoredPolicy.java
        ModelLearningPlanner.java
        LearningAgentFactory.java
        actorcritic
        ActorCritic.java
        Critic.java
        critics
        TDLambda.java
        TimeIndexedTDLambda.java
        Actor.java
        actor
        BoltzmannActor.java
        LearningAgent.java
        tdmethods
        QLearningStateNode.java
        QLearning.java
        vfa
        GradientDescentSarsaLam.java
        ApproximateQLearning.java
        GradientDescentQLearning.java
        SarsaLam.java
        lspi
        SARSCollector.java
        SARSData.java
        LSPI.java
        experiencereplay
        ExperienceMemory.java
        FixedSizeMemory.java
        learnfromdemo
        IRLRequest.java
        apprenticeship
        ApprenticeshipLearningRequest.java
        ApprenticeshipLearning.java
        RewardValueProjection.java
        CustomRewardModel.java
        mlirl
        MultipleIntentionsMLIRL.java
        MLIRLRequest.java
        differentiableplanners
        DifferentiableDP.java
        dpoperator
        DifferentiableDPOperator.java
        SubDifferentiableMaxOperator.java
        DifferentiableSoftmaxOperator.java
        diffvinit
        LinearStateDiffVF.java
        DiffVFRF.java
        VanillaDiffVinit.java
        LinearDiffRFVInit.java
        DifferentiableVInit.java
        DifferentiableSparseSampling.java
        DifferentiableVI.java
        MultipleIntentionsMLIRLRequest.java
        commonrfs
        LinearStateActionDifferentiableRF.java
        LinearStateDifferentiableRF.java
        support
        BoltzmannPolicyGradient.java
        QGradientTuple.java
        DifferentiableRF.java
        DifferentiableQFunction.java
        QGradientPlannerFactory.java
        DifferentiableValueFunction.java
        MLIRL.java
        shaping
        ShapedRewardFunction.java
        potential
        PotentialShapedRF.java
        PotentialFunction.java
        planning
        stochastic
        rtdp
        BoundedRTDP.java
        RTDP.java
        dpoperator
        SoftmaxOperator.java
        BellmanOperator.java
        DPOperator.java
        valueiteration
        ValueIteration.java
        PrioritizedSweeping.java
        sparsesampling
        SparseSampling.java
        montecarlo
        uct
        UCTStateNode.java
        UCT.java
        UCTTreeWalkPolicy.java
        UCTActionNode.java
        DynamicProgramming.java
        policyiteration
        PolicyIteration.java
        PolicyEvaluation.java
        vfa
        fittedvi
        FittedVI.java
        Planner.java
        deterministic
        SDPlannerPolicy.java
        informed
        astar
        StaticWeightedAStar.java
        AStar.java
        DynamicWeightedAStar.java
        WeightedGreedy.java
        IDAStar.java
        PrioritizedSearchNode.java
        BestFirst.java
        NullHeuristic.java
        Heuristic.java
        SearchNode.java
        DeterministicPlanner.java
        uninformed
        bfs
        BFS.java
        dfs
        DFS.java
        LimitedMemoryDFS.java
        MultiStatePrePlanner.java
        DDPlannerPolicy.java
        MDPSolver.java
        interfaces
        rlglue
        RLGlueAgent.java
        RLGlueDomain.java
        RLGlueState.java
        auxiliary
        StateEnumerator.java
        EpisodeSequenceVisualizer.java
        StateReachability.java
        valuefunctionvis
        ValueFunctionVisualizerGUI.java
        StateValuePainter.java
        common
        PolicyGlyphPainter2D.java
        ArrowActionGlyph.java
        ColorBlend.java
        LandmarkColorBlendInterpolation.java
        ActionGlyphPainter.java
        StateValuePainter2D.java
        ValueFunctionRenderLayer.java
        StaticDomainPainter.java
        StatePolicyPainter.java
        PolicyRenderLayer.java
        gridset
        FlatStateGridder.java
        OOStateGridder.java
        VariableGridSpec.java
        performance
        LearningAlgorithmExperimenter.java
        ExperimentalEnvironment.java
        PerformancePlotter.java
        TrialMode.java
        PerformanceMetric.java
        valuefunction
        ValueFunction.java
        ConstantValueFunction.java
        QFunction.java
        QProvider.java
        QValue.java
        learningrate
        SoftTimeInverseDecayLR.java
        ConstantLR.java
        ExponentialDecayLR.java
        LearningRate.java
        mdp
        stochasticgames
        agent
        SGAgent.java
        AgentFactory.java
        SGAgentType.java
        SGAgentBase.java
        oo
        OOSGDomain.java
        common
        StaticRepeatedGameModel.java
        VisualWorldObserver.java
        NullJointRewardFunction.java
        AgentFactoryWithSubjectiveReward.java
        SGDomain.java
        world
        WorldObserver.java
        WorldGenerator.java
        World.java
        tournament
        MatchSelector.java
        Tournament.java
        common
        AllPairWiseSameTypeMS.java
        ConstantWorldGenerator.java
        MatchEntry.java
        model
        JointRewardFunction.java
        FullJointModel.java
        JointModel.java
        JointAction.java
        singleagent
        oo
        OOSADomain.java
        ObjectParameterizedActionType.java
        common
        GoalBasedRF.java
        UniformCostRF.java
        SingleGoalPFRF.java
        VisualActionObserver.java
        NullRewardFunction.java
        environment
        extensions
        EnvironmentObserver.java
        EnvironmentServerInterface.java
        EnvironmentServer.java
        EnvironmentDelegation.java
        StateSettableEnvironment.java
        Environment.java
        SimulatedEnvironment.java
        EnvironmentOutcome.java
        pomdp
        PODomain.java
        beliefstate
        BeliefState.java
        BeliefUpdate.java
        TabularBeliefState.java
        TabularBeliefUpdate.java
        EnumerableBeliefState.java
        DenseBeliefVector.java
        BeliefAgent.java
        observations
        ObservationFunction.java
        ObservationUtilities.java
        DiscreteObservationFunction.java
        ObservationProbability.java
        BeliefMDPGenerator.java
        SimulatedPOEnvironment.java
        SADomain.java
        model
        DelegatedModel.java
        TransitionProb.java
        FullModel.java
        RewardFunction.java
        SampleModel.java
        FactoredModel.java
        TaskFactoredModel.java
        statemodel
        FullStateModel.java
        SampleStateModel.java
        core
        StateTransitionProb.java
        Domain.java
        state
        MutableState.java
        UnknownKeyException.java
        State.java
        NullState.java
        annotations
        DeepCopyState.java
        ShallowCopyState.java
        StateUtilities.java
        vardomain
        StateDomain.java
        VariableDomain.java
        oo
        OODomain.java
        state
        OOState.java
        OOStateUtilities.java
        MutableOOState.java
        generic
        DeepOOState.java
        GenericOOState.java
        OOVariableKey.java
        exceptions
        UnknownClassException.java
        UnknownObjectException.java
        ObjectInstance.java
        ObjectParameterizedAction.java
        propositional
        PropositionalFunction.java
        GroundedProp.java
        action
        ActionType.java
        SimpleAction.java
        UniversalActionType.java
        ActionUtils.java
        Action.java
        TerminalFunction.java
        auxiliary
        DomainGenerator.java
        stateconditiontest
        StateConditionTest.java
        TFGoalCondition.java
        SinglePFSCT.java
        StateConditionTestIterable.java
        common
        IdentityStateMapping.java
        ShallowIdentityStateMapping.java
        SinglePFTF.java
        RandomStartStateGenerator.java
        ConstantStateGenerator.java
        NullTermination.java
        GoalConditionTF.java
        StateMapping.java
        StateGenerator.java
        debugtools
        DebugFlags.java
        MyTimer.java
        DPrint.java
        RandomFactory.java
        datastructures
        HashedAggregator.java
        StochasticTree.java
        BoltzmannDistribution.java
        HashIndexedHeap.java
        AlphanumericSorting.java
        domain
        stochasticgames
        gridgame
        GridGameStandardMechanics.java
        state
        GGGoal.java
        GGAgent.java
        GGWall.java
        GridGame.java
        GGVisualizer.java
        normalform
        NFGameState.java
        SingleStageNormalFormGame.java
        singleagent
        blocksworld
        BlocksWorldVisualizer.java
        BlocksWorldBlock.java
        BlocksWorld.java
        BWModel.java
        BlocksWorldState.java
        cartpole
        states
        CartPoleState.java
        CartPoleFullState.java
        InvertedPendulumState.java
        CartPoleDomain.java
        CartPoleVisualizer.java
        model
        CPCorrectModel.java
        IPModel.java
        CPClassicModel.java
        InvertedPendulum.java
        lunarlander
        LunarLanderRF.java
        state
        LLState.java
        LLAgent.java
        LLBlock.java
        LLVisualizer.java
        LunarLanderDomain.java
        LunarLanderModel.java
        LunarLanderTF.java
        gridworld
        GridWorldDomain.java
        state
        GridAgent.java
        GridWorldState.java
        GridLocation.java
        GridWorldVisualizer.java
        GridWorldRewardFunction.java
        GridWorldTerminalFunction.java
        mountaincar
        MountainCar.java
        MCState.java
        MountainCarVisualizer.java
        MCRandomStateGenerator.java
        pomdp
        tiger
        TigerState.java
        TigerObservations.java
        TigerDomain.java
        TigerObservation.java
        TigerModel.java
        blockdude
        BlockDude.java
        BlockDudeVisualizer.java
        state
        BlockDudeCell.java
        BlockDudeAgent.java
        BlockDudeState.java
        BlockDudeMap.java
        BlockDudeLevelConstructor.java
        BlockDudeTF.java
        BlockDudeModel.java
        graphdefined
        GraphStateNode.java
        GraphRF.java
        GraphTF.java
        GraphDefinedDomain.java
        frostbite
        FrostbiteVisualizer.java
        state
        FrostbiteIgloo.java
        FrostbitePlatform.java
        FrostbiteState.java
        FrostbiteAgent.java
        FrostbiteDomain.java
        FrostbiteModel.java
        FrostbiteRF.java
        FrostbiteTF.java
        rlglue
        RLGlueEnvironment.java
        visualizer
        StatePainter.java
        MultiLayerRenderer.java
        Visualizer.java
        StateRenderLayer.java
        OOStatePainter.java
        RenderLayer.java
        StateActionRenderLayer.java
        ObjectPainter.java
        statehashing
        simple
        SimpleHashableStateFactory.java
        IISimpleHashableState.java
        IDSimpleHashableState.java
        ReflectiveHashableStateFactory.java
        HashableStateFactory.java
        masked
        MaskedConfig.java
        MaskedHashableStateFactory.java
        IIMaskedHashableState.java
        IDMaskedHashableState.java
        WrappedHashableState.java
        maskeddiscretized
        DiscMaskedConfig.java
        IDDiscMaskedHashableState.java
        IIDiscMaskedHashableState.java
        DiscretizingMaskedHashableStateFactory.java
        HashableState.java
        discretized
        DiscConfig.java
        IDDiscHashableState.java
        IIDiscHashableState.java
        DiscretizingHashableStateFactory.java
  - test
    - java
      - burlap
        testing
        TestHashing.java
        TestRunner.java
        TestPlanning.java
        TestGridWorld.java
        TestBlockDude.java
        TestSuite.java
- pom.xml
- LICENSE
- burlap-repo
  - org
    - rlcommunity
      - rlglue
        JavaRLGlueCodec
        1.0
        JavaRLGlueCodec-1.0.pom
        JavaRLGlueCodec-1.0.jar
        maven-metadata-local.xml
    - scpsolver
      - LPSOLVESolverPack
        1.0
        LPSOLVESolverPack-1.0.pom
        maven-metadata-local.xml
      - SCPSolver
        1.0
        SCPSolver-1.0.jar
        SCPSolver-1.0.pom
        maven-metadata-local.xml
- README.md
- .gitignore

package burlap.behavior.policy;

import burlap.behavior.policy.support.ActionProb;
import burlap.behavior.singleagent.MDPSolverInterface;
import burlap.behavior.valuefunction.QProvider;
import burlap.behavior.valuefunction.QValue;
import burlap.debugtools.RandomFactory;
import burlap.mdp.core.action.Action;
import burlap.mdp.core.state.State;

import javax.management.RuntimeErrorException;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;


/**
 * This class defines a an epsilon-greedy policy over Q-values and requires a QComputable valueFunction to be specified.
 * With probability epsilon the policy will return a random action (with uniform distribution over all possible action).
 * With probability 1 - epsilon the policy will return the greedy action. If multiple actions tie for the highest Q-value,
 * then one of the tied actions is randomly selected.
 * @author James MacGlashan
 *
 */
public class EpsilonGreedy implements SolverDerivedPolicy, EnumerablePolicy {

	protected QProvider qplanner;
	protected double					epsilon;
	protected Random 					rand;
	
	
	/**
	 * Initializes with the value of epsilon, where epsilon is the probability of taking a random action.
	 * @param epsilon the probability of taking a random action.
	 */
	public EpsilonGreedy(double epsilon) {
		qplanner = null;
		this.epsilon = epsilon;
		rand = RandomFactory.getMapped(0);
	}
	
	/**
	 * Initializes with the QComputablePlanner to use and the value of epsilon to use, where epsilon is the probability of taking a random action.
	 * @param planner the QComputablePlanner to use
	 * @param epsilon the probability of taking a random action.
	 */
	public EpsilonGreedy(QProvider planner, double epsilon) {
		qplanner = planner;
		this.epsilon = epsilon;
		rand = RandomFactory.getMapped(0);
	}

	
	/**
	 * Returns the epsilon value, where epsilon is the probability of taking a random action.
	 * @return the epsilon value
	 */
	public double getEpsilon() {
		return epsilon;
	}

	/**
	 * Sets the epsilon value, where epsilon is the probability of taking a random action.
	 * @param epsilon the probability of taking a random action.
	 */
	public void setEpsilon(double epsilon) {
		this.epsilon = epsilon;
	}

	@Override
	public void setSolver(MDPSolverInterface solver){
		
		if(!(solver instanceof QProvider)){
			throw new RuntimeErrorException(new Error("Planner is not a QComputablePlanner"));
		}
		
		this.qplanner = (QProvider) solver;
	}
	
	@Override
	public Action action(State s) {
		
		
		List<QValue> qValues = this.qplanner.qValues(s);
		
		
		double roll = rand.nextDouble();
		if(roll <= epsilon){
			int selected = rand.nextInt(qValues.size());
			Action ga = qValues.get(selected).a;
			return ga;
		}
		
		
		List <QValue> maxActions = new ArrayList<QValue>();
		maxActions.add(qValues.get(0));
		double maxQ = qValues.get(0).q;
		for(int i = 1; i < qValues.size(); i++){
			QValue q = qValues.get(i);
			if(q.q == maxQ){
				maxActions.add(q);
			}
			else if(q.q > maxQ){
				maxActions.clear();
				maxActions.add(q);
				maxQ = q.q;
			}
		}
		int selected = rand.nextInt(maxActions.size());
		//return translated action parameters if the action is parameterized with objects in a object identifier indepdent domain
		Action ga =  maxActions.get(selected).a;
		return ga;
	}

	@Override
	public double actionProb(State s, Action a) {
		return PolicyUtils.actionProbFromEnum(this, s, a);
	}

	@Override
	public List<ActionProb> policyDistribution(State s) {
		
		List<QValue> qValues = this.qplanner.qValues(s);
		
		List <ActionProb> dist = new ArrayList<ActionProb>(qValues.size());
		double maxQ = Double.NEGATIVE_INFINITY;
		int nMax = 0;
		for(QValue q : qValues){
			if(q.q > maxQ){
				maxQ = q.q;
				nMax = 1;
			}
			else if(q.q == maxQ){
				nMax++;
			}
			ActionProb ap = new ActionProb(q.a, this.epsilon*(1. / qValues.size()));
			dist.add(ap);
		}
		for(int i = 0; i < dist.size(); i++){
			QValue q = qValues.get(i);
			if(q.q == maxQ){
				dist.get(i).pSelection += (1. - this.epsilon) / nMax;
			}
		}
		
		
		return dist;
	}

	
	@Override
	public boolean definedFor(State s) {
		return true; //can always find q-values with default value
	}

}