java source code of TunedXGBoost

tsml-master
- src
  - main
    - matlab
      - buildDiasInDirectory.m
      - roccurves.m
      - pairedscatter.m
      - criticaldifference.m
      - readcsv.m
      - criticaldifferencePairwise.m
      - buildDia.m
      - texassharpshooter.m
      - minmode.m
      - compResourcesLinePlot.m
    - python
      - utilities.py
      - temporalImportanceCurves.py
    - java
      - statistics
        transformations
        Exponential.java
        PCA.java
        BoxTidwell.java
        BoxCox.java
        Transformations.java
        VarianceStabalisingStepwiseRegression.java
        MatrixSort.java
        LinearModel.java
        PowerSearch.java
        ArrayPair.java
        EmptyTransform.java
        YeoJohnson.java
        Reciprocal.java
        distributions
        ParetoDistribution.java
        FisherDistribution.java
        BetaDistribution.java
        Domain.java
        Data.java
        ChiSquareDistribution.java
        BinomialDistribution.java
        Convolution.java
        WalkMaxDistribution.java
        FiniteDistribution.java
        WalkPositionDistribution.java
        MixtureDistribution.java
        MersenneTwister.java
        PointMassDistribution.java
        CauchyDistribution.java
        NegativeBinomialDistribution.java
        UniformDistribution.java
        ExponentialDistribution.java
        StudentDistribution.java
        PoissonDistribution.java
        WeibullDistribution.java
        BinomialRandomNDistribution.java
        HypergeometricDistribution.java
        LocationScaleDistribution.java
        IntervalData.java
        FiniteOrderStatisticDistribution.java
        DiscreteUniformDistribution.java
        BernoulliDistribution.java
        ContinuousUniformDistribution.java
        NormalDistribution.java
        LogNormalDistribution.java
        Distribution.java
        CouponDistribution.java
        GeometricDistribution.java
        TriangleDistribution.java
        RandomVariable.java
        BirthdayDistribution.java
        MatchDistribution.java
        GammaDistribution.java
        CircleDistribution.java
        DieDistribution.java
        DiscreteArcsineDistribution.java
        OrderStatisticDistribution.java
        PokerDiceDistribution.java
        LogisticDistribution.java
        simulators
        SimulateIntervalData.java
        HMM_Model.java
        Model.java
        MatrixProfileModelVersion1.java
        SimulateElasticData.java
        ShapeletModel.java
        WhiteNoiseModel.java
        SinusoidalModel.java
        SimulateMatrixProfileData.java
        SimulateDictionaryData.java
        DataSimulator.java
        SimulateShapeletData.java
        SimulateSpectralData.java
        DictionaryModel.java
        PolynomialModel.java
        SimulateWholeSeriesData.java
        MatrixProfileModelVersion2.java
        ArmaModel.java
        ElasticModel.java
        IntervalModel.java
        tests
        ResidualTests.java
        KruskalWallis.java
        OneSampleTests.java
        Tests.java
        DataPoint.java
        ToftExperiments.java
        TwoSampleTests.java
        ManySampleTests.java
        TestResults.java
      - fileIO
        InFile.java
        OutFile.java
        FullAccessOutFile.java
      - machine_learning
        clusterers
        DensityPeak.java
        KMeans.java
        AbstractVectorClusterer.java
        PAM.java
        CAST.java
        classifiers
        MultiResponseModelTrees.java
        ChooseDatasetFromFile.java
        MultiLinearRegression.java
        ensembles
        SaveableEnsemble.java
        EnsembleSelection.java
        stackers
        SMM5.java
        SMLRE.java
        SMLR.java
        ContractRotationForest.java
        HomogeneousContractCAWPE.java
        weightings
        NLL.java
        MCCWeighting.java
        EqualWeighting.java
        RecallByClass.java
        ProportionalTrainAcc.java
        FScore.java
        AvgCorrectedTrainAcc.java
        AUROC.java
        TrainAcc.java
        TrainAccOrMCC.java
        ConfusionEntropy.java
        ModuleWeightingScheme.java
        MaxCorrectedTrainAcc.java
        BalancedAccuracy.java
        TrainAccByClass.java
        AbstractEnsemble.java
        weightedvoters
        CAWPE_PickBest.java
        CAWPE_NaiveBayesCombiner.java
        CAWPE_RecallCombiner.java
        CAWPE_MajorityVote.java
        CAWPE_WeightedMajorityVote.java
        CAWPE_TunedAlpha.java
        CAWPE.java
        TransformEnsembles.java
        SingleTransformEnsembles.java
        voting
        ModuleVotingScheme.java
        NP_MAX.java
        BestIndividualTrain.java
        MajorityVoteByConfidence.java
        MajorityVote.java
        MajorityConfidence.java
        MajorityVoteByCorrectedConfidence.java
        BestIndividualOracle.java
        AverageVoteByConfidence.java
        NaiveBayesCombiner.java
        MajorityVoteByPoweredConfidence.java
        BestIndividual.java
        stacking
        StackingOnExtendedSetOfFeatures.java
        StackingOnPreds.java
        StackingOnDists.java
        AbstractStacking.java
        tuned
        TunedSVM.java
        TunedClassifier.java
        TunedXGBoost.java
        TunedRandomForest.java
        TimeSeriesTree.java
        kNN.java
        RandomGuesser.java
        PLSNominalClassifier.java
        ChooseClassifierFromFile.java
        SaveEachParameter.java
      - tsml
        transformers
        PCA.java
        shapelet_tools
        OrderLineObj.java
        search_functions
        ShapeletSearch.java
        ShapeletSearchFactory.java
        aaron_search
        RefinedRandomSearch.java
        MagnifySearch.java
        SkippingSearch.java
        SkewedRandomSearch.java
        SubsampleRandomSearch.java
        FastShapeletSearch.java
        BayesianOptimisedSearch.java
        ImprovedRandomSearch.java
        RandomSearch.java
        TabuSearch.java
        LocalSearch.java
        RandomTimedSearch.java
        GeneticSearch.java
        RandomSearch.java
        ShapeletSearchOptions.java
        class_value
        NormalClassValue.java
        BinaryClassValue.java
        DefaultShapeletOptions.java
        Shapelet.java
        ShapeletTransformTimingUtilities.java
        quality_measures
        FStat.java
        ShapeletQuality.java
        KruskalWallis.java
        InformationGainBound.java
        MoodsMedian.java
        MoodsMedianBound.java
        InformationGain.java
        ShapeletQualityMeasure.java
        KruskalWallisBound.java
        FStatBound.java
        ShapeletQualityBound.java
        ShapeletTransformFactory.java
        ShapeletCandidate.java
        ShapeletTransformFactoryOptions.java
        distance_functions
        MultivariateDependentDistance.java
        MultivariateDistance.java
        DimensionDistance.java
        MultivariateIndependentDistance.java
        OnlineCachedShapeletDistance.java
        ShapeletDistance.java
        OnlineShapeletDistance.java
        ImprovedOnlineShapeletDistance.java
        CachedShapeletDistance.java
        ShapeletTransform.java
        Transformer.java
        clusterers
        TTC.java
        KShape.java
        DictClusterer.java
        AbstractTimeSeriesClusterer.java
        UnsupervisedShapelets.java
        examples
        TransformExamples.java
        DataSimulatorExamples.java
        SimulationExperiments.java
        ClassificationExamples.java
        ShapeletExamples.java
        classifiers
        TrainTimeContractable.java
        MultiThreadable.java
        EnhancedAbstractClassifier.java
        distance_based
        DD_DTW.java
        utils
        SysUtils.java
        classifier_building
        ClassifierBuilderFactory.java
        CompileTimeClassifierBuilderFactory.java
        iteration
        DefaultListIterator.java
        limited
        LimitedListIterator.java
        LimitedIterator.java
        LinearListIterator.java
        RandomListIterator.java
        RoundRobinListIterator.java
        checkpointing
        CheckpointUtils.java
        classifier_mixins
        Buildable.java
        Rebuildable.java
        BaseClassifier.java
        TestTimeable.java
        Parallelisable.java
        TrainEstimateable.java
        Copy.java
        stopwatch
        Stated.java
        StopWatchTrainTimeable.java
        StopWatch.java
        StrUtils.java
        params
        ParamHandler.java
        ParamSpace.java
        ParamSet.java
        ParamSetClassifierIterator.java
        collections
        DefaultList.java
        PrunedMultiset.java
        Utils.java
        box
        ImmutableBox.java
        Box.java
        BestN.java
        PrunedMultimap.java
        IntListView.java
        DefaultIterator.java
        DefaultMultiset.java
        DecoratedMultimap.java
        cache
        CachedFunction.java
        SymmetricCache.java
        Cache.java
        random
        RandomUtils.java
        MemoryWatchable.java
        logging
        Debugable.java
        Loggable.java
        LogUtils.java
        checks
        NotNull.java
        Nullable.java
        memory
        MemoryWatcher.java
        GcMemoryWatchable.java
        ProximityForestWrapper.java
        DTD_C.java
        NN_CID.java
        FastElasticEnsemble.java
        tuned
        Ensembler.java
        RLTunedClassifier.java
        Agent.java
        distances
        DistanceMeasureable.java
        twe
        TWEDistance.java
        lcss
        LCSSDistance.java
        wddtw
        WDDTWDistance.java
        erp
        ERPDistance.java
        wdtw
        WDTWDistance.java
        WDTW.java
        DistanceMeasureConfigs.java
        BaseDistanceMeasure.java
        transformed
        TransformDistanceMeasureable.java
        TransformDistanceMeasure.java
        TransformedDistanceMeasureable.java
        TransformedDistanceMeasure.java
        dtw
        DTWDistance.java
        DTW.java
        msm
        MSMDistance.java
        ddtw
        DDTWDistance.java
        SlowDTW_1NN.java
        DTW_kNN.java
        elastic_ensemble
        ElasticEnsemble.java
        ElasticEnsemble.java
        knn
        neighbour_iteration
        RandomNeighbourIteratorBuilder.java
        LinearNeighbourIteratorBuilder.java
        strategies
        RLTunedKNNSetup.java
        KNN.java
        KNNLOOCV.java
        FastDTW.java
        ApproxElasticEnsemble.java
        DTWCV.java
        TestTimeContractable.java
        TrainEstimateTimeable.java
        frequency_based
        RISE.java
        ParameterSplittable.java
        TrainTimeable.java
        SaveParameterInfo.java
        MemoryContractable.java
        Visualisable.java
        hybrids
        HIVE_COTE.java
        TSCHIEFWrapper.java
        interval_based
        TSBF.java
        TSF.java
        LPS.java
        Tuneable.java
        legacy
        RISE.java
        SubSampleTrainer.java
        COTE
        HiveCote.java
        FlatCote.java
        cote
        HiveCotePostProcessed.java
        AbstractPostProcessedCote.java
        ShapeletTransformClassifierLegacy.java
        elastic_ensemble
        DTW1NN.java
        fast_window_search
        items
        ExperimentsLauncher.java
        MonoItemSet.java
        DTWResult.java
        MonoDoubleItemSet.java
        Itemset.java
        LazyAssessNNEarlyAbandon.java
        LazyAssessNN.java
        SequenceStatsCache.java
        experiments
        UCR_LbKeoghPrunedDTW.java
        UCR_Trillion.java
        ScalabilityExperiment.java
        UCR_LbKeogh.java
        UCR_NaiveDTW.java
        UCR_FastWWS.java
        UCR_UCRSuitePrunedDTW.java
        UCR_UCRSuite.java
        UCR_FastWWSPrunedDTW.java
        windowSearcher
        UCRSuite.java
        LbKeoghPrunedDTW.java
        Trillion.java
        UCRSuitePrunedDTW.java
        FastWWSByPercent.java
        FastWWSPrunedDTW.java
        FastWWS.java
        WindowSearcher.java
        NaiveDTW.java
        sequences
        SymbolicSequence.java
        IndexScored.java
        tools
        UCRArchive.java
        UCR2CSV.java
        Tools.java
        Sampling.java
        QuickSort.java
        TWE1NN.java
        fast_elastic_ensemble
        CandidateNN.java
        utils
        GenericTools.java
        IndexedDouble.java
        SequenceStatsCache.java
        WarpingPathResults.java
        lowerBounds
        LbMsm.java
        LbWdtw.java
        LbErp.java
        LbTwed.java
        LbKeogh.java
        LbLcss.java
        LbYi.java
        LbKim.java
        LbImproved.java
        LbEnhanced.java
        assessingNN
        LazyAssessNN_MSM.java
        LazyAssessNN_TWED.java
        LazyAssessNN_ERP.java
        LazyAssessNN_DTW.java
        LazyAssessNN_LCSS.java
        LazyAssessNN_WDTW.java
        LazyAssessNN.java
        LCSS1NN.java
        WDTW1NN.java
        ED1NN.java
        Efficient1NN.java
        DTWKNN.java
        ElasticEnsembleClusterDistributer.java
        MSM1NN.java
        distance_functions
        DTW_DistanceBasic.java
        ERPDistance.java
        DTW_D.java
        EuclideanDistance_I.java
        PiecewiseDTW.java
        DTW.java
        EuclideanDistance_D.java
        LCSSDistance.java
        TAA.java
        SakoeChibaDTW.java
        TWEDistance.java
        BasicDTW.java
        WeightedDTW.java
        MSMDistance.java
        DTW_DistanceEfficient.java
        DTW_I.java
        ERP1NN.java
        dictionary_based
        IndividualBOSS.java
        SAX_1NN.java
        SpatialBOSS.java
        WEASEL.java
        SAXVSM.java
        bitword
        BitWordLong.java
        BitWordInt.java
        BagOfPatterns.java
        boss_variants
        BOSSSpatialPyramids_BD.java
        BOSSC45.java
        BoTSWEnsemble.java
        cBOSS.java
        BOSS.java
        Checkpointable.java
        multivariate
        IndependentDimensionEnsemble.java
        MultivariateShapeletTransformClassifier.java
        ConcatenateClassifier.java
        NN_DTW_D.java
        MultivariateAbstractClassifier.java
        NN_DTW_I.java
        NN_ED_D.java
        NN_ED_I.java
        NN_DTW_A.java
        shapelet_based
        FastShapelets.java
        ShapeletTransformClassifier.java
        LearnShapelets.java
        ShapeletTree.java
        filters
        NormalizeAttribute.java
        BagOfPatterns.java
        PACF.java
        Sine.java
        SAX.java
        ARMA.java
        Clipping.java
        PAA.java
        Cosine.java
        Utilities.java
        PowerCepstrum.java
        RankOrder.java
        FFT.java
        PowerSpectrum.java
        AudioFeatures.java
        RunLength.java
        Spectrogram.java
        shapelet_filters
        old_code
        ApproximateShapeletFilter.java
        ClusteredShapeletTransform.java
        GraceShapeletFilter.java
        ShapeletFilter.java
        cShapeletFilter.java
        BalancedClassShapeletFilter.java
        Fast_FFT.java
        Hilbert.java
        BinaryTransform.java
        NormalizeCase.java
        SummaryStats.java
        HashFilter.java
        MFCC.java
        ACF.java
        CachedFilter.java
        Derivative.java
        MatrixProfile.java
        Differences.java
        ACF_PACF.java
      - weka
        clusterers
        DBScan.java
        SimpleKMeans.java
        EM.java
        AbstractDensityBasedClusterer.java
        NumberOfClustersRequestable.java
        CLOPE.java
        SingleClustererEnhancer.java
        Clusterer.java
        forOPTICSAndDBScan
        DataObjects
        EuclidianDataObject.java
        ManhattanDataObject.java
        DataObject.java
        Databases
        SequentialDatabase.java
        Database.java
        Utils
        UpdateQueueElement.java
        UpdateQueue.java
        EpsilonRange_ListElement.java
        PriorityQueueElement.java
        PriorityQueue.java
        OPTICS_GUI
        SERObject.java
        GraphPanel.java
        SERFileFilter.java
        Graphics
        Parameters16.gif
        Graph16.gif
        Information16.gif
        Save16.gif
        Table16.gif
        Open16.gif
        Help16.gif
        ResultVectorTableModel.java
        RandomizableClusterer.java
        AbstractClusterer.java
        XMeans.java
        RandomizableSingleClustererEnhancer.java
        RandomizableDensityBasedClusterer.java
        HierarchicalClusterer.java
        CheckClusterer.java
        MakeDensityBasedClusterer.java
        FilteredClusterer.java
        ClusterEvaluation.java
        FarthestFirst.java
        UpdateableClusterer.java
        Cobweb.java
        DensityBasedClusterer.java
        sIB.java
        estimators
        KKConditionalEstimator.java
        UnivariateKernelEstimator.java
        MultivariateGaussianEstimator.java
        ConditionalEstimator.java
        MultivariateEstimator.java
        DNConditionalEstimator.java
        UnivariateNormalEstimator.java
        DDConditionalEstimator.java
        IncrementalEstimator.java
        PoissonEstimator.java
        NNConditionalEstimator.java
        MahalanobisEstimator.java
        DiscreteEstimator.java
        CheckEstimator.java
        UnivariateDensityEstimator.java
        UnivariateQuantileEstimator.java
        DKConditionalEstimator.java
        UnivariateIntervalEstimator.java
        NormalEstimator.java
        EstimatorUtils.java
        UnivariateEqualFrequencyHistogramEstimator.java
        KernelEstimator.java
        KDConditionalEstimator.java
        Estimator.java
        NDConditionalEstimator.java
        classifiers
        ParallelMultipleClassifiersCombiner.java
        xml
        XMLClassifier.java
        lazy
        RSC.java
        AttributeFilterBridge.java
        kstar
        KStarConstants.java
        KStarCache.java
        KStarNominalAttribute.java
        KStarWrapper.java
        KStarNumericAttribute.java
        IB1.java
        IBk.java
        LBR.java
        LWL.java
        KStar.java
        AbstractClassifier.java
        trees
        RandomTree.java
        DecisionStump.java
        FT.java
        HoeffdingTree.java
        lmt
        LMTNode.java
        ResidualModelSelection.java
        LogisticBase.java
        ResidualSplit.java
        REPTree.java
        ADTree.java
        J48.java
        RandomForest.java
        j48
        NBTreeSplit.java
        InfoGainSplitCrit.java
        BinC45Split.java
        C45Split.java
        ClassifierSplitModel.java
        NoSplit.java
        NBTreeClassifierTree.java
        C45ModelSelection.java
        ModelSelection.java
        EntropyBasedSplitCrit.java
        PruneableClassifierTree.java
        GainRatioSplitCrit.java
        C45PruneableClassifierTree.java
        GraftSplit.java
        ClassifierTree.java
        NBTreeNoSplit.java
        Stats.java
        BinC45ModelSelection.java
        Distribution.java
        SplitCriterion.java
        EntropySplitCrit.java
        NBTreeModelSelection.java
        C45PruneableClassifierTreeG.java
        Id3.java
        LMT.java
        J48graft.java
        BFTree.java
        NBTree.java
        ft
        FTLeavesNode.java
        FTtree.java
        FTInnerNode.java
        FTNode.java
        SimpleCart.java
        LADTree.java
        adtree
        TwoWayNominalSplit.java
        ReferenceInstances.java
        PredictionNode.java
        Splitter.java
        TwoWayNumericSplit.java
        m5
        YongSplitInfo.java
        Impurity.java
        Rule.java
        PreConstructedLinearModel.java
        Values.java
        SplitEvaluate.java
        M5Base.java
        CorrelationSplitInfo.java
        RuleNode.java
        M5P.java
        ht
        ConditionalSufficientStats.java
        InfoGainSplitMetric.java
        ActiveHNode.java
        SplitNode.java
        GaussianConditionalSufficientStats.java
        GiniSplitMetric.java
        LearningNode.java
        SplitMetric.java
        UnivariateNumericBinarySplit.java
        NBNodeAdaptive.java
        LeafNode.java
        HNode.java
        UnivariateNominalMultiwaySplit.java
        NBNode.java
        SplitCandidate.java
        InactiveHNode.java
        Split.java
        NominalConditionalSufficientStats.java
        WeightMass.java
        functions
        SMOreg.java
        GaussianProcesses.java
        SMO.java
        RBFNetwork.java
        LinearRegression.java
        pace
        PaceMatrix.java
        ChisqMixture.java
        MixtureDistribution.java
        DiscreteFunction.java
        NormalMixture.java
        SimpleLogistic.java
        PaceRegression.java
        supportVector
        PrecomputedKernelMatrixKernel.java
        Kernel.java
        RegOptimizer.java
        SMOset.java
        NormalizedPolyKernel.java
        CachedKernel.java
        CheckKernel.java
        RegSMOImproved.java
        RBFKernel.java
        KernelEvaluation.java
        StringKernel.java
        PolyKernel.java
        Puk.java
        RegSMO.java
        LibLINEAR.java
        SPegasos.java
        LeastMedSq.java
        neural
        NeuralMethod.java
        NeuralNode.java
        LinearUnit.java
        SigmoidUnit.java
        NeuralConnection.java
        IsotonicRegression.java
        SimpleLinearRegression.java
        Logistic.java
        MultilayerPerceptron.java
        SGD.java
        PLSClassifier.java
        VotedPerceptron.java
        Winnow.java
        LibSVM.java
        RandomizableParallelIteratedSingleClassifierEnhancer.java
        RandomizableClassifier.java
        IterativeClassifier.java
        Classifier.java
        BVDecompose.java
        bayes
        NaiveBayes.java
        ComplementNaiveBayes.java
        HNB.java
        NaiveBayesMultinomialUpdateable.java
        AODE.java
        BayesianLogisticRegression.java
        BayesNet.java
        net
        icons
        BIFReader.java
        VaryNode.java
        ADNode.java
        estimate
        BayesNetEstimator.java
        DiscreteEstimatorBayes.java
        SimpleEstimator.java
        DiscreteEstimatorFullBayes.java
        MultiNomialBMAEstimator.java
        BMAEstimator.java
        search
        global
        GlobalScoreSearchAlgorithm.java
        SimulatedAnnealing.java
        K2.java
        TAN.java
        RepeatedHillClimber.java
        HillClimber.java
        TabuSearch.java
        GeneticSearch.java
        SearchAlgorithm.java
        fixed
        NaiveBayes.java
        FromFile.java
        local
        LocalScoreSearchAlgorithm.java
        SimulatedAnnealing.java
        LAGDHillClimber.java
        Scoreable.java
        K2.java
        TAN.java
        RepeatedHillClimber.java
        HillClimber.java
        TabuSearch.java
        GeneticSearch.java
        ci
        ICSSearchAlgorithm.java
        CISearchAlgorithm.java
        ParentSet.java
        BayesNetGenerator.java
        EditableBayesNet.java
        MarginCalculator.java
        NaiveBayesMultinomial.java
        NaiveBayesSimple.java
        AODEsr.java
        DMNBtext.java
        blr
        LaplacePriorImpl.java
        GaussianPriorImpl.java
        Prior.java
        WAODE.java
        NaiveBayesUpdateable.java
        Sourcable.java
        CostMatrix.java
        IntervalEstimator.java
        UpdateableClassifier.java
        RandomizableIteratedSingleClassifierEnhancer.java
        ParallelIteratedSingleClassifierEnhancer.java
        ConditionalDensityEstimator.java
        misc
        SerializedClassifier.java
        InputMappedClassifier.java
        VFI.java
        HyperPipes.java
        RandomizableSingleClassifierEnhancer.java
        evaluation
        EvaluationUtils.java
        AbstractEvaluationMetric.java
        IntervalBasedEvaluationMetric.java
        InformationTheoreticEvaluationMetric.java
        MarginCurve.java
        NumericPrediction.java
        output
        prediction
        HTML.java
        Null.java
        AbstractOutput.java
        PlainText.java
        CSV.java
        XML.java
        TwoClassStats.java
        NominalPrediction.java
        StandardEvaluationMetric.java
        Evaluation.java
        ConfusionMatrix.java
        Prediction.java
        InformationRetrievalEvaluationMetric.java
        CostCurve.java
        PluginManager.java
        ThresholdCurve.java
        CheckSource.java
        mi
        MILR.java
        MIEMDD.java
        MIBoost.java
        MIOptimalBall.java
        MISMO.java
        MDD.java
        supportVector
        MIPolyKernel.java
        MIRBFKernel.java
        MIWrapper.java
        MINND.java
        SimpleMI.java
        MIDD.java
        MISVM.java
        CitationKNN.java
        RandomizableParallelMultipleClassifiersCombiner.java
        Evaluation.java
        IteratedSingleClassifierEnhancer.java
        rules
        RuleStats.java
        DecisionTableHashKey.java
        JRip.java
        Item.java
        OneR.java
        ConjunctiveRule.java
        M5Rules.java
        sortinghandler
        VectorSort.java
        MyRecordWriter.java
        testFileSort.java
        ComparatorParameterErrorException.java
        MyRecordComparator.java
        PolyphaseMergeSort.java
        MyRecord.java
        RecordWriter.java
        RecordCopyFile.java
        Record.java
        RecordReader.java
        RecordInformation.java
        BalancedMergeSort.java
        QuicksortVector.java
        Comparator.java
        FileSort.java
        MyRecordReader.java
        MyRecordInformation.java
        L3implementation.java
        Rule.java
        ZeroR.java
        Transaction.java
        NNge.java
        DTNB.java
        DecisionTable.java
        ruleshandler
        CItemEntry.java
        CClasse.java
        CItemCorpo.java
        CHeaderTable.java
        CMain.java
        CItemEq.java
        CItem.java
        CFrequentItem.java
        CChildPtr.java
        CFpNode.java
        CFptree.java
        CFrequentDistinct.java
        CMacroItem.java
        Ridor.java
        Prism.java
        RuleL3.java
        Lazy_Pruning.java
        BinaryFile.java
        PART.java
        part
        C45PruneableDecList.java
        MakeDecList.java
        PruneableDecList.java
        ClassifierDecList.java
        Classify_Test.java
        MultipleClassifiersCombiner.java
        SingleClassifierEnhancer.java
        BVDecomposeSegCVSub.java
        meta
        MultiBoostAB.java
        StackingC.java
        FilteredClassifier.java
        Decorate.java
        Stacking.java
        RacedIncrementalLogitBoost.java
        Bagging.java
        RegressionByDiscretization.java
        ThresholdSelector.java
        MultiScheme.java
        END.java
        Dagging.java
        OptimisedRotationForest.java
        OrdinalClassClassifier.java
        CostSensitiveClassifier.java
        MultiClassClassifierUpdateable.java
        MetaCost.java
        ClassificationViaClustering.java
        AdditiveRegression.java
        MultiClassClassifier.java
        ClassificationViaRegression.java
        Vote.java
        Grading.java
        RandomCommittee.java
        nestedDichotomies
        DataNearBalancedND.java
        ND.java
        ClassBalancedND.java
        LogitBoost.java
        AdaBoostM1.java
        AttributeSelectedClassifier.java
        RotationForest.java
        RandomSubSpace.java
        CVParameterSelection.java
        CheckClassifier.java
        RandomizableMultipleClassifiersCombiner.java
        datagenerators
        clusterers
        SubspaceClusterDefinition.java
        SubspaceCluster.java
        BIRCHCluster.java
        RegressionGenerator.java
        Test.java
        classifiers
        classification
        RDG1.java
        BayesNet.java
        Agrawal.java
        RandomRBF.java
        LED24.java
        regression
        Expression.java
        MexicanHat.java
        ClusterDefinition.java
        ClassificationGenerator.java
        DataGenerator.java
        ClusterGenerator.java
        attributeSelection
        AttributeSelection.java
        CostSensitiveASEvaluation.java
        FilteredSubsetEval.java
        RankSearch.java
        ErrorBasedMeritEvaluator.java
        FilteredAttributeEval.java
        CorrelationAttributeEval.java
        StartSetHandler.java
        CostSensitiveSubsetEval.java
        RankedOutputSearch.java
        ClassifierSubsetEval.java
        HoldOutSubsetEvaluator.java
        CheckAttributeSelection.java
        Ranker.java
        ChiSquaredAttributeEval.java
        GainRatioAttributeEval.java
        ScatterSearchV1.java
        AttributeSetEvaluator.java
        WrapperSubsetEval.java
        CfsSubsetEval.java
        PrincipalComponents.java
        SubsetEvaluator.java
        SVMAttributeEval.java
        LinearForwardSelection.java
        ConsistencySubsetEval.java
        BestFirst.java
        AttributeEvaluator.java
        ReliefFAttributeEval.java
        InfoGainAttributeEval.java
        UnsupervisedAttributeEvaluator.java
        GreedyStepwise.java
        AttributeTransformer.java
        LFSMethods.java
        ASSearch.java
        RaceSearch.java
        OneRAttributeEval.java
        SubsetSizeForwardSelection.java
        CostSensitiveAttributeEval.java
        RandomSearch.java
        LatentSemanticAnalysis.java
        ASEvaluation.java
        SymmetricalUncertAttributeEval.java
        ExhaustiveSearch.java
        GeneticSearch.java
        UnsupervisedSubsetEvaluator.java
        filters
        MultiFilter.java
        SupervisedFilter.java
        AllFilter.java
        Filter.java
        Sourcable.java
        SimpleBatchFilter.java
        NullFilter.java
        supervised
        instance
        StratifiedRemoveFolds.java
        Resample.java
        SMOTE.java
        SpreadSubsample.java
        attribute
        AttributeSelection.java
        MergeNominalValues.java
        NominalToBinary.java
        AddClassification.java
        PLSFilter.java
        Discretize.java
        PartitionMembership.java
        ClassOrder.java
        UnsupervisedFilter.java
        StreamableFilter.java
        CheckSource.java
        SimpleFilter.java
        SimpleStreamFilter.java
        unsupervised
        instance
        NonSparseToSparse.java
        Normalize.java
        RemoveFrequentValues.java
        RemoveWithValues.java
        SparseToNonSparse.java
        Randomize.java
        RemoveRange.java
        RemovePercentage.java
        RemoveMisclassified.java
        RemoveFolds.java
        Resample.java
        ReservoirSample.java
        attribute
        RenameAttribute.java
        Normalize.java
        RemoveUseless.java
        SortLabels.java
        SwapValues.java
        MergeInfrequentNominalValues.java
        RemoveByName.java
        InterquartileRange.java
        Add.java
        PropositionalToMultiInstance.java
        ReplaceMissingValues.java
        NominalToBinary.java
        ClassAssigner.java
        NumericToBinary.java
        NumericCleaner.java
        TimeSeriesDelta.java
        NominalToString.java
        NumericToNominal.java
        RandomSubset.java
        PrincipalComponents.java
        RemoveType.java
        AddCluster.java
        AddUserFields.java
        MultiInstanceToPropositional.java
        Obfuscate.java
        StringToNominal.java
        ClusterMembership.java
        AddNoise.java
        MergeManyValues.java
        PotentialClassIgnorer.java
        Copy.java
        AddValues.java
        Discretize.java
        Center.java
        Wavelet.java
        ReplaceMissingWithUserConstant.java
        RELAGGS.java
        MergeTwoValues.java
        AddID.java
        FirstOrder.java
        RandomProjection.java
        Remove.java
        PartitionedMultiFilter.java
        AddExpression.java
        ChangeDateFormat.java
        TimeSeriesTranslate.java
        Standardize.java
        AbstractTimeSeries.java
        NumericTransform.java
        MakeIndicator.java
        Reorder.java
        PKIDiscretize.java
        associations
        FilteredAssociator.java
        LabeledItemSet.java
        GeneralizedSequentialPatterns.java
        PriorEstimation.java
        Item.java
        FPGrowth.java
        FilteredAssociationRules.java
        BinaryItem.java
        NominalItem.java
        DefaultAssociationRule.java
        RuleItem.java
        AprioriItemSet.java
        gsp
        Sequence.java
        Element.java
        SingleAssociatorEnhancer.java
        ItemSet.java
        AssociatorEvaluation.java
        Associator.java
        AssociationRule.java
        Apriori.java
        AssociationRulesProducer.java
        CARuleMiner.java
        PredictiveApriori.java
        RuleGeneration.java
        AssociationRules.java
        NumericItem.java
        CaRuleGeneration.java
        AbstractAssociator.java
        CheckAssociator.java
        core
        xml
        XMLInstances.java
        XMLSerializationMethodHandler.java
        PropertyHandler.java
        XStream.java
        XMLDocument.java
        SerialUIDChanger.java
        XMLOptions.java
        XMLBasicSerialization.java
        KOML.java
        MethodHandler.java
        XMLSerialization.java
        scripting
        JythonSerializableObject.java
        JythonObject.java
        Groovy.java
        Jython.java
        Tee.java
        ConjugateGradientOptimization.java
        SingleIndex.java
        version.txt
        AttributeLocator.java
        TestInstances.java
        StringLocator.java
        Undoable.java
        DistanceFunction.java
        WeightedInstancesHandler.java
        JythonSerializableObject.java
        Check.java
        Aggregateable.java
        AbstractStringDistanceFunction.java
        BinarySparseInstance.java
        ListOptions.java
        ContingencyTables.java
        PairedStats.java
        TechnicalInformationHandler.java
        DenseInstance.java
        Trie.java
        CapabilitiesHandler.java
        JythonObject.java
        RepositoryIndexGenerator.java
        OptionHandler.java
        ClassDiscovery.java
        Copyright.props
        Instances.java
        Matchable.java
        AdditionalMeasureProducer.java
        Utils.java
        Capabilities.props
        CustomDisplayStringProvider.java
        Copyable.java
        AttributeExpression.java
        FastVector.java
        EuclideanDistance.java
        CommandlineRunnable.java
        MultiInstanceCapabilitiesHandler.java
        NoSupportForMissingValuesException.java
        SerializationHelper.java
        TechnicalInformation.java
        CheckOptionHandler.java
        Summarizable.java
        EnvironmentHandler.java
        Optimization.java
        Debug.java
        ThreadSafe.java
        Memory.java
        Queue.java
        PartitionGenerator.java
        Attribute.java
        SpecialFunctions.java
        EditDistance.java
        CheckScheme.java
        Environment.java
        ChebyshevDistance.java
        UnassignedDatasetException.java
        converters
        BatchConverter.java
        TextDirectoryLoader.java
        AbstractLoader.java
        C45Loader.java
        XRFFLoader.java
        LibSVMLoader.java
        ArffLoader.java
        LibSVMSaver.java
        XRFFSaver.java
        ConverterUtils.java
        AbstractSaver.java
        ArffSaver.java
        SerializedInstancesSaver.java
        C45Saver.java
        Saver.java
        URLSourcedLoader.java
        FileSourcedConverter.java
        SVMLightLoader.java
        CSVSaver.java
        SerializedInstancesLoader.java
        StreamTokenizerUtils.java
        AbstractFileSaver.java
        MatlabSaver.java
        IncrementalConverter.java
        SVMLightSaver.java
        AbstractFileLoader.java
        Loader.java
        CSVLoader.java
        MatlabLoader.java
        RevisionUtils.java
        WekaEnumeration.java
        UnassignedClassException.java
        ManhattanDistance.java
        RandomVariates.java
        Copyright.java
        PropertyPath.java
        Stats.java
        Matrix.java
        UnsupportedAttributeTypeException.java
        Option.java
        OptionHandlerJavadoc.java
        AlgVector.java
        AllJavadoc.java
        WekaException.java
        Stopwords.java
        MinkowskiDistance.java
        Version.java
        TechnicalInformationHandlerJavadoc.java
        tokenizers
        Tokenizer.java
        NGramTokenizer.java
        CharacterDelimitedTokenizer.java
        AlphabeticTokenizer.java
        WordTokenizer.java
        Tag.java
        Range.java
        ProtectedProperties.java
        ClassloaderUtil.java
        Randomizable.java
        Javadoc.java
        AbstractInstance.java
        RevisionHandler.java
        AttributeStats.java
        UnsupportedClassTypeException.java
        Statistics.java
        matrix
        CholeskyDecomposition.java
        LUDecomposition.java
        LinearRegression.java
        IntVector.java
        ExponentialFormat.java
        DoubleVector.java
        EigenvalueDecomposition.java
        FloatingPointFormat.java
        FlexibleDecimalFormat.java
        Matrix.java
        SingularValueDecomposition.java
        Maths.java
        QRDecomposition.java
        spectral_distance_functions
        LikelihoodRatioDistance.java
        KullbackLeiberDistance.java
        LogNormalisedDistance.java
        Jython.java
        NormalizableDistance.java
        RelationalLocator.java
        Instance.java
        InstanceComparator.java
        GowerDistance.java
        SparseInstance.java
        Drawable.java
        GlobalInfoJavadoc.java
        ClassCache.java
        SelectedTag.java
        SerializedObject.java
        CheckGOE.java
        Capabilities.java
        logging
        FileLogger.java
        Logging.props
        OutputLogger.java
        Logger.java
        ConsoleLogger.java
        neighboursearch
        BallTree.java
        CoverTree.java
        NearestNeighbourSearch.java
        TreePerformanceStats.java
        covertrees
        Stack.java
        PerformanceStats.java
        KDTree.java
        balltrees
        BallNode.java
        BallSplitter.java
        MiddleOutConstructor.java
        PointsClosestToFurthestChildren.java
        BottomUpConstructor.java
        TopDownConstructor.java
        MedianOfWidestDimension.java
        BallTreeConstructor.java
        MedianDistanceFromArbitraryPoint.java
        LinearNNSearch.java
        kdtrees
        SlidingMidPointOfWidestSide.java
        KDTreeNodeSplitter.java
        KDTreeNode.java
        MedianOfWidestDimension.java
        KMeansInpiredMethod.java
        MidPointOfWidestDimension.java
        BatchPredictor.java
      - examples
        Ex03_BasicEvaluation.java
        Ex05_ThoroughEvaluation.java
        BasicExamples.java
        Ex02_Classifiers.java
        Ex04_ThoroughExperiments.java
        Ex01_Datahandling.java
        EX07_HIVE_COTE_Examples.java
        Ex06_Clusterers.java
      - evaluation
        tuning
        ParameterSet.java
        searchers
        ParameterSearcher.java
        RandomSearcher.java
        GridSearcher.java
        ParameterSpace.java
        ParameterResults.java
        Tuner.java
        ROCDiagramMaker.java
        MultipleClassifiersPairwiseTest.java
        storage
        ClassifierResults.java
        ClassifierResultsCollection.java
        ClassifierResultsAnalysis.java
        evaluators
        SingleSampleEvaluator.java
        CrossValidationEvaluator.java
        Evaluator.java
        InternalEstimateEvaluator.java
        SamplingEvaluator.java
        SingleTestSetEvaluator.java
        StratifiedResamplesEvaluator.java
        MultiSamplingEvaluator.java
        PerformanceMetric.java
        MultipleClassifierEvaluation.java
      - experiments
        TransformLists.java
        TransformExperiments.java
        Experiments.java
        BasicReproductionTests.java
        BasicBuildTests.java
        reproductions
        FastDTW_1NN.csv
        LPS.csv
        kNN.csv
        LearnShapelets.csv
        WEASEL.csv
        ProximityForestWrapper.csv
        FastShapelets.csv
        BagOfPatterns.csv
        SlowDTW_1NN.csv
        CAWPE.csv
        TSF.csv
        DTWCV.csv
        SMLR.csv
        SAXVSM.csv
        PLSNominalClassifier.csv
        cBOSS.csv
        CollateResults.java
        ClassifierLists.java
        SimulationExperiments.java
        data
        MultivariateProcessing.java
        DatasetLists.java
        mtsc
        BasicMotions
        DatasetLoading.java
        tsc
        ItalyPowerDemand
        ItalyPowerDemand_TRAIN.arff
        Beef
        Beef_TRAIN.arff
        Beef_TEST.arff
        GunPoint
        GunPoint_TRAIN.arff
        Chinatown
        Chinatown_TRAIN.arff
        Chinatown_TEST.arff
        DataProcessing.java
        uci
        teaching
        teaching.arff
        iris
        iris.arff
        hayes-roth
        hayes-roth.arff
        MemoryMonitor.java
      - utilities
        rescalers
        SeriesRescaler.java
        ZNormalisation.java
        ZStandardisation.java
        NoRescaling.java
        ArrayUtilities.java
        DebugPrinting.java
        WritableTestResults.java
        GenericTools.java
        ClassifierTools.java
        ClusteringUtilities.java
        ThreadingUtilities.java
        InstanceTools.java
        FileHandlingTools.java
        FoldCreator.java
        stopwatch
        StopWatchTest.java
        generic_storage
        ComparableKeyPair.java
        ComparablePair.java
        Triple.java
        SerialisableComparablePair.java
        Pair.java
        Utilities.java
        FileUtils.java
        Timer.java
        class_counts
        ClassCounts.java
        TreeSetClassCounts.java
        SimpleClassCounts.java
        NumUtils.java
        StatisticalUtilities.java
        ErrorReport.java
        numericalmethods
        NelderMead.java
        NumericalFunction.java
        TriFunction.java
        multivariate_tools
        MultivariateInstanceTools.java
        samplers
        RandomRoundRobinSampler.java
        Sampler.java
        RandomStratifiedSampler.java
        RandomIndexSampler.java
        RandomRoundRobinIndexSampler.java
        RandomStratifiedIndexSampler.java
        RandomSampler.java
- gradle.properties
- gradle
  - wrapper
    - gradle-wrapper.properties
- _config.yml
- gradlew.bat
- LICENSE
- gradlew
- lib
  - lib
- README.rst
- build.gradle
- .travis.yml
- settings.gradle
- .gitignore
- docs
  - Dependency Map.xlsx
  - index.html

/*
 Copyright (c) 2014 by Contributors

 Licensed under the Apache License, Version 2.0 (the "License");
 you may not use this file except in compliance with the License.
 You may obtain a copy of the License at
 http://www.apache.org/licenses/LICENSE-2.0
 Unless required by applicable law or agreed to in writing, software
 distributed under the License is distributed on an "AS IS" BASIS,
 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License.
 */
package machine_learning.classifiers.tuned;

import evaluation.evaluators.CrossValidationEvaluator;
import evaluation.storage.ClassifierResults;
import fileIO.OutFile;
import java.io.File;
import java.util.ArrayList;
import java.util.HashMap;

import ml.dmlc.xgboost4j.java.Booster;
import ml.dmlc.xgboost4j.java.DMatrix;
import ml.dmlc.xgboost4j.java.XGBoost;
import ml.dmlc.xgboost4j.java.XGBoostError;
import tsml.classifiers.ParameterSplittable;
import utilities.DebugPrinting;
import weka.classifiers.AbstractClassifier;
import weka.core.Instance;
import weka.core.Instances;
import experiments.CollateResults;
import experiments.data.DatasetLists;
import experiments.Experiments;
import java.util.Arrays;
import java.util.Collections;
import java.util.concurrent.TimeUnit;
import tsml.classifiers.EnhancedAbstractClassifier;
import tsml.classifiers.SaveParameterInfo;
import machine_learning.classifiers.SaveEachParameter;


/**
 * Original code repo, around which this class wraps: https://github.com/dmlc/xgboost
 * Paper: 
        @inproceedings{chen2016xgboost,
         title={Xgboost: A scalable tree boosting system},
         author={Chen, Tianqi and Guestrin, Carlos},
         booktitle={Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining},
         pages={785--794},
         year={2016},
         organization={ACM}
       }
 * 
 * Wrapping around the public xgboost API for multiclass classification, with automatic grid search parameter tuning 
 * as an option. Would search over the learning rate, num iterations, max tree depth, and min child weighting.
 * 
 * TODOS:
 * - Thorough testing of the tuning checkpointing/para splitting for evaluation
 * - Potentially tweaking the para spaces depending on observed behaviour
 * - Any extra software engineering-type things required
 * - Look for speedups, esp early abandons on grid search with num iters
 * 
 * @author James Large ([email protected])
 */
public class TunedXGBoost extends EnhancedAbstractClassifier implements SaveParameterInfo, DebugPrinting, SaveEachParameter, ParameterSplittable {

    //data info
    int numTrainInsts = -1;
    int numAtts = -1;
    int numClasses = -1;
    Instances trainInsts = null;
    DMatrix trainDMat = null;

    //model
    HashMap<String, DMatrix> watches = null;
    HashMap<String, Object> params = null;
    Booster booster = null;

    //hyperparameters - fixed
    float rowSubsampling = 0.8f; //aka rowSubsampling
    float colSubsampling = 0.8f; //aka colsample_bytree
    int minChildWeight = 1; //aka min_child_weight. NO LONGER TUNABLE, LEFT AS DEFAULT ( 1 ), on advice from rotf paper reviewer

    //old parameters
//    //hyperparameter settings informed by a mix of these, but also restricted in certain situations
//    //to bring in line with the amount of tuning provided to other classifiers for fairness.
//    //subject to change
//    //      https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
//    //      https://www.slideshare.net/odsc/owen-zhangopen-sourcetoolsanddscompetitions1 (slide 12)
//    //      https://cambridgespark.com/content/tutorials/hyperparameter-tuning-in-xgboost/index.html
//    //hyperparameters - tunable through cv (6*5*5*7 = 1050 possible paras)
//    float learningRate = 0.1f; //aka eta
//    static float[] learningRateParaRange = { 0.001f, 0.01f, 0.05f, 0.1f, 0.2f, 0.3f };
//    int maxTreeDepth = 4; //aka max_depth
//    static int[] maxTreeDepthParaRange = { 2,4,6,8,10 };
//    int minChildWeight = 1; //aka min_child_weight
//    static int[] minChildWeightParaRange = { 1,3,5,7,9 };
//    int numIterations = 500; //aka rounds
//    static int[] numIterationsParaRange = { 50, 100, 250, 500, 1000, 1500, 2000 };

    //new parameters, on advice from rotf paper reviewer
    float learningRate = 0.1f; //aka eta
//    static float[] learningRateParaRange = { 0.01f, 0.1f, 0.2f };
    static float[] learningRateParaRange = { 0.00001f, 0.0001f, 0.001f, 0.01f, 0.05f, 0.1f, 0.15f, 0.2f, 0.25f, 0.3f };
    int maxTreeDepth = 4; //aka max_depth
//    static int[] maxTreeDepthParaRange = { 1,3,5 };
    static int[] maxTreeDepthParaRange = { 1,2,3,4,5,6,7,8,9,10 };
    int numIterations = 500; //aka rounds
//    static int[] numIterationsParaRange = { 10, 25, 50};
    static int[] numIterationsParaRange = { 10, 25, 50, 100, 250, 500, 750, 1000, 1250, 1500 };

    //tuning/cv/jobsplitting
    int cvFolds = 10;
    boolean tuneParameters=false;
    protected String resultsPath;
    protected boolean saveEachParaAcc=false;
    ArrayList<Double> paramAccuracies;
    private long combinedBuildTime;
    boolean runSingleThreaded = false;

    public TunedXGBoost() {
        super(CAN_ESTIMATE_OWN_PERFORMANCE);
    }

    public static void setDefaultParaSearchSpace_1000paras() { 
        learningRateParaRange = new float[] { 0.00001f, 0.0001f, 0.001f, 0.01f, 0.05f, 0.1f, 0.15f, 0.2f, 0.25f, 0.3f };
        maxTreeDepthParaRange = new int[] { 1,2,3,4,5,6,7,8,9,10 };
        numIterationsParaRange = new int[]  { 10, 25, 50, 100, 250, 500, 750, 1000, 1250, 1500 };
    }

    public static void setSmallParaSearchSpace_64paras() { 
        learningRateParaRange = new float[] { 0.001f, 0.01f, 0.1f, 0.2f };
        maxTreeDepthParaRange = new int[]  { 1,3,5,7 };
        numIterationsParaRange = new int[]  { 250, 500, 1000, 1500};
    }
    
    public boolean getTuneParameters() {
        return tuneParameters;
    }
    public void setTuneParameters(boolean tuneParameters) {
        this.tuneParameters = tuneParameters;
    }

    public float getLearningRate() {
        return learningRate;
    }
    public void setLearningRate(float learningRate) {
        this.learningRate = learningRate;
    }

    public int getMaxTreeDepth() {
        return maxTreeDepth;
    }
    public void setMaxTreeDepth(int maxTreeDepth) {
        this.maxTreeDepth = maxTreeDepth;
    }

    public int getMinChildWeight() {
        return minChildWeight;
    }
    public void setMinChildWeight(int minChildWeight) {
        this.minChildWeight = minChildWeight;
    }

    public int getNumIterations() {
        return numIterations;
    }
    public void setNumIterations(int numIterations) {
        this.numIterations = numIterations;
    }

    public boolean getRunSingleThreaded() {
        return runSingleThreaded;
    }

    public void setRunSingleThreaded(boolean runSingleThreaded) { 
        this.runSingleThreaded = runSingleThreaded;
    }


    //copied over/refactored from tunedsvm/randf/rotf
    public static class XGBoostParamResultsHolder implements Comparable<XGBoostParamResultsHolder> {
        float learningRate;
        int maxTreeDepth;
        int numIterations;
        int conservedness;
        ClassifierResults results;

        XGBoostParamResultsHolder(float learningRate, int maxTreeDepth, int numIterations,ClassifierResults r){
            this.learningRate=learningRate;
            this.maxTreeDepth=maxTreeDepth;
            this.numIterations=numIterations;

            conservedness = computeConservedness();
            results=r;
        }

        @Override
        public String toString() {
            return "learningRate="+learningRate+",maxTreeDepth="+maxTreeDepth+",numIterations="+numIterations+",conservedness="+conservedness+",acc="+results.getAcc();
        }

        /**
         * This values wants to be minimised, higher values = potentially more prone to overfitting
         */
        public int computeConservedness() {
            return (1 + Arrays.binarySearch(TunedXGBoost.learningRateParaRange, learningRate))
                * (1 + Arrays.binarySearch(TunedXGBoost.maxTreeDepthParaRange, maxTreeDepth))
                * (1 + Arrays.binarySearch(TunedXGBoost.numIterationsParaRange, numIterations));
        }

        /**
         * Implements a fairly naive way of determining if this param set is more conservative than the other,
         * based on the total 'ranking' of each of the param values within the 4 param spaces. 
         * 
         * Returns less than zero if this is LESS conservative than other (i.e this.computeConservedness() > other.computeConservedness())
         * Returns greater than zero if this is MORE conservative than other (i.e this.computeConservedness() < other.computeConservedness())
         * 
         * Therefore to find most conservative in list of params, use max();
         */
        @Override
        public int compareTo(XGBoostParamResultsHolder other) {
            return other.conservedness - this.conservedness;
        }
    }

    //copied over/refactored from vector_classifiers.tunedsvm/randf/rotf
    public void tuneHyperparameters() throws Exception {
        printlnDebug("tuneHyperparameters()");

        double minErr=1;
        paramAccuracies=new ArrayList<>();

        Instances trainCopy=new Instances(trainInsts);
        CrossValidationEvaluator cv = new CrossValidationEvaluator();
        cv.setSeed(seed);
        cv.setNumFolds(cvFolds);
        cv.buildFolds(trainCopy);
        ArrayList<XGBoostParamResultsHolder> ties=new ArrayList<>();
        ClassifierResults tempResults;
        int count=0;
        OutFile temp=null;
        for(float p1:learningRateParaRange){
            for(int p2:maxTreeDepthParaRange){
//                TuningXGBoostCrossValidationWrapper cvmodels = new TuningXGBoostCrossValidationWrapper(p1, p2);
//                cvmodels.setSeed(seed);

                for(int p4:numIterationsParaRange){
                    count++;
                    if(saveEachParaAcc){// check if para value already done
                        File f=new File(resultsPath+count+".csv");
                        if(f.exists()){
                            if(CollateResults.validateSingleFoldFile(resultsPath+count+".csv")==false){
                                System.out.println("Deleting file "+resultsPath+count+".csv because size ="+f.length());
                            }
                            else
                                continue;//If done, ignore skip this iteration                        
                        }
                    }
                    TunedXGBoost model = new TunedXGBoost();
                    model.setLearningRate(p1);
                    model.setMaxTreeDepth(p2);
                    model.setMinChildWeight(minChildWeight);
                    model.setNumIterations(p4);
                    model.tuneParameters=false;
                    model.setEstimateOwnPerformance(false);
                    model.setSeed(seed);
                    tempResults=cv.crossValidateWithStats(model,trainCopy);

//                    cvmodels.setNextNumIterations(p4);
//                    tempResults=cv.crossValidateWithStats(cvmodels,trainCopy);

                    tempResults.setClassifierName("XGBoostPara"+count);
                    tempResults.setParas("learningRate,"+p1+",maxTreeDepth,"+p2+",numIterations="+p4);

                    double e=1-tempResults.getAcc();
                    printlnDebug("learningRate="+p1+",maxTreeDepth"+p2+",numIterations="+p4+" Acc = "+(1-e));
                    paramAccuracies.add(tempResults.getAcc());
                    if(saveEachParaAcc){// Save to file and close
                        tempResults.writeFullResultsToFile(resultsPath+count+".csv");
                        
                        File f=new File(resultsPath+count+".csv");
                        if(f.exists())
                            f.setWritable(true, false);
                    }                
                    else{
                        if(e<minErr){
                            minErr=e;
                            ties=new ArrayList<>();//Remove previous ties
                            ties.add(new XGBoostParamResultsHolder(p1,p2,p4,tempResults));
                        }
                        else if(e==minErr)//Sort out ties
                            ties.add(new XGBoostParamResultsHolder(p1,p2,p4,tempResults));
                    }
                }
            }
        }

        minErr=1;
        if(saveEachParaAcc){
// Check they are all there first. 
            int missing=0;
            count=1;
            for(float p1:learningRateParaRange){
                for(int p2:maxTreeDepthParaRange){
                    for(int p4:numIterationsParaRange){
                        File f=new File(resultsPath+count+".csv");
                        if(!(f.exists() && f.length()>0))
                            missing++;
                        count++;
                    }
                }
            }

            if(missing==0)//All present
            {
                //rebuild the accuracies list
                //if we had checkpointing on, but managed to perform the tuning in a single execution,
                //this will be a waste of time (but functinoally makes no difference), however if we had 
                //to rerun multiple times or got here via para splitting, the list will be empty/incomplete,
                //so start from scratch and repopulate it
                paramAccuracies=new ArrayList<>();

                combinedBuildTime=0;
    //            If so, read them all from file, pick the best
                count=0;
                for(float p1:learningRateParaRange){
                    for(int p2:maxTreeDepthParaRange){
                        for(int p4:numIterationsParaRange){
                            count++;

                            tempResults = new ClassifierResults();
                            tempResults.loadResultsFromFile(resultsPath+count+".csv");

                            combinedBuildTime+=tempResults.getBuildTime();
                            paramAccuracies.add(tempResults.getAcc());

                            double e=1-tempResults.getAcc();
                            if(e<minErr){
                                minErr=e;
                                ties=new ArrayList<>();//Remove previous ties
                                ties.add(new XGBoostParamResultsHolder(p1,p2,p4,tempResults));
                            }
                            else if(e==minErr){//Sort out ties
                                ties.add(new XGBoostParamResultsHolder(p1,p2,p4,tempResults));
                            }
        //Delete the files here to clean up.

                            File f= new File(resultsPath+count+".csv");
                            if(!f.delete())
                                System.out.println("DELETE FAILED "+resultsPath+count+".csv");
                        }
                    }            
                }
//                XGBoostParamResultsHolder best=ties.get(rng.nextInt(ties.size()));
                XGBoostParamResultsHolder best=Collections.max(ties); //get the most conservative (see XGBoostParamResultsHolder.computeconservedness())
                printlnDebug("Best learning rate ="+best.learningRate+" best max depth = "+best.maxTreeDepth+" best num iterations ="+best.numIterations+ " acc = " + trainResults.getAcc() + " (num ties = " + ties.size() + ")");

                this.setLearningRate(best.learningRate);
                this.setMaxTreeDepth(best.maxTreeDepth);
                this.setNumIterations(best.numIterations);
                trainResults=best.results;
            }else//Not all present, just ditch
                System.out.println(resultsPath+" error: missing  ="+missing+" parameter values");
        }
        else{
            printlnDebug("\nTies Handling: ");
            for (XGBoostParamResultsHolder tie : ties) {
                printlnDebug(tie.toString());
            }
            printlnDebug("\n");

//            XGBoostParamResultsHolder best=ties.get(rng.nextInt(ties.size()));
            XGBoostParamResultsHolder best=Collections.max(ties); //get the most conservative (see XGBoostParamResultsHolder.computeconservedness())
            printlnDebug("Best learning rate ="+best.learningRate+" best max depth = "+best.maxTreeDepth+" best num iterations ="+best.numIterations+" acc = " + trainResults.getAcc() + " (num ties = " + ties.size() + ")");

            this.setLearningRate(best.learningRate);
            this.setMaxTreeDepth(best.maxTreeDepth);
            this.setNumIterations(best.numIterations);
            trainResults=best.results;
         }     
    }

    /**
     * Does the 'actual' initialising and building of the model, as opposed to experimental code
     * setup etc
     * @throws Exception 
     */    
    public void buildActualClassifer() throws Exception {
        if(tuneParameters)
            tuneHyperparameters();

        String objective = "multi:softprob"; 
//        String objective = numClasses == 2 ? "binary:logistic" : "multi:softprob";

        trainDMat = wekaInstancesToDMatrix(trainInsts);
        params = new HashMap<String, Object>();
        //todo: this is a mega hack to enforce 1 thread only on cluster (else bad juju).
        //fix some how at some point. 
        if (runSingleThreaded || System.getProperty("os.name").toLowerCase().contains("linux"))
            params.put("nthread", 1);
        // else == num processors by default

        //fixed params
        params.put("silent", 1);
        params.put("objective", objective);
        if(objective.contains("multi"))
            params.put("num_class", numClasses); //required with multiclass problems
        params.put("seed", seed);
        params.put("subsample", rowSubsampling);
        params.put("colsample_bytree", colSubsampling);

        //tunable params (numiterations passed directly to XGBoost.train(...)
        params.put("learning_rate", learningRate);
        params.put("max_depth", maxTreeDepth);
        params.put("min_child_weight", minChildWeight);

        watches = new HashMap<String, DMatrix>();
//        if (getDebugPrinting() || getDebug())
//        watches.put("train", trainDMat);

//        int earlyStopping = (int) Math.ceil(numIterations / 10.0); 
        //e.g numIts == 25    =>   stop after 3 increases in err 
        //    numIts == 250   =>   stop after 25 increases in err

//        booster = XGBoost.train(trainDMat, params, numIterations, watches, null, null, null, earlyStopping);
        booster = XGBoost.train(trainDMat, params, numIterations, watches, null, null);

    }

    public ClassifierResults estimateTrainAcc(Instances insts) throws Exception {
        printlnDebug("estimateTrainAcc()");

        TunedXGBoost xg = new TunedXGBoost();
        xg.setLearningRate(learningRate);
        xg.setMaxTreeDepth(maxTreeDepth);
        xg.setMinChildWeight(minChildWeight);
        xg.setNumIterations(numIterations);
        xg.tuneParameters=false;
        xg.setEstimateOwnPerformance(false);
        xg.setSeed(seed);

        CrossValidationEvaluator cv = new CrossValidationEvaluator();
        cv.setSeed(seed); 
        cv.setNumFolds(cvFolds);
        cv.buildFolds(insts);

        return cv.evaluate(xg, insts);
    }

    @Override
    public void buildClassifier(Instances insts) throws Exception {
//        long startTime=System.nanoTime(); 
        long startTime=System.nanoTime(); 

        booster = null;
        trainResults =new ClassifierResults();

        trainInsts = new Instances(insts);
        numTrainInsts = insts.numInstances();
        numAtts = insts.numAttributes();
        numClasses = insts.numClasses();

        if(cvFolds>numTrainInsts)
            cvFolds=numTrainInsts;
//        rng = new Random(seed); //for tie resolution etc if needed

        buildActualClassifer();

        if(getEstimateOwnPerformance()&& !tuneParameters) //if tuneparas, will take the cv results of the best para set
            trainResults = estimateTrainAcc(trainInsts);

        if(saveEachParaAcc)
            trainResults.setBuildTime(combinedBuildTime);
        else
            trainResults.setBuildTime(System.nanoTime()-startTime);
//            trainResults.buildTime=System.nanoTime()-startTime;

        trainResults.setTimeUnit(TimeUnit.NANOSECONDS);
        trainResults.setClassifierName(tuneParameters ? "TunedXGBoost" : "XGBoost");
        trainResults.setDatasetName(trainInsts.relationName());
        trainResults.setParas(getParameters());
    }

    @Override
    public double[] distributionForInstance(Instance inst) {
        double[] dist = new double[numClasses];

        //converting inst to dmat form
        Instances instHolder = new Instances(trainInsts, 0);
        instHolder.add(inst);
        DMatrix testInstMat = null;

        try {
             testInstMat = wekaInstancesToDMatrix(instHolder);
        } catch (XGBoostError ex) {
            System.err.println("Error converting test inst to DMatrix form: \n" + ex);
            System.exit(0);
        }

        //predicting, converting back to double[]
        try {
            float[][] predicts = booster.predict(testInstMat);
            for (int c = 0; c < numClasses; c++) 
                dist[c] = predicts[0][c];
        } catch (XGBoostError ex) {
            System.err.println("Error predicting test inst: \n" + ex);
            System.exit(0);
        }

        return dist;
    }

    public static DMatrix wekaInstancesToDMatrix(Instances insts) throws XGBoostError {
        int numRows = insts.numInstances();
        int numCols = insts.numAttributes()-1;

        float[] data = new float[numRows*numCols];
        float[] labels = new float[numRows];

        int ind = 0;
        for (int i = 0; i < numRows; i++) {
            for (int j = 0; j < numCols; j++)
                data[ind++] = (float) insts.instance(i).value(j);
            labels[i] = (float) insts.instance(i).classValue();
        }

        DMatrix dmat = new DMatrix(data, numRows, numCols);
        dmat.setLabel(labels);
        return dmat;
    }


    @Override
    public void setPathToSaveParameters(String r){
        resultsPath=r;
        setSaveEachParaAcc(true);
    }

    @Override
    public void setSaveEachParaAcc(boolean bln) {
        saveEachParaAcc=bln;
    }

    @Override
    public void setParamSearch(boolean bln) {
        tuneParameters=bln;
    }

    @Override
    public void setParametersFromIndex(int x) {
        tuneParameters=false;

        if(x<1 || x>numIterationsParaRange.length*learningRateParaRange.length*maxTreeDepthParaRange.length)//Error, invalid range
            throw new UnsupportedOperationException("ERROR parameter index "+x+" out of range for TunedXGBoost"); //To change body of generated methods, choose Tools | Templates.

        //x starts counting from 1 in parameter splittable for some reason, get it back to 0 in here
        x -= 1;

        int numIterationsIndex  = x % numIterationsParaRange.length;
        setNumIterations(numIterationsParaRange[numIterationsIndex]);
        x /= numIterationsParaRange.length;

        int maxTreeDepthIndex = x % maxTreeDepthParaRange.length;
        setMaxTreeDepth(maxTreeDepthParaRange[maxTreeDepthIndex]);
        x /= maxTreeDepthParaRange.length;

        int learningRateIndex = x;
        setLearningRate(learningRateParaRange[learningRateIndex]);


        printlnDebug("Index ="+x+" LearningRate="+learningRate+" MaxTreeDepth="+maxTreeDepth+" NumIterations ="+numIterations);
    }

    /**
     * SaveParameterInfo interface
     */
    @Override
    public String getParameters() {
        String result="BuildTime,"+trainResults.getBuildTime()+",CVAcc,"+trainResults.getAcc();
        result+=",learningRate,"+learningRate;
        result+=",maxTreeDepth,"+maxTreeDepth;
        result+=",numIterations,"+numIterations;
        if (tuneParameters) {
            result+=",learningRateSpace,"+Arrays.toString(learningRateParaRange).replace(",", "/").replace(" ", "");
            result+=",maxTreeDepthSpace,"+Arrays.toString(maxTreeDepthParaRange).replace(",", "/").replace(" ", "");
            result+=",numIterationsSpace,"+Arrays.toString(numIterationsParaRange).replace(",", "/").replace(" ", "");
            for(double d:paramAccuracies)
                result+=","+d;
        }

        return result;
    }


    /**
     * Provides a smallish speedup when crossvalidating to tune hyperparameters. 
     * At current, will just speed up the search for the num iterations for a given set
     * of the other 3 params, storing the models built on each of the cv folds for a 
     * number of iterations, and continuing to build from those when evaluating higher number of iterations.
     * 
     * It's definitely imaginable in concept that this same process could be applied to the other params,
     * but would require going into the xgboost library code. nah. 
     * 
     * The spaghetti code is real.
     */
    private static class TuningXGBoostCrossValidationWrapper extends AbstractClassifier {

        final int numModels = 10;
        int modelIndex;
        TunedXGBoost[] models;

        float learningRate;
        int maxTreeDepth;
        int newNumIterations;
        int numIterations;

        public TuningXGBoostCrossValidationWrapper(float learningRate, int maxTreeDepth) {
            this.learningRate = learningRate;
            this.maxTreeDepth = maxTreeDepth;
            this.newNumIterations = 0;
            this.numIterations = 0;

            int modelIndex = 0;
            models = new TunedXGBoost[numModels];
            for (int i = 0; i < numModels; i++) {
                models[i] = new TunedXGBoost();
                models[i].setTuneParameters(false);
                models[i].setEstimateOwnPerformance(false);
                models[i].setLearningRate(learningRate);
                models[i].setMaxTreeDepth(maxTreeDepth);
                models[i].setNumIterations(newNumIterations);
            }

        }

        public void setSeed(int seed) {
            for (int i = 0; i < numModels; i++)
                models[i].setSeed(seed);
        }

        public void setNextNumIterations(int newNumIts) {
            numIterations = newNumIterations;
            newNumIterations = newNumIts;
            modelIndex = -1;
        }

        @Override
        public void buildClassifier(Instances data) throws Exception {
            //instead of (on a high level) calling build classifier on the same thing 10 times, 
            //with each subsequent call overwriting the training done in the last, 
            //we'll instead build each classifier in the models[] once, storing the traind model for each cv fold
            //when we move to the next num iterations, instead of building from scratch
            //we'll continue iterating from the stored models, which we can do since the 
            //cv folds will be identical.
            // so for a given para set, this build classifier will essentially be called 10 times,
            //once for each cv fold 

            modelIndex++; //going to use this model for this fold
            TunedXGBoost model = models[modelIndex];

            if (numIterations == 0) {
                //first of the 'numiterations' paras, i.e first build of each model. just build normally
                // - including the initialisation of all the meta info
                model.buildClassifier(data);
            } else {
                //continuing on from an already build model with less iterations
                //dont call normal build classifier, since that'll reinitialise 
                //a bunch of stuff, including the booster itself. instead just 
                //continue with a modified call to the trainer function
                model.booster = XGBoost.train(model.trainDMat, model.params, newNumIterations - numIterations, model.watches, null, null, null, 0, model.booster);
            }
        }

        @Override
        public double[] distributionForInstance(Instance inst) {
            return models[modelIndex].distributionForInstance(inst);
        }
    }



    public static void main(String[] args) throws Exception {

//        for (int fold = 0; fold < 15; fold++) { 
//            for (String dataset : DatasetLists.UCIContinuousFileNames) {
//                Experiments.main(new String[] { "Z:/Data/UCIContinuous/", "Z:/CawpeResubmissionDump/XGBoostTimingsForHESCA/", "true", "XGBoostSingleThread", dataset, ""+(fold+1) });
//            }
//        }
//        for (int fold = 15; fold < 30; fold++) { 
//            for (String dataset : DatasetLists.UCIContinuousFileNames) {
//                Experiments.main(new String[] { "Z:/Data/UCIContinuous/", "Z:/CawpeResubmissionDump/XGBoostTimingsForHESCA/", "true", "XGBoostSingleThread", dataset, ""+(fold+1) });
//            }
//        }

        //para split 
//        for (int para = 1; para <= 27; para++)
//            Experiments.main(new String[] { "Z:/Data/UCIDelgado/", "C:/Temp/XGBoostParaSplitTest/", "true", "TunedXGBoost", "hayes-roth", "1", "false", ""+para});
//        Experiments.main(new String[] { "Z:/Data/UCIDelgado/", "C:/Temp/XGBoostParaSplitTest/", "true", "TunedXGBoost", "hayes-roth", "1", "true"});
        //end para split 

        //checkpoint
//        Experiments.main(new String[] { "Z:/Data/UCIDelgado/", "C:/Temp/XGBoostCheckpointTest/", "true", "TunedXGBoost", "hayes-roth", "1", "true"});

        //standard
        Experiments.main(new String[] { "Z:/Data/UCIDelgado/", "C:/Temp/XGBoostStraightUpTest/", "true", "TunedXGBoost", "hayes-roth", "1", });

    }

    public static void listInvalidFiles(String base, StringBuilder sb){     
        File[] files = (new File(base)).listFiles();
        if (files.length == 0)
            return;

        for (File file : files) {
            if (file.isDirectory())
                listInvalidFiles(base + file.getName(), sb);
            else {
                try {
                    new ClassifierResults(file.getAbsolutePath());
                }catch (Exception e) {
                    System.out.println(file.getAbsolutePath());
//                    sb.append(file.getAbsolutePath()).append("\n");
                }
            }
        } 
    }

    public static void editTestFilesWithoutCorrespondingTrain() throws Exception {
        String path = "Z:\\Results\\TunedXGBoost\\Predictions\\";
        String safetyWritePath = "C:/Temp/XGBoostTestBackups/";


        for (String dataset : DatasetLists.UCIContinuousWithoutBigFour) {
            for (int fold = 0; fold < 30; fold++) {
                File trainFile = new File(path + dataset + "/trainFold" + fold + ".csv");
                try {
                    new ClassifierResults(trainFile.getAbsolutePath());
                } catch (Exception e) {
                    //couldnt load the train file, so edit the test file as missing so that experiments 
                    //can redo it
                    File testFile = new File(path + dataset + "/testFold" + fold + ".csv");
                    if (testFile.exists()) {
                        ClassifierResults tempRes = new ClassifierResults(testFile.getAbsolutePath());
                        (new File(safetyWritePath + dataset)).mkdirs();
                        tempRes.writeFullResultsToFile(safetyWritePath + dataset + "/testFold" + fold + ".csv");

                        if (!testFile.renameTo(new File(testFile.getAbsolutePath().replace(".csv", "EDITNOTRAIN.csv"))))
                            throw new Exception("couldn't rename: " + testFile.getAbsolutePath());
                        else {
                            System.out.println("Edited: " + testFile.getAbsolutePath());
                        }
                    }
                }
            }
        }
    }
}