java source code of RDFUpdate

oryx-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - CONTRIBUTING.md
  - ISSUE_TEMPLATE.md
- src
  - site
    - resources
      - img
    - markdown
      - index.md
      - docs
        admin.md
        how-to-release.md
        performance.md
        endusers.md
        developer.md
    - site.xml
  - checkstyle
    - checkstyle.xml
- pom.xml
- LICENSE
- deploy
  - oryx-serving
    - src
      - main
        java
        com
        cloudera
        oryx
        serving
        Main.java
        package-info.java
    - pom.xml
  - oryx-batch
    - src
      - main
        java
        com
        cloudera
        oryx
        batch
        Main.java
        package-info.java
    - pom.xml
  - bin
    - oryx-run.sh
    - compute-classpath.sh
  - oryx-speed
    - src
      - main
        java
        com
        cloudera
        oryx
        speed
        Main.java
        package-info.java
    - pom.xml
- framework
  - kafka-util
    - src
      - main
        java
        com
        cloudera
        oryx
        kafka
        util
        ConsumeDataIterator.java
        package-info.java
        KafkaUtils.java
      - test
        java
        com
        cloudera
        oryx
        kafka
        util
        DatumGenerator.java
        ConsumeTopicRunnable.java
        DefaultCSVDatumGenerator.java
        ConsumeData.java
        LocalZKServer.java
        ProduceConsumeIT.java
        LocalKafkaBroker.java
        ProduceData.java
        LargeMessageIT.java
    - pom.xml
  - oryx-api
    - src
      - main
        scala
        com
        cloudera
        oryx
        api
        serving
        ScalaServingModelManager.scala
        AbstractScalaServingModelManager.scala
        speed
        ScalaSpeedModelManager.scala
        AbstractScalaSpeedModelManager.scala
        batch
        ScalaBatchLayerUpdate.scala
        java
        com
        cloudera
        oryx
        api
        serving
        ServingModelManager.java
        OryxServingException.java
        OryxResource.java
        ServingModel.java
        package-info.java
        HasCSV.java
        AbstractServingModelManager.java
        KeyMessage.java
        KeyMessageImpl.java
        speed
        AbstractSpeedModelManager.java
        SpeedModelManager.java
        package-info.java
        SpeedModel.java
        package-info.java
        batch
        BatchLayerUpdate.java
        package-info.java
        TopicProducer.java
    - pom.xml
  - oryx-common
    - src
      - main
        resources
        log4j.properties
        reference.conf
        java
        com
        cloudera
        oryx
        common
        pmml
        PMMLUtils.java
        package-info.java
        lang
        ExecUtils.java
        JVMUtils.java
        OryxShutdownHook.java
        ToDoubleObjDoubleBiFunction.java
        AutoReadWriteLock.java
        ClassUtils.java
        package-info.java
        RateLimitCheck.java
        LoggingCallable.java
        AutoLock.java
        collection
        Pairs.java
        package-info.java
        Pair.java
        CloseableIterator.java
        package-info.java
        io
        package-info.java
        IOUtils.java
        math
        Solver.java
        LinearSystemSolver.java
        package-info.java
        SingularMatrixSolverException.java
        DoubleWeightedMean.java
        VectorMath.java
        text
        TextUtils.java
        package-info.java
        random
        package-info.java
        RandomManager.java
        settings
        ConfigUtils.java
        package-info.java
        ConfigToProperties.java
      - test
        resources
        log4j.test.properties
        java
        com
        cloudera
        oryx
        common
        pmml
        PMMLUtilsTest.java
        lang
        JVMUtilsTest.java
        RateLimitCheckTest.java
        ClassUtilsTest.java
        AutoLockTest.java
        AutoReadWriteLockTest.java
        LoggingTest.java
        ExecUtilsTest.java
        collection
        PairsTest.java
        PairTest.java
        io
        IOUtilsTest.java
        math
        LinearSystemSolverTest.java
        VectorMathTest.java
        DoubleWeightedMeanTest.java
        text
        TextUtilsTest.java
        random
        RandomManagerTest.java
        RandomManagerRandomTest.java
        OryxTest.java
        settings
        ConfigUtilsTest.java
        ConfigToPropertiesTest.java
    - pom.xml
  - oryx-ml
    - src
      - main
        java
        com
        cloudera
        oryx
        ml
        package-info.java
        param
        Unordered.java
        ContinuousAround.java
        DiscreteAround.java
        ContinuousRange.java
        HyperParams.java
        package-info.java
        DiscreteRange.java
        RandomSearch.java
        GridSearch.java
        HyperParamValues.java
        MLUpdate.java
      - test
        java
        com
        cloudera
        oryx
        ml
        SimpleMLUpdateIT.java
        param
        GridSearchTest.java
        RandomSearchTest.java
        HyperParamsTest.java
        ThresholdIT.java
        MockMLUpdate.java
    - pom.xml
  - oryx-lambda-serving
    - src
      - main
        java
        com
        cloudera
        oryx
        lambda
        serving
        CSVMessageBodyWriter.java
        ScalaServingModelManagerAdapter.java
        OryxExceptionMapper.java
        ServingLayer.java
        ModelManagerListener.java
        OryxApplication.java
        package-info.java
        ErrorResource.java
        TopicProducerImpl.java
        InMemoryRealm.java
      - test
        resources
        oryxtest.jks
        java
        com
        cloudera
        oryx
        lambda
        serving
        CSVMessageBodyWriterTest.java
        SecureAPIConfigIT.java
        MockTopicProducer.java
        AbstractServingTest.java
        TopicProducerImplTest.java
        ModelManagerListenerIT.java
        OryxExceptionMapperTest.java
        MockServingModelManager.java
        AbstractServingIT.java
        HelloWorld.java
        ServingLayerTest.java
        ErrorResourceTest.java
        InMemoryRealmTest.java
    - pom.xml
  - oryx-lambda
    - src
      - main
        java
        com
        cloudera
        oryx
        lambda
        DeleteOldDataFn.java
        AbstractSparkLayer.java
        speed
        SpeedLayer.java
        package-info.java
        ScalaSpeedModelManagerAdapter.java
        SpeedLayerUpdate.java
        UpdateOffsetsFn.java
        package-info.java
        TopicProducerImpl.java
        HadoopUtils.java
        batch
        ScalaBatchLayerUpdateAdapter.java
        ValueToWritableFunction.java
        ValueWritableConverter.java
        package-info.java
        BatchUpdateFunction.java
        BatchLayer.java
        SaveToHDFSFunction.java
        WritableToValueFunction.java
      - test
        java
        com
        cloudera
        oryx
        lambda
        HadoopUtilsTest.java
        speed
        SpeedLayerIT.java
        MockSpeedModelManager.java
        AbstractSpeedIT.java
        MockModelGenerator.java
        TopicProducerImplTest.java
        AbstractSparkIT.java
        AbstractLambdaIT.java
        batch
        WritableToValueFunctionTest.java
        ValueWritableConverterTest.java
        BatchLayerIT.java
        DeleteOldDataIT.java
        AbstractBatchIT.java
        IntervalData.java
        MockBatchUpdate.java
        ValueToWritableFunctionTest.java
    - pom.xml
- .travis.yml
- README.md
- app
  - oryx-app-common
    - src
      - main
        resources
        reference.conf
        java
        com
        cloudera
        oryx
        app
        classreg
        predict
        CategoricalPrediction.java
        WeightedPrediction.java
        NumericPrediction.java
        package-info.java
        Prediction.java
        example
        CategoricalFeature.java
        ExampleUtils.java
        Example.java
        package-info.java
        FeatureType.java
        NumericFeature.java
        Feature.java
        pmml
        package-info.java
        AppPMMLUtils.java
        rdf
        decision
        Decision.java
        package-info.java
        NumericDecision.java
        CategoricalDecision.java
        package-info.java
        tree
        TreeNode.java
        DecisionForest.java
        TerminalNode.java
        DecisionTree.java
        TreeBasedClassifier.java
        package-info.java
        DecisionNode.java
        TreePath.java
        RDFPMMLUtils.java
        common
        fn
        MLFunctions.java
        package-info.java
        als
        ALSUtils.java
        FeatureVectorsPartition.java
        SolverCache.java
        FeatureVectors.java
        PartitionedFeatureVectors.java
        package-info.java
        kmeans
        DistanceFn.java
        KMeansUtils.java
        ClusterInfo.java
        EuclideanDistanceFn.java
        package-info.java
        KMeansPMMLUtils.java
        schema
        InputSchema.java
        package-info.java
        CategoricalValueEncodings.java
      - test
        java
        com
        cloudera
        oryx
        app
        classreg
        predict
        CategoricalPredictionTest.java
        NumericPredictionTest.java
        WeightedPredictionTest.java
        example
        NumericFeatureTest.java
        CategoricalFeatureTest.java
        ExampleUtilsTest.java
        pmml
        AppPMMLUtilsTest.java
        rdf
        decision
        CategoricalDecisionTest.java
        NumericDecisionTest.java
        RDFPMMLUtilsTest.java
        tree
        TreePathTest.java
        DecisionNodeTest.java
        DecisionTreeTest.java
        TerminalNodeTest.java
        DecisionForestTest.java
        common
        fn
        MLFunctionsTest.java
        als
        FeatureVectorsPartitionTest.java
        AbstractFeatureVectorTest.java
        SolverCacheTest.java
        PartitionedFeatureVectorsTest.java
        ALSUtilsTest.java
        kmeans
        KMeansUtilsTest.java
        EuclideanDistanceFnTest.java
        KMeansPMMLUtilsTest.java
        ClusterInfoTest.java
        schema
        InputSchemaTest.java
        CategoricalValueEncodingsTest.java
    - pom.xml
  - oryx-app-api
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        als
        AbstractRescorerProvider.java
        Rescorer.java
        RescorerProvider.java
        MultiRescorer.java
        MultiRescorerProvider.java
      - test
        java
        com
        cloudera
        oryx
        app
        als
        SimpleModRescorer.java
        ErrorProvider.java
        AbstractRescorerProviderTest.java
        MultiRescorerTest.java
        NullProvider1.java
        SimpleModRescorerProvider.java
        MultiRescorerProviderTest.java
    - pom.xml
  - oryx-app
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        speed
        rdf
        RDFSpeedModel.java
        RDFSpeedModelManager.java
        package-info.java
        als
        ALSSpeedModelManager.java
        ALSSpeedModel.java
        package-info.java
        UserItemStrength.java
        kmeans
        package-info.java
        KMeansSpeedModelManager.java
        KMeansSpeedModel.java
      - test
        java
        com
        cloudera
        oryx
        app
        speed
        rdf
        MockRDFClassificationInputGenerator.java
        MockRDFRegressionModelGenerator.java
        RDFSpeedIT.java
        MockRDFRegressionInputGenerator.java
        MockRDFClassificationModelGenerator.java
        als
        MockALSModelUpdateGenerator.java
        MockALSInputGenerator.java
        ALSSpeedModelTest.java
        ALSSpeedIT.java
        kmeans
        KMeansSpeedModelTest.java
        MockKMeansInputGenerator.java
        MockKMeansModelGenerator.java
        KMeansSpeedIT.java
    - pom.xml
  - example
    - src
      - main
        scala
        com
        cloudera
        oryx
        example
        serving
        ExampleScalaServingModelManager.scala
        speed
        ExampleScalaSpeedModelManager.scala
        batch
        ExampleScalaBatchLayerUpdate.scala
        java
        com
        cloudera
        oryx
        example
        serving
        Add.java
        Distinct.java
        package-info.java
        ExampleServingModel.java
        ExampleServingModelManager.java
        speed
        package-info.java
        ExampleSpeedModelManager.java
        batch
        ExampleBatchLayerUpdate.java
        package-info.java
    - pom.xml
  - oryx-app-mllib
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        batch
        mllib
        rdf
        RDFUpdate.java
        package-info.java
        Evaluation.java
        als
        EnqueueFeatureVecsFn.java
        EnqueueFeatureVecsAndKnownItemsFn.java
        ALSUpdate.java
        package-info.java
        Evaluation.java
        kmeans
        KMeansUpdate.java
        KMeansEvalStrategy.java
        DunnIndex.java
        ClusterMetric.java
        package-info.java
        SilhouetteCoefficient.java
        AbstractKMeansEvaluation.java
        DaviesBouldinIndex.java
        SumSquaredError.java
      - test
        java
        com
        cloudera
        oryx
        app
        batch
        mllib
        rdf
        RandomNumericRDFDataGenerator.java
        RDFUpdateIT.java
        AbstractRDFIT.java
        RandomCategoricalRDFDataGenerator.java
        RDFCategoricalHyperParamTuningIT.java
        RDFNumericHyperParamTuningIT.java
        AbstractAppMLlibIT.java
        als
        ALSUpdateIT.java
        FeaturesALSDataGenerator.java
        ALSUpdateTest.java
        AbstractALSIT.java
        RandomALSDataGenerator.java
        ALSModelContentIT.java
        ALSHyperParamTuningIT.java
        ModelContentDataGenerator.java
        kmeans
        AbstractKMeansIT.java
        KMeansHyperParamTuningIT.java
        RandomKMeansDataGenerator.java
        KMeansUpdateIT.java
        KMeansEvalIT.java
    - pom.xml
  - conf
    - rdf-classification-example.conf
    - rdf-regression-example.conf
    - als-example.conf
    - wordcount-example.conf
    - kmeans-example.conf
  - oryx-app-serving
    - src
      - main
        resources
        com
        cloudera
        oryx
        app
        serving
        rdf
        rdf.html.fragment
        als
        als.html.fragment
        kmeans
        kmeans.html.fragment
        console-footer.html.fragment
        console-header.html.fragment
        java
        com
        cloudera
        oryx
        app
        serving
        IDCount.java
        IDEntity.java
        FileItemPart.java
        classreg
        Train.java
        Predict.java
        package-info.java
        model
        ClassificationRegressionServingModel.java
        rdf
        FeatureImportance.java
        Console.java
        ClassificationDistribution.java
        package-info.java
        model
        package-info.java
        RDFServingModelManager.java
        RDFServingModel.java
        Ready.java
        IDValue.java
        AbstractConsoleResource.java
        clustering
        Assign.java
        Add.java
        model
        package-info.java
        ClusteringServingModel.java
        als
        RecommendToMany.java
        KnownItems.java
        Because.java
        Ingest.java
        RecommendWithContext.java
        AllItemIDs.java
        CosineAverageFunction.java
        EstimateForAnonymous.java
        Console.java
        PopularRepresentativeItems.java
        CosineDistanceSensitiveFunction.java
        AbstractALSResource.java
        MostSurprising.java
        Estimate.java
        Similarity.java
        RecommendToAnonymous.java
        MostActiveUsers.java
        package-info.java
        Preference.java
        Recommend.java
        MostPopularItems.java
        DotsFunction.java
        model
        TopNConsumer.java
        LocalitySensitiveHash.java
        package-info.java
        ALSServingModel.java
        ALSServingModelManager.java
        SimilarityToItem.java
        AllUserIDs.java
        AbstractOryxResource.java
        package-info.java
        kmeans
        Console.java
        DistanceToNearest.java
        package-info.java
        model
        KMeansServingModel.java
        package-info.java
        KMeansServingModelManager.java
      - test
        java
        com
        cloudera
        oryx
        app
        serving
        rdf
        PredictTest.java
        ReadyTest.java
        AbstractRDFServingTest.java
        ConsoleTest.java
        ClassificationDistributionTest.java
        model
        TestRDFRegressionModelFactory.java
        RDFServingModelManagerIT.java
        TestRDFClassificationModelFactory.java
        FeatureImportanceTest.java
        TrainTest.java
        ReadOnlyTest.java
        als
        ReadyTest.java
        RecommendTest.java
        KnownItemsTest.java
        AllItemIDsTest.java
        CompressedResponseTest.java
        ConsoleTest.java
        SimilarityTest.java
        MostSurprisingTest.java
        SimilarityToItemTest.java
        MostPopularItemsTest.java
        MostActiveUsersTest.java
        RecommendToAnonymousTest.java
        LoadBenchmark.java
        BecauseTest.java
        AbstractALSServingTest.java
        PreferenceTest.java
        EstimateForAnonymousTest.java
        AllUserIDsTest.java
        TestALSRescorerProvider.java
        EstimateTest.java
        model
        NullProvider2.java
        ALSServingModelManagerIT.java
        ALSServingModelTest.java
        TestALSModelFactory.java
        ALSServingInputProducerIT.java
        TopNConsumerTest.java
        LocalitySensitiveHashTest.java
        ALSServingModelManagerTest.java
        LoadTestALSModelFactory.java
        RecommendToManyTest.java
        PopularRepresentativeItemsTest.java
        RecommendWithContextTest.java
        IngestTest.java
        ReadOnlyTest.java
        kmeans
        ReadyTest.java
        AddTest.java
        AssignTest.java
        AbstractKMeansServingTest.java
        ConsoleTest.java
        DistanceToNearestTest.java
        model
        TestKMeansModelFactory.java
        KMeansServingModelManagerIT.java
        ReadOnlyTest.java
        traffic
        TrafficUtil.java
        Endpoint.java
        als
        ALSEndpoint.java
        Endpoints.java
    - pom.xml
- NOTICE
- .gitignore
- docs
  - img
    - loading.gif
  - CNAME
  - project-reports.html
  - js
    - reflow-skin.js
    - reflow-scroll.js
    - lightbox.min.js
  - index.html
  - docs
    - performance.html
    - endusers.html
    - how-to-release.html
    - developer.html
    - admin.html
  - css
    - reflow-skin.css
    - bootswatch.css
    - lightbox.css
    - docs.css
    - print.css
    - site.css
  - apidocs
    - package-list
    - script.js
    - overview-summary.html
    - overview-frame.html
    - overview-tree.html
    - serialized-form.html
    - help-doc.html
    - constant-values.html
    - deprecated-list.html
    - allclasses-frame.html
    - allclasses-noframe.html
    - com
      - cloudera
        oryx
        kafka
        util
        package-frame.html
        class-use
        KafkaUtils.html
        ConsumeDataIterator.html
        package-tree.html
        KafkaUtils.html
        ConsumeDataIterator.html
        package-summary.html
        package-use.html
        serving
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
        ml
        package-frame.html
        class-use
        MLUpdate.html
        package-tree.html
        param
        package-frame.html
        class-use
        HyperParamValues.html
        HyperParams.html
        package-tree.html
        HyperParamValues.html
        package-summary.html
        HyperParams.html
        package-use.html
        MLUpdate.html
        package-summary.html
        package-use.html
        speed
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
        api
        package-frame.html
        serving
        package-frame.html
        class-use
        ServingModel.html
        OryxResource.html
        ServingModelManager.html
        AbstractServingModelManager.html
        OryxServingException.html
        HasCSV.html
        package-tree.html
        ServingModel.html
        OryxResource.html
        ServingModelManager.html
        AbstractServingModelManager.html
        package-summary.html
        OryxServingException.html
        package-use.html
        HasCSV.html
        speed
        SpeedModelManager.html
        package-frame.html
        class-use
        SpeedModelManager.html
        SpeedModel.html
        AbstractSpeedModelManager.html
        package-tree.html
        SpeedModel.html
        package-summary.html
        package-use.html
        AbstractSpeedModelManager.html
        class-use
        TopicProducer.html
        KeyMessageImpl.html
        KeyMessage.html
        TopicProducer.html
        package-tree.html
        KeyMessageImpl.html
        KeyMessage.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        BatchLayerUpdate.html
        package-tree.html
        BatchLayerUpdate.html
        package-summary.html
        package-use.html
        common
        package-frame.html
        package-tree.html
        pmml
        package-frame.html
        class-use
        PMMLUtils.html
        package-tree.html
        PMMLUtils.html
        package-summary.html
        package-use.html
        lang
        package-frame.html
        class-use
        RateLimitCheck.html
        AutoReadWriteLock.html
        LoggingCallable.html
        JVMUtils.html
        ClassUtils.html
        AutoLock.html
        ExecUtils.html
        LoggingCallable.AllowExceptionSupplier.html
        OryxShutdownHook.html
        ToDoubleObjDoubleBiFunction.html
        package-tree.html
        RateLimitCheck.html
        AutoReadWriteLock.html
        LoggingCallable.html
        JVMUtils.html
        ClassUtils.html
        AutoLock.html
        ExecUtils.html
        LoggingCallable.AllowExceptionSupplier.html
        OryxShutdownHook.html
        package-summary.html
        package-use.html
        ToDoubleObjDoubleBiFunction.html
        collection
        package-frame.html
        Pairs.SortOrder.html
        class-use
        Pairs.SortOrder.html
        CloseableIterator.html
        Pairs.html
        Pair.html
        CloseableIterator.html
        package-tree.html
        Pairs.html
        Pair.html
        package-summary.html
        package-use.html
        io
        package-frame.html
        class-use
        IOUtils.html
        package-tree.html
        IOUtils.html
        package-summary.html
        package-use.html
        math
        package-frame.html
        class-use
        VectorMath.html
        SingularMatrixSolverException.html
        Solver.html
        LinearSystemSolver.html
        DoubleWeightedMean.html
        package-tree.html
        VectorMath.html
        SingularMatrixSolverException.html
        Solver.html
        LinearSystemSolver.html
        package-summary.html
        package-use.html
        DoubleWeightedMean.html
        text
        package-frame.html
        class-use
        TextUtils.html
        package-tree.html
        TextUtils.html
        package-summary.html
        package-use.html
        random
        package-frame.html
        class-use
        RandomManager.html
        package-tree.html
        package-summary.html
        package-use.html
        RandomManager.html
        package-summary.html
        settings
        package-frame.html
        ConfigToProperties.html
        class-use
        ConfigToProperties.html
        ConfigUtils.html
        package-tree.html
        ConfigUtils.html
        package-summary.html
        package-use.html
        package-use.html
        lambda
        package-frame.html
        serving
        package-frame.html
        class-use
        OryxExceptionMapper.html
        InMemoryRealm.html
        ModelManagerListener.html
        TopicProducerImpl.html
        ServingLayer.html
        OryxApplication.html
        CSVMessageBodyWriter.html
        ErrorResource.html
        ScalaServingModelManagerAdapter.html
        package-tree.html
        OryxExceptionMapper.html
        InMemoryRealm.html
        ModelManagerListener.html
        TopicProducerImpl.html
        ServingLayer.html
        OryxApplication.html
        CSVMessageBodyWriter.html
        ErrorResource.html
        ScalaServingModelManagerAdapter.html
        package-summary.html
        package-use.html
        speed
        package-frame.html
        class-use
        ScalaSpeedModelManagerAdapter.html
        SpeedLayer.html
        package-tree.html
        package-summary.html
        ScalaSpeedModelManagerAdapter.html
        package-use.html
        SpeedLayer.html
        class-use
        HadoopUtils.html
        TopicProducerImpl.html
        UpdateOffsetsFn.html
        AbstractSparkLayer.html
        DeleteOldDataFn.html
        package-tree.html
        HadoopUtils.html
        TopicProducerImpl.html
        UpdateOffsetsFn.html
        AbstractSparkLayer.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        ScalaBatchLayerUpdateAdapter.html
        class-use
        ScalaBatchLayerUpdateAdapter.html
        BatchLayer.html
        package-tree.html
        BatchLayer.html
        package-summary.html
        package-use.html
        DeleteOldDataFn.html
        example
        serving
        package-frame.html
        Distinct.html
        class-use
        Distinct.html
        ExampleServingModel.html
        ExampleServingModelManager.html
        Add.html
        package-tree.html
        ExampleServingModel.html
        package-summary.html
        ExampleServingModelManager.html
        package-use.html
        Add.html
        speed
        package-frame.html
        class-use
        ExampleSpeedModelManager.html
        package-tree.html
        ExampleSpeedModelManager.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        ExampleBatchLayerUpdate.html
        package-tree.html
        ExampleBatchLayerUpdate.html
        package-summary.html
        package-use.html
        app
        serving
        package-frame.html
        classreg
        package-frame.html
        class-use
        Train.html
        Predict.html
        package-tree.html
        Train.html
        Predict.html
        model
        package-frame.html
        class-use
        ClassificationRegressionServingModel.html
        package-tree.html
        ClassificationRegressionServingModel.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        class-use
        Ready.html
        AbstractConsoleResource.html
        AbstractOryxResource.html
        IDValue.html
        IDCount.html
        package-tree.html
        Ready.html
        rdf
        package-frame.html
        Console.html
        class-use
        Console.html
        ClassificationDistribution.html
        FeatureImportance.html
        package-tree.html
        ClassificationDistribution.html
        FeatureImportance.html
        model
        package-frame.html
        class-use
        RDFServingModelManager.html
        RDFServingModel.html
        package-tree.html
        RDFServingModelManager.html
        RDFServingModel.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        AbstractConsoleResource.html
        clustering
        package-frame.html
        class-use
        Assign.html
        Add.html
        package-tree.html
        Assign.html
        model
        package-frame.html
        class-use
        ClusteringServingModel.html
        package-tree.html
        package-summary.html
        package-use.html
        ClusteringServingModel.html
        package-summary.html
        package-use.html
        Add.html
        als
        package-frame.html
        Similarity.html
        Console.html
        CosineDistanceSensitiveFunction.html
        Because.html
        Recommend.html
        class-use
        Similarity.html
        Console.html
        CosineDistanceSensitiveFunction.html
        Because.html
        Recommend.html
        Ingest.html
        Preference.html
        EstimateForAnonymous.html
        DotsFunction.html
        RecommendToMany.html
        Estimate.html
        PopularRepresentativeItems.html
        MostPopularItems.html
        AllItemIDs.html
        SimilarityToItem.html
        KnownItems.html
        CosineAverageFunction.html
        RecommendWithContext.html
        MostSurprising.html
        AllUserIDs.html
        RecommendToAnonymous.html
        MostActiveUsers.html
        package-tree.html
        Ingest.html
        Preference.html
        EstimateForAnonymous.html
        DotsFunction.html
        RecommendToMany.html
        Estimate.html
        PopularRepresentativeItems.html
        MostPopularItems.html
        AllItemIDs.html
        SimilarityToItem.html
        KnownItems.html
        CosineAverageFunction.html
        RecommendWithContext.html
        model
        package-frame.html
        ALSServingModelManager.html
        class-use
        ALSServingModelManager.html
        ALSServingModel.html
        package-tree.html
        ALSServingModel.html
        package-summary.html
        package-use.html
        MostSurprising.html
        package-summary.html
        AllUserIDs.html
        RecommendToAnonymous.html
        package-use.html
        MostActiveUsers.html
        AbstractOryxResource.html
        IDValue.html
        kmeans
        package-frame.html
        Console.html
        class-use
        Console.html
        DistanceToNearest.html
        package-tree.html
        DistanceToNearest.html
        model
        package-frame.html
        class-use
        KMeansServingModel.html
        KMeansServingModelManager.html
        package-tree.html
        KMeansServingModel.html
        package-summary.html
        package-use.html
        KMeansServingModelManager.html
        package-summary.html
        package-use.html
        package-summary.html
        IDCount.html
        package-use.html
        classreg
        predict
        package-frame.html
        class-use
        Prediction.html
        NumericPrediction.html
        WeightedPrediction.html
        CategoricalPrediction.html
        package-tree.html
        Prediction.html
        NumericPrediction.html
        WeightedPrediction.html
        CategoricalPrediction.html
        package-summary.html
        package-use.html
        example
        package-frame.html
        class-use
        NumericFeature.html
        ExampleUtils.html
        Feature.html
        FeatureType.html
        CategoricalFeature.html
        Example.html
        package-tree.html
        NumericFeature.html
        ExampleUtils.html
        Feature.html
        FeatureType.html
        CategoricalFeature.html
        Example.html
        package-summary.html
        package-use.html
        speed
        rdf
        package-frame.html
        class-use
        RDFSpeedModel.html
        RDFSpeedModelManager.html
        package-tree.html
        RDFSpeedModel.html
        RDFSpeedModelManager.html
        package-summary.html
        package-use.html
        als
        package-frame.html
        ALSSpeedModelManager.html
        class-use
        ALSSpeedModelManager.html
        ALSSpeedModel.html
        package-tree.html
        ALSSpeedModel.html
        package-summary.html
        package-use.html
        kmeans
        package-frame.html
        class-use
        KMeansSpeedModelManager.html
        KMeansSpeedModel.html
        package-tree.html
        KMeansSpeedModelManager.html
        package-summary.html
        package-use.html
        KMeansSpeedModel.html
        pmml
        package-frame.html
        class-use
        AppPMMLUtils.html
        package-tree.html
        AppPMMLUtils.html
        package-summary.html
        package-use.html
        rdf
        package-frame.html
        decision
        package-frame.html
        NumericDecision.html
        class-use
        NumericDecision.html
        Decision.html
        CategoricalDecision.html
        package-tree.html
        Decision.html
        CategoricalDecision.html
        package-summary.html
        package-use.html
        class-use
        RDFPMMLUtils.html
        package-tree.html
        RDFPMMLUtils.html
        tree
        package-frame.html
        DecisionTree.html
        TerminalNode.html
        class-use
        DecisionTree.html
        TerminalNode.html
        DecisionNode.html
        TreeNode.html
        DecisionForest.html
        TreeBasedClassifier.html
        package-tree.html
        DecisionNode.html
        TreeNode.html
        DecisionForest.html
        TreeBasedClassifier.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        common
        fn
        package-frame.html
        class-use
        MLFunctions.html
        package-tree.html
        package-summary.html
        package-use.html
        MLFunctions.html
        als
        package-frame.html
        FeatureVectors.html
        class-use
        FeatureVectors.html
        FeatureVectorsPartition.html
        AbstractRescorerProvider.html
        Rescorer.html
        PartitionedFeatureVectors.html
        RescorerProvider.html
        ALSUtils.html
        SolverCache.html
        MultiRescorer.html
        MultiRescorerProvider.html
        package-tree.html
        FeatureVectorsPartition.html
        AbstractRescorerProvider.html
        Rescorer.html
        PartitionedFeatureVectors.html
        RescorerProvider.html
        ALSUtils.html
        package-summary.html
        SolverCache.html
        MultiRescorer.html
        package-use.html
        MultiRescorerProvider.html
        kmeans
        package-frame.html
        EuclideanDistanceFn.html
        ClusterInfo.html
        class-use
        EuclideanDistanceFn.html
        ClusterInfo.html
        KMeansUtils.html
        DistanceFn.html
        KMeansPMMLUtils.html
        package-tree.html
        KMeansUtils.html
        DistanceFn.html
        package-summary.html
        KMeansPMMLUtils.html
        package-use.html
        schema
        package-frame.html
        CategoricalValueEncodings.html
        class-use
        CategoricalValueEncodings.html
        InputSchema.html
        package-tree.html
        InputSchema.html
        package-summary.html
        package-use.html
        batch
        mllib
        rdf
        package-frame.html
        class-use
        RDFUpdate.html
        package-tree.html
        RDFUpdate.html
        package-summary.html
        package-use.html
        als
        package-frame.html
        class-use
        ALSUpdate.html
        package-tree.html
        ALSUpdate.html
        package-summary.html
        package-use.html
        kmeans
        package-frame.html
        KMeansEvalStrategy.html
        class-use
        KMeansEvalStrategy.html
        KMeansUpdate.html
        package-tree.html
        KMeansUpdate.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
    - index.html
    - stylesheet.css

/*
 * Copyright (c) 2014, Cloudera, Inc. All Rights Reserved.
 *
 * Cloudera, Inc. licenses this file to you under the Apache License,
 * Version 2.0 (the "License"). You may not use this file except in
 * compliance with the License. You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * This software is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR
 * CONDITIONS OF ANY KIND, either express or implied. See the License for
 * the specific language governing permissions and limitations under the
 * License.
 */

package com.cloudera.oryx.app.batch.mllib.rdf;

import java.util.ArrayDeque;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collection;
import java.util.Collections;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Queue;
import java.util.Set;
import java.util.stream.Collectors;
import java.util.stream.IntStream;

import com.google.common.base.Preconditions;
import com.typesafe.config.Config;
import org.apache.hadoop.fs.Path;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.mllib.linalg.Vectors;
import org.apache.spark.mllib.regression.LabeledPoint;
import org.apache.spark.mllib.tree.RandomForest;
import org.apache.spark.mllib.tree.configuration.Algo;
import org.apache.spark.mllib.tree.configuration.FeatureType;
import org.apache.spark.mllib.tree.model.DecisionTreeModel;
import org.apache.spark.mllib.tree.model.Predict;
import org.apache.spark.mllib.tree.model.RandomForestModel;
import org.apache.spark.mllib.tree.model.Split;
import org.dmg.pmml.Array;
import org.dmg.pmml.DataDictionary;
import org.dmg.pmml.FieldName;
import org.dmg.pmml.MiningFunction;
import org.dmg.pmml.Model;
import org.dmg.pmml.PMML;
import org.dmg.pmml.Predicate;
import org.dmg.pmml.ScoreDistribution;
import org.dmg.pmml.SimplePredicate;
import org.dmg.pmml.SimpleSetPredicate;
import org.dmg.pmml.True;
import org.dmg.pmml.mining.MiningModel;
import org.dmg.pmml.mining.Segment;
import org.dmg.pmml.mining.Segmentation;
import org.dmg.pmml.tree.ComplexNode;
import org.dmg.pmml.tree.Node;
import org.dmg.pmml.tree.TreeModel;
import org.eclipse.collections.api.map.primitive.IntLongMap;
import org.eclipse.collections.impl.map.mutable.primitive.IntLongHashMap;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import scala.collection.JavaConversions;

import com.cloudera.oryx.app.classreg.example.Example;
import com.cloudera.oryx.app.classreg.example.ExampleUtils;
import com.cloudera.oryx.app.common.fn.MLFunctions;
import com.cloudera.oryx.app.pmml.AppPMMLUtils;
import com.cloudera.oryx.app.rdf.RDFPMMLUtils;
import com.cloudera.oryx.app.rdf.tree.DecisionForest;
import com.cloudera.oryx.app.schema.CategoricalValueEncodings;
import com.cloudera.oryx.app.schema.InputSchema;
import com.cloudera.oryx.common.collection.Pair;
import com.cloudera.oryx.common.pmml.PMMLUtils;
import com.cloudera.oryx.common.random.RandomManager;
import com.cloudera.oryx.common.text.TextUtils;
import com.cloudera.oryx.ml.MLUpdate;
import com.cloudera.oryx.ml.param.HyperParamValues;
import com.cloudera.oryx.ml.param.HyperParams;

/**
 * Update function that builds and evaluates random decision forest models in the Batch Layer.
 */
public final class RDFUpdate extends MLUpdate<String> {

  private static final Logger log = LoggerFactory.getLogger(RDFUpdate.class);

  private final int numTrees;
  private final List<HyperParamValues<?>> hyperParamValues;
  private final InputSchema inputSchema;

  public RDFUpdate(Config config) {
    super(config);
    numTrees = config.getInt("oryx.rdf.num-trees");
    Preconditions.checkArgument(numTrees >= 1);
    hyperParamValues = Arrays.asList(
        HyperParams.fromConfig(config, "oryx.rdf.hyperparams.max-split-candidates"),
        HyperParams.fromConfig(config, "oryx.rdf.hyperparams.max-depth"),
        HyperParams.fromConfig(config, "oryx.rdf.hyperparams.impurity"));

    inputSchema = new InputSchema(config);
    Preconditions.checkArgument(inputSchema.hasTarget());
  }

  @Override
  public List<HyperParamValues<?>> getHyperParameterValues() {
    return hyperParamValues;
  }

  @Override
  public PMML buildModel(JavaSparkContext sparkContext,
                         JavaRDD<String> trainData,
                         List<?> hyperParameters,
                         Path candidatePath) {

    int maxSplitCandidates = (Integer) hyperParameters.get(0);
    int maxDepth = (Integer) hyperParameters.get(1);
    String impurity = (String) hyperParameters.get(2);
    Preconditions.checkArgument(maxSplitCandidates >= 2,
                                "max-split-candidates must be at least 2");
    Preconditions.checkArgument(maxDepth > 0,
                                "max-depth must be at least 1");

    JavaRDD<String[]> parsedRDD = trainData.map(MLFunctions.PARSE_FN);
    CategoricalValueEncodings categoricalValueEncodings =
        new CategoricalValueEncodings(getDistinctValues(parsedRDD));
    JavaRDD<LabeledPoint> trainPointData =
        parseToLabeledPointRDD(parsedRDD, categoricalValueEncodings);

    Map<Integer,Integer> categoryInfo = categoricalValueEncodings.getCategoryCounts();
    categoryInfo.remove(inputSchema.getTargetFeatureIndex()); // Don't specify target count
    // Need to translate indices to predictor indices
    Map<Integer,Integer> categoryInfoByPredictor = new HashMap<>(categoryInfo.size());
    categoryInfo.forEach((k, v) -> categoryInfoByPredictor.put(inputSchema.featureToPredictorIndex(k), v));

    int seed = RandomManager.getRandom().nextInt();

    RandomForestModel model;
    if (inputSchema.isClassification()) {
      int numTargetClasses =
          categoricalValueEncodings.getValueCount(inputSchema.getTargetFeatureIndex());
      model = RandomForest.trainClassifier(trainPointData,
                                           numTargetClasses,
                                           categoryInfoByPredictor,
                                           numTrees,
                                           "auto",
                                           impurity,
                                           maxDepth,
                                           maxSplitCandidates,
                                           seed);
    } else {
      model = RandomForest.trainRegressor(trainPointData,
                                          categoryInfoByPredictor,
                                          numTrees,
                                          "auto",
                                          impurity,
                                          maxDepth,
                                          maxSplitCandidates,
                                          seed);
    }

    List<IntLongHashMap> treeNodeIDCounts = treeNodeExampleCounts(trainPointData, model);
    IntLongHashMap predictorIndexCounts = predictorExampleCounts(trainPointData, model);

    return rdfModelToPMML(model,
                          categoricalValueEncodings,
                          maxDepth,
                          maxSplitCandidates,
                          impurity,
                          treeNodeIDCounts,
                          predictorIndexCounts);
  }

  @Override
  public double evaluate(JavaSparkContext sparkContext,
                         PMML model,
                         Path modelParentPath,
                         JavaRDD<String> testData,
                         JavaRDD<String> trainData) {
    RDFPMMLUtils.validatePMMLVsSchema(model, inputSchema);
    Pair<DecisionForest,CategoricalValueEncodings> forestAndEncoding = RDFPMMLUtils.read(model);
    DecisionForest forest = forestAndEncoding.getFirst();
    CategoricalValueEncodings valueEncodings = forestAndEncoding.getSecond();

    InputSchema inputSchema = this.inputSchema;
    JavaRDD<Example> examplesRDD = testData.map(MLFunctions.PARSE_FN).
        map(data -> ExampleUtils.dataToExample(data, inputSchema, valueEncodings));

    double eval;
    if (inputSchema.isClassification()) {
      double accuracy = Evaluation.accuracy(forest, examplesRDD);
      log.info("Accuracy: {}", accuracy);
      eval = accuracy;
    } else {
      double rmse = Evaluation.rmse(forest, examplesRDD);
      log.info("RMSE: {}", rmse);
      eval = -rmse;
    }
    return eval;
  }

  private Map<Integer,Collection<String>> getDistinctValues(JavaRDD<String[]> parsedRDD) {
    int[] categoricalIndices = IntStream.range(0, inputSchema.getNumFeatures()).
        filter(inputSchema::isCategorical).toArray();

    return parsedRDD.mapPartitions(data -> {
        Map<Integer,Collection<String>> categoryValues = new HashMap<>();
        for (int i : categoricalIndices) {
          categoryValues.put(i, new HashSet<>());
        }
        data.forEachRemaining(datum ->
          categoryValues.forEach((category, values) -> values.add(datum[category]))
        );
        return Collections.singleton(categoryValues).iterator();
      }).reduce((v1, v2) -> {
        // Assumes both have the same key set
        v1.forEach((category, values) -> values.addAll(v2.get(category)));
        return v1;
      });
  }


  private JavaRDD<LabeledPoint> parseToLabeledPointRDD(
      JavaRDD<String[]> parsedRDD,
      CategoricalValueEncodings categoricalValueEncodings) {

    return parsedRDD.map(data -> {
      try {
        double[] features = new double[inputSchema.getNumPredictors()];
        double target = Double.NaN;
        for (int featureIndex = 0; featureIndex < data.length; featureIndex++) {
          double encoded;
          if (inputSchema.isNumeric(featureIndex)) {
            encoded = Double.parseDouble(data[featureIndex]);
          } else if (inputSchema.isCategorical(featureIndex)) {
            Map<String,Integer> valueEncoding =
                categoricalValueEncodings.getValueEncodingMap(featureIndex);
            encoded = valueEncoding.get(data[featureIndex]);
          } else {
            continue;
          }
          if (inputSchema.isTarget(featureIndex)) {
            target = encoded;
          } else {
            features[inputSchema.featureToPredictorIndex(featureIndex)] = encoded;
          }
        }
        Preconditions.checkState(!Double.isNaN(target));
        return new LabeledPoint(target, Vectors.dense(features));
      } catch (NumberFormatException | ArrayIndexOutOfBoundsException e) {
        log.warn("Bad input: {}", Arrays.toString(data));
        throw e;
      }
    });
  }

  /**
   * @param trainPointData data to run down trees
   * @param model random decision forest model to count on
   * @return maps of node IDs to the count of training examples that reached that node, one
   *  per tree in the model
   * @see #predictorExampleCounts(JavaRDD,RandomForestModel)
   */
  private static List<IntLongHashMap> treeNodeExampleCounts(JavaRDD<? extends LabeledPoint> trainPointData,
                                                            RandomForestModel model) {
    return trainPointData.mapPartitions(data -> {
        DecisionTreeModel[] trees = model.trees();
        List<IntLongHashMap> treeNodeIDCounts = IntStream.range(0, trees.length).
            mapToObj(i -> new IntLongHashMap()).collect(Collectors.toList());
        data.forEachRemaining(datum -> {
          double[] featureVector = datum.features().toArray();
          for (int i = 0; i < trees.length; i++) {
            DecisionTreeModel tree = trees[i];
            IntLongHashMap nodeIDCount = treeNodeIDCounts.get(i);
            org.apache.spark.mllib.tree.model.Node node = tree.topNode();
            // This logic cloned from Node.predict:
            while (!node.isLeaf()) {
              // Count node ID
              nodeIDCount.addToValue(node.id(), 1);
              Split split = node.split().get();
              int featureIndex = split.feature();
              node = nextNode(featureVector, node, split, featureIndex);
            }
            nodeIDCount.addToValue(node.id(), 1);
          }
        });
        return Collections.singleton(treeNodeIDCounts).iterator();
      }
    ).reduce((a, b) -> {
        Preconditions.checkArgument(a.size() == b.size());
        for (int i = 0; i < a.size(); i++) {
          merge(a.get(i), b.get(i));
        }
        return a;
      });
  }

  /**
   * @param trainPointData data to run down trees
   * @param model random decision forest model to count on
   * @return map of predictor index to the number of training examples that reached a
   *  node whose decision is based on that feature. The index is among predictors, not all
   *  features, since there are fewer predictors than features. That is, the index will
   *  match the one used in the {@link RandomForestModel}.
   */
  private static IntLongHashMap predictorExampleCounts(JavaRDD<? extends LabeledPoint> trainPointData,
                                                       RandomForestModel model) {
    return trainPointData.mapPartitions(data -> {
        IntLongHashMap featureIndexCount = new IntLongHashMap();
        data.forEachRemaining(datum -> {
          double[] featureVector = datum.features().toArray();
          for (DecisionTreeModel tree : model.trees()) {
            org.apache.spark.mllib.tree.model.Node node = tree.topNode();
            // This logic cloned from Node.predict:
            while (!node.isLeaf()) {
              Split split = node.split().get();
              int featureIndex = split.feature();
              // Count feature
              featureIndexCount.addToValue(featureIndex, 1);
              node = nextNode(featureVector, node, split, featureIndex);
            }
          }
        });
        return Collections.singleton(featureIndexCount).iterator();
    }).reduce(RDFUpdate::merge);
  }

  private static org.apache.spark.mllib.tree.model.Node nextNode(
      double[] featureVector,
      org.apache.spark.mllib.tree.model.Node node,
      Split split,
      int featureIndex) {
    double featureValue = featureVector[featureIndex];
    if (split.featureType().equals(FeatureType.Continuous())) {
      if (featureValue <= split.threshold()) {
        return node.leftNode().get();
      } else {
        return node.rightNode().get();
      }
    } else {
      if (split.categories().contains(featureValue)) {
        return node.leftNode().get();
      } else {
        return node.rightNode().get();
      }
    }
  }

  private static IntLongHashMap merge(IntLongHashMap a, IntLongHashMap b) {
    if (b.size() > a.size()) {
      return merge(b, a);
    }
    b.forEachKeyValue(a::addToValue);
    return a;
  }

  private PMML rdfModelToPMML(RandomForestModel rfModel,
                              CategoricalValueEncodings categoricalValueEncodings,
                              int maxDepth,
                              int maxSplitCandidates,
                              String impurity,
                              List<? extends IntLongMap> nodeIDCounts,
                              IntLongMap predictorIndexCounts) {

    boolean classificationTask = rfModel.algo().equals(Algo.Classification());
    Preconditions.checkState(classificationTask == inputSchema.isClassification());

    DecisionTreeModel[] trees = rfModel.trees();

    Model model;
    if (trees.length == 1) {
      model = toTreeModel(trees[0], categoricalValueEncodings, nodeIDCounts.get(0));
    } else {
      MiningModel miningModel = new MiningModel();
      model = miningModel;
      Segmentation.MultipleModelMethod multipleModelMethodType = classificationTask ?
          Segmentation.MultipleModelMethod.WEIGHTED_MAJORITY_VOTE :
          Segmentation.MultipleModelMethod.WEIGHTED_AVERAGE;
      List<Segment> segments = new ArrayList<>(trees.length);
      for (int treeID = 0; treeID < trees.length; treeID++) {
        TreeModel treeModel =
            toTreeModel(trees[treeID], categoricalValueEncodings, nodeIDCounts.get(treeID));
        segments.add(new Segment()
             .setId(Integer.toString(treeID))
             .setPredicate(new True())
             .setModel(treeModel)
             .setWeight(1.0)); // No weights in MLlib impl now
      }
      miningModel.setSegmentation(new Segmentation(multipleModelMethodType, segments));
    }

    model.setMiningFunction(classificationTask ?
                            MiningFunction.CLASSIFICATION :
                            MiningFunction.REGRESSION);

    double[] importances = countsToImportances(predictorIndexCounts);
    model.setMiningSchema(AppPMMLUtils.buildMiningSchema(inputSchema, importances));
    DataDictionary dictionary =
        AppPMMLUtils.buildDataDictionary(inputSchema, categoricalValueEncodings);

    PMML pmml = PMMLUtils.buildSkeletonPMML();
    pmml.setDataDictionary(dictionary);
    pmml.addModels(model);

    AppPMMLUtils.addExtension(pmml, "maxDepth", maxDepth);
    AppPMMLUtils.addExtension(pmml, "maxSplitCandidates", maxSplitCandidates);
    AppPMMLUtils.addExtension(pmml, "impurity", impurity);

    return pmml;
  }

  private TreeModel toTreeModel(DecisionTreeModel dtModel,
                                CategoricalValueEncodings categoricalValueEncodings,
                                IntLongMap nodeIDCounts) {

    boolean classificationTask = dtModel.algo().equals(Algo.Classification());
    Preconditions.checkState(classificationTask == inputSchema.isClassification());

    Node root = new ComplexNode();
    root.setId("r");

    Queue<Node> modelNodes = new ArrayDeque<>();
    modelNodes.add(root);

    Queue<Pair<org.apache.spark.mllib.tree.model.Node,Split>> treeNodes = new ArrayDeque<>();
    treeNodes.add(new Pair<>(dtModel.topNode(), null));

    while (!treeNodes.isEmpty()) {

      Pair<org.apache.spark.mllib.tree.model.Node,Split> treeNodePredicate = treeNodes.remove();
      Node modelNode = modelNodes.remove();

      // This is the decision that got us here from the parent, if any;
      // not the predicate at this node
      Predicate predicate = buildPredicate(treeNodePredicate.getSecond(),
                                           categoricalValueEncodings);
      modelNode.setPredicate(predicate);

      org.apache.spark.mllib.tree.model.Node treeNode = treeNodePredicate.getFirst();
      long nodeCount = nodeIDCounts.get(treeNode.id());
      modelNode.setRecordCount((double) nodeCount);

      if (treeNode.isLeaf()) {

        Predict prediction = treeNode.predict();
        int targetEncodedValue = (int) prediction.predict();
        if (classificationTask) {
          Map<Integer,String> targetEncodingToValue =
              categoricalValueEncodings.getEncodingValueMap(inputSchema.getTargetFeatureIndex());
          double predictedProbability = prediction.prob();
          Preconditions.checkState(predictedProbability >= 0.0 && predictedProbability <= 1.0);
          // Not sure how nodeCount == 0 can happen but it does in the MLlib model
          long effectiveNodeCount = Math.max(1, nodeCount);
          // Problem: MLlib only gives a predicted class and its probability, and no distribution
          // over the rest. Infer that the rest of the probability is evenly distributed.
          double restProbability = (1.0 - predictedProbability) / (targetEncodingToValue.size() - 1);

          targetEncodingToValue.forEach((encodedValue, value) -> {
            double probability = encodedValue == targetEncodedValue ? predictedProbability : restProbability;
            // Yes, recordCount may be fractional; it's a relative indicator
            double recordCount = probability * effectiveNodeCount;
            if (recordCount > 0.0) {
              ScoreDistribution distribution = new ScoreDistribution(value, recordCount);
              // Not "confident" enough in the "probability" to call it one
              distribution.setConfidence(probability);
              modelNode.addScoreDistributions(distribution);
            }
          });
        } else {
          modelNode.setScore(Double.toString(targetEncodedValue));
        }

      } else {

        Split split = treeNode.split().get();

        Node positiveModelNode = new ComplexNode().setId(modelNode.getId() + "+");
        Node negativeModelNode = new ComplexNode().setId(modelNode.getId() + "-");
        modelNode.addNodes(positiveModelNode, negativeModelNode);

        org.apache.spark.mllib.tree.model.Node rightTreeNode = treeNode.rightNode().get();
        org.apache.spark.mllib.tree.model.Node leftTreeNode = treeNode.leftNode().get();

        boolean defaultRight = nodeIDCounts.get(rightTreeNode.id()) > nodeIDCounts.get(leftTreeNode.id());
        modelNode.setDefaultChild(defaultRight ? positiveModelNode.getId() : negativeModelNode.getId());

        // Right node is "positive", so carries the predicate. It must evaluate first
        // and therefore come first in the tree
        modelNodes.add(positiveModelNode);
        modelNodes.add(negativeModelNode);
        treeNodes.add(new Pair<>(rightTreeNode, split));
        treeNodes.add(new Pair<>(leftTreeNode, null));

      }

    }

    return new TreeModel()
        .setNode(root)
        .setSplitCharacteristic(TreeModel.SplitCharacteristic.BINARY_SPLIT)
        .setMissingValueStrategy(TreeModel.MissingValueStrategy.DEFAULT_CHILD);
  }

  private Predicate buildPredicate(Split split,
                                   CategoricalValueEncodings categoricalValueEncodings) {
    if (split == null) {
      // Left child always applies, but is evaluated second
      return new True();
    }

    int featureIndex = inputSchema.predictorToFeatureIndex(split.feature());
    FieldName fieldName = FieldName.create(inputSchema.getFeatureNames().get(featureIndex));

    if (split.featureType().equals(FeatureType.Categorical())) {
      // Note that categories in MLlib model select the *left* child but the
      // convention here will be that the predicate selects the *right* child
      // So the predicate will evaluate "not in" this set
      // More ugly casting
      @SuppressWarnings("unchecked")
      Collection<Double> javaCategories = (Collection<Double>) (Collection<?>)
          JavaConversions.seqAsJavaList(split.categories());
      Set<Integer> negativeEncodings = javaCategories.stream().map(Double::intValue).collect(Collectors.toSet());

      Map<Integer,String> encodingToValue =
          categoricalValueEncodings.getEncodingValueMap(featureIndex);
      List<String> negativeValues = negativeEncodings.stream().map(encodingToValue::get).collect(Collectors.toList());

      String joinedValues = TextUtils.joinPMMLDelimited(negativeValues);
      return new SimpleSetPredicate(fieldName,
                                    SimpleSetPredicate.BooleanOperator.IS_NOT_IN,
                                    new Array(Array.Type.STRING, joinedValues));

    } else {
      // For MLlib, left means <= threshold, so right means >
      return new SimplePredicate(fieldName,
          SimplePredicate.Operator.GREATER_THAN,
          Double.toString(split.threshold()));
    }
  }

  private double[] countsToImportances(IntLongMap predictorIndexCounts) {
    double[] importances = new double[inputSchema.getNumPredictors()];
    long total = predictorIndexCounts.sum();
    predictorIndexCounts.forEachKeyValue(
        (k, count) -> importances[k] = total == 0 ? 0.0 : (double) count / total);
    return importances;
  }

}