java source code of KMeansUpdate

oryx-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - CONTRIBUTING.md
  - ISSUE_TEMPLATE.md
- src
  - site
    - resources
      - img
    - markdown
      - index.md
      - docs
        admin.md
        how-to-release.md
        performance.md
        endusers.md
        developer.md
    - site.xml
  - checkstyle
    - checkstyle.xml
- pom.xml
- LICENSE
- deploy
  - oryx-serving
    - src
      - main
        java
        com
        cloudera
        oryx
        serving
        Main.java
        package-info.java
    - pom.xml
  - oryx-batch
    - src
      - main
        java
        com
        cloudera
        oryx
        batch
        Main.java
        package-info.java
    - pom.xml
  - bin
    - oryx-run.sh
    - compute-classpath.sh
  - oryx-speed
    - src
      - main
        java
        com
        cloudera
        oryx
        speed
        Main.java
        package-info.java
    - pom.xml
- framework
  - kafka-util
    - src
      - main
        java
        com
        cloudera
        oryx
        kafka
        util
        ConsumeDataIterator.java
        package-info.java
        KafkaUtils.java
      - test
        java
        com
        cloudera
        oryx
        kafka
        util
        DatumGenerator.java
        ConsumeTopicRunnable.java
        DefaultCSVDatumGenerator.java
        ConsumeData.java
        LocalZKServer.java
        ProduceConsumeIT.java
        LocalKafkaBroker.java
        ProduceData.java
        LargeMessageIT.java
    - pom.xml
  - oryx-api
    - src
      - main
        scala
        com
        cloudera
        oryx
        api
        serving
        ScalaServingModelManager.scala
        AbstractScalaServingModelManager.scala
        speed
        ScalaSpeedModelManager.scala
        AbstractScalaSpeedModelManager.scala
        batch
        ScalaBatchLayerUpdate.scala
        java
        com
        cloudera
        oryx
        api
        serving
        ServingModelManager.java
        OryxServingException.java
        OryxResource.java
        ServingModel.java
        package-info.java
        HasCSV.java
        AbstractServingModelManager.java
        KeyMessage.java
        KeyMessageImpl.java
        speed
        AbstractSpeedModelManager.java
        SpeedModelManager.java
        package-info.java
        SpeedModel.java
        package-info.java
        batch
        BatchLayerUpdate.java
        package-info.java
        TopicProducer.java
    - pom.xml
  - oryx-common
    - src
      - main
        resources
        log4j.properties
        reference.conf
        java
        com
        cloudera
        oryx
        common
        pmml
        PMMLUtils.java
        package-info.java
        lang
        ExecUtils.java
        JVMUtils.java
        OryxShutdownHook.java
        ToDoubleObjDoubleBiFunction.java
        AutoReadWriteLock.java
        ClassUtils.java
        package-info.java
        RateLimitCheck.java
        LoggingCallable.java
        AutoLock.java
        collection
        Pairs.java
        package-info.java
        Pair.java
        CloseableIterator.java
        package-info.java
        io
        package-info.java
        IOUtils.java
        math
        Solver.java
        LinearSystemSolver.java
        package-info.java
        SingularMatrixSolverException.java
        DoubleWeightedMean.java
        VectorMath.java
        text
        TextUtils.java
        package-info.java
        random
        package-info.java
        RandomManager.java
        settings
        ConfigUtils.java
        package-info.java
        ConfigToProperties.java
      - test
        resources
        log4j.test.properties
        java
        com
        cloudera
        oryx
        common
        pmml
        PMMLUtilsTest.java
        lang
        JVMUtilsTest.java
        RateLimitCheckTest.java
        ClassUtilsTest.java
        AutoLockTest.java
        AutoReadWriteLockTest.java
        LoggingTest.java
        ExecUtilsTest.java
        collection
        PairsTest.java
        PairTest.java
        io
        IOUtilsTest.java
        math
        LinearSystemSolverTest.java
        VectorMathTest.java
        DoubleWeightedMeanTest.java
        text
        TextUtilsTest.java
        random
        RandomManagerTest.java
        RandomManagerRandomTest.java
        OryxTest.java
        settings
        ConfigUtilsTest.java
        ConfigToPropertiesTest.java
    - pom.xml
  - oryx-ml
    - src
      - main
        java
        com
        cloudera
        oryx
        ml
        package-info.java
        param
        Unordered.java
        ContinuousAround.java
        DiscreteAround.java
        ContinuousRange.java
        HyperParams.java
        package-info.java
        DiscreteRange.java
        RandomSearch.java
        GridSearch.java
        HyperParamValues.java
        MLUpdate.java
      - test
        java
        com
        cloudera
        oryx
        ml
        SimpleMLUpdateIT.java
        param
        GridSearchTest.java
        RandomSearchTest.java
        HyperParamsTest.java
        ThresholdIT.java
        MockMLUpdate.java
    - pom.xml
  - oryx-lambda-serving
    - src
      - main
        java
        com
        cloudera
        oryx
        lambda
        serving
        CSVMessageBodyWriter.java
        ScalaServingModelManagerAdapter.java
        OryxExceptionMapper.java
        ServingLayer.java
        ModelManagerListener.java
        OryxApplication.java
        package-info.java
        ErrorResource.java
        TopicProducerImpl.java
        InMemoryRealm.java
      - test
        resources
        oryxtest.jks
        java
        com
        cloudera
        oryx
        lambda
        serving
        CSVMessageBodyWriterTest.java
        SecureAPIConfigIT.java
        MockTopicProducer.java
        AbstractServingTest.java
        TopicProducerImplTest.java
        ModelManagerListenerIT.java
        OryxExceptionMapperTest.java
        MockServingModelManager.java
        AbstractServingIT.java
        HelloWorld.java
        ServingLayerTest.java
        ErrorResourceTest.java
        InMemoryRealmTest.java
    - pom.xml
  - oryx-lambda
    - src
      - main
        java
        com
        cloudera
        oryx
        lambda
        DeleteOldDataFn.java
        AbstractSparkLayer.java
        speed
        SpeedLayer.java
        package-info.java
        ScalaSpeedModelManagerAdapter.java
        SpeedLayerUpdate.java
        UpdateOffsetsFn.java
        package-info.java
        TopicProducerImpl.java
        HadoopUtils.java
        batch
        ScalaBatchLayerUpdateAdapter.java
        ValueToWritableFunction.java
        ValueWritableConverter.java
        package-info.java
        BatchUpdateFunction.java
        BatchLayer.java
        SaveToHDFSFunction.java
        WritableToValueFunction.java
      - test
        java
        com
        cloudera
        oryx
        lambda
        HadoopUtilsTest.java
        speed
        SpeedLayerIT.java
        MockSpeedModelManager.java
        AbstractSpeedIT.java
        MockModelGenerator.java
        TopicProducerImplTest.java
        AbstractSparkIT.java
        AbstractLambdaIT.java
        batch
        WritableToValueFunctionTest.java
        ValueWritableConverterTest.java
        BatchLayerIT.java
        DeleteOldDataIT.java
        AbstractBatchIT.java
        IntervalData.java
        MockBatchUpdate.java
        ValueToWritableFunctionTest.java
    - pom.xml
- .travis.yml
- README.md
- app
  - oryx-app-common
    - src
      - main
        resources
        reference.conf
        java
        com
        cloudera
        oryx
        app
        classreg
        predict
        CategoricalPrediction.java
        WeightedPrediction.java
        NumericPrediction.java
        package-info.java
        Prediction.java
        example
        CategoricalFeature.java
        ExampleUtils.java
        Example.java
        package-info.java
        FeatureType.java
        NumericFeature.java
        Feature.java
        pmml
        package-info.java
        AppPMMLUtils.java
        rdf
        decision
        Decision.java
        package-info.java
        NumericDecision.java
        CategoricalDecision.java
        package-info.java
        tree
        TreeNode.java
        DecisionForest.java
        TerminalNode.java
        DecisionTree.java
        TreeBasedClassifier.java
        package-info.java
        DecisionNode.java
        TreePath.java
        RDFPMMLUtils.java
        common
        fn
        MLFunctions.java
        package-info.java
        als
        ALSUtils.java
        FeatureVectorsPartition.java
        SolverCache.java
        FeatureVectors.java
        PartitionedFeatureVectors.java
        package-info.java
        kmeans
        DistanceFn.java
        KMeansUtils.java
        ClusterInfo.java
        EuclideanDistanceFn.java
        package-info.java
        KMeansPMMLUtils.java
        schema
        InputSchema.java
        package-info.java
        CategoricalValueEncodings.java
      - test
        java
        com
        cloudera
        oryx
        app
        classreg
        predict
        CategoricalPredictionTest.java
        NumericPredictionTest.java
        WeightedPredictionTest.java
        example
        NumericFeatureTest.java
        CategoricalFeatureTest.java
        ExampleUtilsTest.java
        pmml
        AppPMMLUtilsTest.java
        rdf
        decision
        CategoricalDecisionTest.java
        NumericDecisionTest.java
        RDFPMMLUtilsTest.java
        tree
        TreePathTest.java
        DecisionNodeTest.java
        DecisionTreeTest.java
        TerminalNodeTest.java
        DecisionForestTest.java
        common
        fn
        MLFunctionsTest.java
        als
        FeatureVectorsPartitionTest.java
        AbstractFeatureVectorTest.java
        SolverCacheTest.java
        PartitionedFeatureVectorsTest.java
        ALSUtilsTest.java
        kmeans
        KMeansUtilsTest.java
        EuclideanDistanceFnTest.java
        KMeansPMMLUtilsTest.java
        ClusterInfoTest.java
        schema
        InputSchemaTest.java
        CategoricalValueEncodingsTest.java
    - pom.xml
  - oryx-app-api
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        als
        AbstractRescorerProvider.java
        Rescorer.java
        RescorerProvider.java
        MultiRescorer.java
        MultiRescorerProvider.java
      - test
        java
        com
        cloudera
        oryx
        app
        als
        SimpleModRescorer.java
        ErrorProvider.java
        AbstractRescorerProviderTest.java
        MultiRescorerTest.java
        NullProvider1.java
        SimpleModRescorerProvider.java
        MultiRescorerProviderTest.java
    - pom.xml
  - oryx-app
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        speed
        rdf
        RDFSpeedModel.java
        RDFSpeedModelManager.java
        package-info.java
        als
        ALSSpeedModelManager.java
        ALSSpeedModel.java
        package-info.java
        UserItemStrength.java
        kmeans
        package-info.java
        KMeansSpeedModelManager.java
        KMeansSpeedModel.java
      - test
        java
        com
        cloudera
        oryx
        app
        speed
        rdf
        MockRDFClassificationInputGenerator.java
        MockRDFRegressionModelGenerator.java
        RDFSpeedIT.java
        MockRDFRegressionInputGenerator.java
        MockRDFClassificationModelGenerator.java
        als
        MockALSModelUpdateGenerator.java
        MockALSInputGenerator.java
        ALSSpeedModelTest.java
        ALSSpeedIT.java
        kmeans
        KMeansSpeedModelTest.java
        MockKMeansInputGenerator.java
        MockKMeansModelGenerator.java
        KMeansSpeedIT.java
    - pom.xml
  - example
    - src
      - main
        scala
        com
        cloudera
        oryx
        example
        serving
        ExampleScalaServingModelManager.scala
        speed
        ExampleScalaSpeedModelManager.scala
        batch
        ExampleScalaBatchLayerUpdate.scala
        java
        com
        cloudera
        oryx
        example
        serving
        Add.java
        Distinct.java
        package-info.java
        ExampleServingModel.java
        ExampleServingModelManager.java
        speed
        package-info.java
        ExampleSpeedModelManager.java
        batch
        ExampleBatchLayerUpdate.java
        package-info.java
    - pom.xml
  - oryx-app-mllib
    - src
      - main
        java
        com
        cloudera
        oryx
        app
        batch
        mllib
        rdf
        RDFUpdate.java
        package-info.java
        Evaluation.java
        als
        EnqueueFeatureVecsFn.java
        EnqueueFeatureVecsAndKnownItemsFn.java
        ALSUpdate.java
        package-info.java
        Evaluation.java
        kmeans
        KMeansUpdate.java
        KMeansEvalStrategy.java
        DunnIndex.java
        ClusterMetric.java
        package-info.java
        SilhouetteCoefficient.java
        AbstractKMeansEvaluation.java
        DaviesBouldinIndex.java
        SumSquaredError.java
      - test
        java
        com
        cloudera
        oryx
        app
        batch
        mllib
        rdf
        RandomNumericRDFDataGenerator.java
        RDFUpdateIT.java
        AbstractRDFIT.java
        RandomCategoricalRDFDataGenerator.java
        RDFCategoricalHyperParamTuningIT.java
        RDFNumericHyperParamTuningIT.java
        AbstractAppMLlibIT.java
        als
        ALSUpdateIT.java
        FeaturesALSDataGenerator.java
        ALSUpdateTest.java
        AbstractALSIT.java
        RandomALSDataGenerator.java
        ALSModelContentIT.java
        ALSHyperParamTuningIT.java
        ModelContentDataGenerator.java
        kmeans
        AbstractKMeansIT.java
        KMeansHyperParamTuningIT.java
        RandomKMeansDataGenerator.java
        KMeansUpdateIT.java
        KMeansEvalIT.java
    - pom.xml
  - conf
    - rdf-classification-example.conf
    - rdf-regression-example.conf
    - als-example.conf
    - wordcount-example.conf
    - kmeans-example.conf
  - oryx-app-serving
    - src
      - main
        resources
        com
        cloudera
        oryx
        app
        serving
        rdf
        rdf.html.fragment
        als
        als.html.fragment
        kmeans
        kmeans.html.fragment
        console-footer.html.fragment
        console-header.html.fragment
        java
        com
        cloudera
        oryx
        app
        serving
        IDCount.java
        IDEntity.java
        FileItemPart.java
        classreg
        Train.java
        Predict.java
        package-info.java
        model
        ClassificationRegressionServingModel.java
        rdf
        FeatureImportance.java
        Console.java
        ClassificationDistribution.java
        package-info.java
        model
        package-info.java
        RDFServingModelManager.java
        RDFServingModel.java
        Ready.java
        IDValue.java
        AbstractConsoleResource.java
        clustering
        Assign.java
        Add.java
        model
        package-info.java
        ClusteringServingModel.java
        als
        RecommendToMany.java
        KnownItems.java
        Because.java
        Ingest.java
        RecommendWithContext.java
        AllItemIDs.java
        CosineAverageFunction.java
        EstimateForAnonymous.java
        Console.java
        PopularRepresentativeItems.java
        CosineDistanceSensitiveFunction.java
        AbstractALSResource.java
        MostSurprising.java
        Estimate.java
        Similarity.java
        RecommendToAnonymous.java
        MostActiveUsers.java
        package-info.java
        Preference.java
        Recommend.java
        MostPopularItems.java
        DotsFunction.java
        model
        TopNConsumer.java
        LocalitySensitiveHash.java
        package-info.java
        ALSServingModel.java
        ALSServingModelManager.java
        SimilarityToItem.java
        AllUserIDs.java
        AbstractOryxResource.java
        package-info.java
        kmeans
        Console.java
        DistanceToNearest.java
        package-info.java
        model
        KMeansServingModel.java
        package-info.java
        KMeansServingModelManager.java
      - test
        java
        com
        cloudera
        oryx
        app
        serving
        rdf
        PredictTest.java
        ReadyTest.java
        AbstractRDFServingTest.java
        ConsoleTest.java
        ClassificationDistributionTest.java
        model
        TestRDFRegressionModelFactory.java
        RDFServingModelManagerIT.java
        TestRDFClassificationModelFactory.java
        FeatureImportanceTest.java
        TrainTest.java
        ReadOnlyTest.java
        als
        ReadyTest.java
        RecommendTest.java
        KnownItemsTest.java
        AllItemIDsTest.java
        CompressedResponseTest.java
        ConsoleTest.java
        SimilarityTest.java
        MostSurprisingTest.java
        SimilarityToItemTest.java
        MostPopularItemsTest.java
        MostActiveUsersTest.java
        RecommendToAnonymousTest.java
        LoadBenchmark.java
        BecauseTest.java
        AbstractALSServingTest.java
        PreferenceTest.java
        EstimateForAnonymousTest.java
        AllUserIDsTest.java
        TestALSRescorerProvider.java
        EstimateTest.java
        model
        NullProvider2.java
        ALSServingModelManagerIT.java
        ALSServingModelTest.java
        TestALSModelFactory.java
        ALSServingInputProducerIT.java
        TopNConsumerTest.java
        LocalitySensitiveHashTest.java
        ALSServingModelManagerTest.java
        LoadTestALSModelFactory.java
        RecommendToManyTest.java
        PopularRepresentativeItemsTest.java
        RecommendWithContextTest.java
        IngestTest.java
        ReadOnlyTest.java
        kmeans
        ReadyTest.java
        AddTest.java
        AssignTest.java
        AbstractKMeansServingTest.java
        ConsoleTest.java
        DistanceToNearestTest.java
        model
        TestKMeansModelFactory.java
        KMeansServingModelManagerIT.java
        ReadOnlyTest.java
        traffic
        TrafficUtil.java
        Endpoint.java
        als
        ALSEndpoint.java
        Endpoints.java
    - pom.xml
- NOTICE
- .gitignore
- docs
  - img
    - loading.gif
  - CNAME
  - project-reports.html
  - js
    - reflow-skin.js
    - reflow-scroll.js
    - lightbox.min.js
  - index.html
  - docs
    - performance.html
    - endusers.html
    - how-to-release.html
    - developer.html
    - admin.html
  - css
    - reflow-skin.css
    - bootswatch.css
    - lightbox.css
    - docs.css
    - print.css
    - site.css
  - apidocs
    - package-list
    - script.js
    - overview-summary.html
    - overview-frame.html
    - overview-tree.html
    - serialized-form.html
    - help-doc.html
    - constant-values.html
    - deprecated-list.html
    - allclasses-frame.html
    - allclasses-noframe.html
    - com
      - cloudera
        oryx
        kafka
        util
        package-frame.html
        class-use
        KafkaUtils.html
        ConsumeDataIterator.html
        package-tree.html
        KafkaUtils.html
        ConsumeDataIterator.html
        package-summary.html
        package-use.html
        serving
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
        ml
        package-frame.html
        class-use
        MLUpdate.html
        package-tree.html
        param
        package-frame.html
        class-use
        HyperParamValues.html
        HyperParams.html
        package-tree.html
        HyperParamValues.html
        package-summary.html
        HyperParams.html
        package-use.html
        MLUpdate.html
        package-summary.html
        package-use.html
        speed
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
        api
        package-frame.html
        serving
        package-frame.html
        class-use
        ServingModel.html
        OryxResource.html
        ServingModelManager.html
        AbstractServingModelManager.html
        OryxServingException.html
        HasCSV.html
        package-tree.html
        ServingModel.html
        OryxResource.html
        ServingModelManager.html
        AbstractServingModelManager.html
        package-summary.html
        OryxServingException.html
        package-use.html
        HasCSV.html
        speed
        SpeedModelManager.html
        package-frame.html
        class-use
        SpeedModelManager.html
        SpeedModel.html
        AbstractSpeedModelManager.html
        package-tree.html
        SpeedModel.html
        package-summary.html
        package-use.html
        AbstractSpeedModelManager.html
        class-use
        TopicProducer.html
        KeyMessageImpl.html
        KeyMessage.html
        TopicProducer.html
        package-tree.html
        KeyMessageImpl.html
        KeyMessage.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        BatchLayerUpdate.html
        package-tree.html
        BatchLayerUpdate.html
        package-summary.html
        package-use.html
        common
        package-frame.html
        package-tree.html
        pmml
        package-frame.html
        class-use
        PMMLUtils.html
        package-tree.html
        PMMLUtils.html
        package-summary.html
        package-use.html
        lang
        package-frame.html
        class-use
        RateLimitCheck.html
        AutoReadWriteLock.html
        LoggingCallable.html
        JVMUtils.html
        ClassUtils.html
        AutoLock.html
        ExecUtils.html
        LoggingCallable.AllowExceptionSupplier.html
        OryxShutdownHook.html
        ToDoubleObjDoubleBiFunction.html
        package-tree.html
        RateLimitCheck.html
        AutoReadWriteLock.html
        LoggingCallable.html
        JVMUtils.html
        ClassUtils.html
        AutoLock.html
        ExecUtils.html
        LoggingCallable.AllowExceptionSupplier.html
        OryxShutdownHook.html
        package-summary.html
        package-use.html
        ToDoubleObjDoubleBiFunction.html
        collection
        package-frame.html
        Pairs.SortOrder.html
        class-use
        Pairs.SortOrder.html
        CloseableIterator.html
        Pairs.html
        Pair.html
        CloseableIterator.html
        package-tree.html
        Pairs.html
        Pair.html
        package-summary.html
        package-use.html
        io
        package-frame.html
        class-use
        IOUtils.html
        package-tree.html
        IOUtils.html
        package-summary.html
        package-use.html
        math
        package-frame.html
        class-use
        VectorMath.html
        SingularMatrixSolverException.html
        Solver.html
        LinearSystemSolver.html
        DoubleWeightedMean.html
        package-tree.html
        VectorMath.html
        SingularMatrixSolverException.html
        Solver.html
        LinearSystemSolver.html
        package-summary.html
        package-use.html
        DoubleWeightedMean.html
        text
        package-frame.html
        class-use
        TextUtils.html
        package-tree.html
        TextUtils.html
        package-summary.html
        package-use.html
        random
        package-frame.html
        class-use
        RandomManager.html
        package-tree.html
        package-summary.html
        package-use.html
        RandomManager.html
        package-summary.html
        settings
        package-frame.html
        ConfigToProperties.html
        class-use
        ConfigToProperties.html
        ConfigUtils.html
        package-tree.html
        ConfigUtils.html
        package-summary.html
        package-use.html
        package-use.html
        lambda
        package-frame.html
        serving
        package-frame.html
        class-use
        OryxExceptionMapper.html
        InMemoryRealm.html
        ModelManagerListener.html
        TopicProducerImpl.html
        ServingLayer.html
        OryxApplication.html
        CSVMessageBodyWriter.html
        ErrorResource.html
        ScalaServingModelManagerAdapter.html
        package-tree.html
        OryxExceptionMapper.html
        InMemoryRealm.html
        ModelManagerListener.html
        TopicProducerImpl.html
        ServingLayer.html
        OryxApplication.html
        CSVMessageBodyWriter.html
        ErrorResource.html
        ScalaServingModelManagerAdapter.html
        package-summary.html
        package-use.html
        speed
        package-frame.html
        class-use
        ScalaSpeedModelManagerAdapter.html
        SpeedLayer.html
        package-tree.html
        package-summary.html
        ScalaSpeedModelManagerAdapter.html
        package-use.html
        SpeedLayer.html
        class-use
        HadoopUtils.html
        TopicProducerImpl.html
        UpdateOffsetsFn.html
        AbstractSparkLayer.html
        DeleteOldDataFn.html
        package-tree.html
        HadoopUtils.html
        TopicProducerImpl.html
        UpdateOffsetsFn.html
        AbstractSparkLayer.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        ScalaBatchLayerUpdateAdapter.html
        class-use
        ScalaBatchLayerUpdateAdapter.html
        BatchLayer.html
        package-tree.html
        BatchLayer.html
        package-summary.html
        package-use.html
        DeleteOldDataFn.html
        example
        serving
        package-frame.html
        Distinct.html
        class-use
        Distinct.html
        ExampleServingModel.html
        ExampleServingModelManager.html
        Add.html
        package-tree.html
        ExampleServingModel.html
        package-summary.html
        ExampleServingModelManager.html
        package-use.html
        Add.html
        speed
        package-frame.html
        class-use
        ExampleSpeedModelManager.html
        package-tree.html
        ExampleSpeedModelManager.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        ExampleBatchLayerUpdate.html
        package-tree.html
        ExampleBatchLayerUpdate.html
        package-summary.html
        package-use.html
        app
        serving
        package-frame.html
        classreg
        package-frame.html
        class-use
        Train.html
        Predict.html
        package-tree.html
        Train.html
        Predict.html
        model
        package-frame.html
        class-use
        ClassificationRegressionServingModel.html
        package-tree.html
        ClassificationRegressionServingModel.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        class-use
        Ready.html
        AbstractConsoleResource.html
        AbstractOryxResource.html
        IDValue.html
        IDCount.html
        package-tree.html
        Ready.html
        rdf
        package-frame.html
        Console.html
        class-use
        Console.html
        ClassificationDistribution.html
        FeatureImportance.html
        package-tree.html
        ClassificationDistribution.html
        FeatureImportance.html
        model
        package-frame.html
        class-use
        RDFServingModelManager.html
        RDFServingModel.html
        package-tree.html
        RDFServingModelManager.html
        RDFServingModel.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        AbstractConsoleResource.html
        clustering
        package-frame.html
        class-use
        Assign.html
        Add.html
        package-tree.html
        Assign.html
        model
        package-frame.html
        class-use
        ClusteringServingModel.html
        package-tree.html
        package-summary.html
        package-use.html
        ClusteringServingModel.html
        package-summary.html
        package-use.html
        Add.html
        als
        package-frame.html
        Similarity.html
        Console.html
        CosineDistanceSensitiveFunction.html
        Because.html
        Recommend.html
        class-use
        Similarity.html
        Console.html
        CosineDistanceSensitiveFunction.html
        Because.html
        Recommend.html
        Ingest.html
        Preference.html
        EstimateForAnonymous.html
        DotsFunction.html
        RecommendToMany.html
        Estimate.html
        PopularRepresentativeItems.html
        MostPopularItems.html
        AllItemIDs.html
        SimilarityToItem.html
        KnownItems.html
        CosineAverageFunction.html
        RecommendWithContext.html
        MostSurprising.html
        AllUserIDs.html
        RecommendToAnonymous.html
        MostActiveUsers.html
        package-tree.html
        Ingest.html
        Preference.html
        EstimateForAnonymous.html
        DotsFunction.html
        RecommendToMany.html
        Estimate.html
        PopularRepresentativeItems.html
        MostPopularItems.html
        AllItemIDs.html
        SimilarityToItem.html
        KnownItems.html
        CosineAverageFunction.html
        RecommendWithContext.html
        model
        package-frame.html
        ALSServingModelManager.html
        class-use
        ALSServingModelManager.html
        ALSServingModel.html
        package-tree.html
        ALSServingModel.html
        package-summary.html
        package-use.html
        MostSurprising.html
        package-summary.html
        AllUserIDs.html
        RecommendToAnonymous.html
        package-use.html
        MostActiveUsers.html
        AbstractOryxResource.html
        IDValue.html
        kmeans
        package-frame.html
        Console.html
        class-use
        Console.html
        DistanceToNearest.html
        package-tree.html
        DistanceToNearest.html
        model
        package-frame.html
        class-use
        KMeansServingModel.html
        KMeansServingModelManager.html
        package-tree.html
        KMeansServingModel.html
        package-summary.html
        package-use.html
        KMeansServingModelManager.html
        package-summary.html
        package-use.html
        package-summary.html
        IDCount.html
        package-use.html
        classreg
        predict
        package-frame.html
        class-use
        Prediction.html
        NumericPrediction.html
        WeightedPrediction.html
        CategoricalPrediction.html
        package-tree.html
        Prediction.html
        NumericPrediction.html
        WeightedPrediction.html
        CategoricalPrediction.html
        package-summary.html
        package-use.html
        example
        package-frame.html
        class-use
        NumericFeature.html
        ExampleUtils.html
        Feature.html
        FeatureType.html
        CategoricalFeature.html
        Example.html
        package-tree.html
        NumericFeature.html
        ExampleUtils.html
        Feature.html
        FeatureType.html
        CategoricalFeature.html
        Example.html
        package-summary.html
        package-use.html
        speed
        rdf
        package-frame.html
        class-use
        RDFSpeedModel.html
        RDFSpeedModelManager.html
        package-tree.html
        RDFSpeedModel.html
        RDFSpeedModelManager.html
        package-summary.html
        package-use.html
        als
        package-frame.html
        ALSSpeedModelManager.html
        class-use
        ALSSpeedModelManager.html
        ALSSpeedModel.html
        package-tree.html
        ALSSpeedModel.html
        package-summary.html
        package-use.html
        kmeans
        package-frame.html
        class-use
        KMeansSpeedModelManager.html
        KMeansSpeedModel.html
        package-tree.html
        KMeansSpeedModelManager.html
        package-summary.html
        package-use.html
        KMeansSpeedModel.html
        pmml
        package-frame.html
        class-use
        AppPMMLUtils.html
        package-tree.html
        AppPMMLUtils.html
        package-summary.html
        package-use.html
        rdf
        package-frame.html
        decision
        package-frame.html
        NumericDecision.html
        class-use
        NumericDecision.html
        Decision.html
        CategoricalDecision.html
        package-tree.html
        Decision.html
        CategoricalDecision.html
        package-summary.html
        package-use.html
        class-use
        RDFPMMLUtils.html
        package-tree.html
        RDFPMMLUtils.html
        tree
        package-frame.html
        DecisionTree.html
        TerminalNode.html
        class-use
        DecisionTree.html
        TerminalNode.html
        DecisionNode.html
        TreeNode.html
        DecisionForest.html
        TreeBasedClassifier.html
        package-tree.html
        DecisionNode.html
        TreeNode.html
        DecisionForest.html
        TreeBasedClassifier.html
        package-summary.html
        package-use.html
        package-summary.html
        package-use.html
        common
        fn
        package-frame.html
        class-use
        MLFunctions.html
        package-tree.html
        package-summary.html
        package-use.html
        MLFunctions.html
        als
        package-frame.html
        FeatureVectors.html
        class-use
        FeatureVectors.html
        FeatureVectorsPartition.html
        AbstractRescorerProvider.html
        Rescorer.html
        PartitionedFeatureVectors.html
        RescorerProvider.html
        ALSUtils.html
        SolverCache.html
        MultiRescorer.html
        MultiRescorerProvider.html
        package-tree.html
        FeatureVectorsPartition.html
        AbstractRescorerProvider.html
        Rescorer.html
        PartitionedFeatureVectors.html
        RescorerProvider.html
        ALSUtils.html
        package-summary.html
        SolverCache.html
        MultiRescorer.html
        package-use.html
        MultiRescorerProvider.html
        kmeans
        package-frame.html
        EuclideanDistanceFn.html
        ClusterInfo.html
        class-use
        EuclideanDistanceFn.html
        ClusterInfo.html
        KMeansUtils.html
        DistanceFn.html
        KMeansPMMLUtils.html
        package-tree.html
        KMeansUtils.html
        DistanceFn.html
        package-summary.html
        KMeansPMMLUtils.html
        package-use.html
        schema
        package-frame.html
        CategoricalValueEncodings.html
        class-use
        CategoricalValueEncodings.html
        InputSchema.html
        package-tree.html
        InputSchema.html
        package-summary.html
        package-use.html
        batch
        mllib
        rdf
        package-frame.html
        class-use
        RDFUpdate.html
        package-tree.html
        RDFUpdate.html
        package-summary.html
        package-use.html
        als
        package-frame.html
        class-use
        ALSUpdate.html
        package-tree.html
        ALSUpdate.html
        package-summary.html
        package-use.html
        kmeans
        package-frame.html
        KMeansEvalStrategy.html
        class-use
        KMeansEvalStrategy.html
        KMeansUpdate.html
        package-tree.html
        KMeansUpdate.html
        package-summary.html
        package-use.html
        batch
        package-frame.html
        class-use
        Main.html
        package-tree.html
        package-summary.html
        Main.html
        package-use.html
    - index.html
    - stylesheet.css

/*
 * Copyright (c) 2014, Cloudera and Intel, Inc. All Rights Reserved.
 *
 * Cloudera, Inc. licenses this file to you under the Apache License,
 * Version 2.0 (the "License"). You may not use this file except in
 * compliance with the License. You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * This software is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR
 * CONDITIONS OF ANY KIND, either express or implied. See the License for
 * the specific language governing permissions and limitations under the
 * License.
 */

package com.cloudera.oryx.app.batch.mllib.kmeans;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Map;

import com.google.common.base.Preconditions;
import com.typesafe.config.Config;
import org.apache.hadoop.fs.Path;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.mllib.clustering.KMeans;
import org.apache.spark.mllib.clustering.KMeansModel;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;
import org.dmg.pmml.ComparisonMeasure;
import org.dmg.pmml.FieldName;
import org.dmg.pmml.MiningFunction;
import org.dmg.pmml.PMML;
import org.dmg.pmml.SquaredEuclidean;
import org.dmg.pmml.clustering.Cluster;
import org.dmg.pmml.clustering.ClusteringField;
import org.dmg.pmml.clustering.ClusteringModel;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.cloudera.oryx.app.common.fn.MLFunctions;
import com.cloudera.oryx.app.kmeans.ClusterInfo;
import com.cloudera.oryx.app.kmeans.KMeansPMMLUtils;
import com.cloudera.oryx.app.kmeans.KMeansUtils;
import com.cloudera.oryx.app.pmml.AppPMMLUtils;
import com.cloudera.oryx.app.schema.InputSchema;
import com.cloudera.oryx.common.pmml.PMMLUtils;
import com.cloudera.oryx.ml.MLUpdate;
import com.cloudera.oryx.ml.param.HyperParamValues;
import com.cloudera.oryx.ml.param.HyperParams;

/**
 * Update function that builds and evaluates k-means models in the Batch Layer.
 */
public final class KMeansUpdate extends MLUpdate<String> {

  private static final Logger log = LoggerFactory.getLogger(KMeansUpdate.class);

  private final String initializationStrategy;
  private final int maxIterations;
  private final List<HyperParamValues<?>> hyperParamValues;
  private final InputSchema inputSchema;
  private final KMeansEvalStrategy evaluationStrategy;

  public KMeansUpdate(Config config) {
    super(config);
    initializationStrategy = config.getString("oryx.kmeans.initialization-strategy");
    evaluationStrategy = Enum.valueOf(KMeansEvalStrategy.class, config.getString("oryx.kmeans.evaluation-strategy"));
    maxIterations = config.getInt("oryx.kmeans.iterations");
    hyperParamValues = new ArrayList<>();
    hyperParamValues.add(HyperParams.fromConfig(config, "oryx.kmeans.hyperparams.k"));
    inputSchema = new InputSchema(config);
    Preconditions.checkArgument(maxIterations > 0);
    Preconditions.checkArgument(
        initializationStrategy.equals(KMeans.K_MEANS_PARALLEL()) ||
            initializationStrategy.equals(KMeans.RANDOM()));
    // Should be an unsupervised problem. This impl only supports numeric features.
    Preconditions.checkArgument(!inputSchema.hasTarget());
    for (int i = 0; i < inputSchema.getNumFeatures(); i++) {
      Preconditions.checkArgument(!inputSchema.isCategorical(i));
    }
  }

  /**
   * @return a list of hyperparameter value ranges to try, one {@link HyperParamValues} per
   *  hyperparameter. Different combinations of the values derived from the list will be
   *  passed back into {@link #buildModel(JavaSparkContext,JavaRDD,List,Path)}
   */
  @Override
  public List<HyperParamValues<?>> getHyperParameterValues() {
    return hyperParamValues;
  }

  /**
   * @param sparkContext    active Spark Context
   * @param trainData       training data on which to build a model
   * @param hyperParameters ordered list of hyper parameter values to use in building model
   * @param candidatePath   directory where additional model files can be written
   * @return a {@link PMML} representation of a model trained on the given data
   */
  @Override
  public PMML buildModel(JavaSparkContext sparkContext,
                         JavaRDD<String> trainData,
                         List<?> hyperParameters,
                         Path candidatePath) {
    int numClusters = (Integer) hyperParameters.get(0);
    Preconditions.checkArgument(numClusters > 1);
    log.info("Building KMeans Model with {} clusters", numClusters);

    JavaRDD<Vector> trainingData = parsedToVectorRDD(trainData.map(MLFunctions.PARSE_FN));
    KMeansModel kMeansModel = KMeans.train(trainingData.rdd(), numClusters, maxIterations, initializationStrategy);

    return kMeansModelToPMML(kMeansModel, fetchClusterCountsFromModel(trainingData, kMeansModel));
  }

  /**
   * @param trainPointData data to cluster
   * @param model trained KMeans Model
   * @return map of ClusterId, count of points associated with the clusterId
   */
  private static Map<Integer,Long> fetchClusterCountsFromModel(JavaRDD<? extends Vector> trainPointData,
                                                               KMeansModel model) {
     return trainPointData.map(model::predict).countByValue();
  }

  /**
   * @param sparkContext    active Spark Context
   * @param model           model to evaluate
   * @param modelParentPath directory containing model files, if applicable
   * @param testData        data on which to test the model performance
   * @return an evaluation of the model on the test data. Higher should mean "better"
   */
  @Override
  public double evaluate(JavaSparkContext sparkContext,
                         PMML model,
                         Path modelParentPath,
                         JavaRDD<String> testData,
                         JavaRDD<String> trainData) {
    KMeansPMMLUtils.validatePMMLVsSchema(model, inputSchema);
    JavaRDD<Vector> evalData =
        parsedToVectorRDD(trainData.union(testData).map(MLFunctions.PARSE_FN));
    List<ClusterInfo> clusterInfoList = KMeansPMMLUtils.read(model);

    log.info("Evaluation Strategy is {}", evaluationStrategy);
    double eval;
    switch (evaluationStrategy) {
      case DAVIES_BOULDIN:
        double dbIndex = new DaviesBouldinIndex(clusterInfoList).evaluate(evalData);
        log.info("Davies-Bouldin index: {}", dbIndex);
        eval = -dbIndex;
        break;
      case DUNN:
        double dunnIndex = new DunnIndex(clusterInfoList).evaluate(evalData);
        log.info("Dunn index: {}", dunnIndex);
        eval = dunnIndex;
        break;
      case SILHOUETTE:
        double silhouette = new SilhouetteCoefficient(clusterInfoList).evaluate(evalData);
        log.info("Silhouette Coefficient: {}", silhouette);
        eval = silhouette;
        break;
      case SSE :
        double sse = new SumSquaredError(clusterInfoList).evaluate(evalData);
        log.info("Sum squared error: {}", sse);
        eval = -sse;
        break;
      default:
        throw new IllegalArgumentException("Unknown evaluation strategy " + evaluationStrategy);
    }

    return eval;
  }

  /**
   * @param model {@link KMeansModel} to translate to PMML
   * @return PMML representation of a KMeans cluster model
   */
  private PMML kMeansModelToPMML(KMeansModel model, Map<Integer,Long> clusterSizesMap) {
    ClusteringModel clusteringModel = pmmlClusteringModel(model, clusterSizesMap);
    PMML pmml = PMMLUtils.buildSkeletonPMML();
    pmml.setDataDictionary(AppPMMLUtils.buildDataDictionary(inputSchema, null));
    pmml.addModels(clusteringModel);
    return pmml;
  }

  private ClusteringModel pmmlClusteringModel(KMeansModel model,
                                              Map<Integer,Long> clusterSizesMap) {
    Vector[] clusterCenters = model.clusterCenters();

    List<ClusteringField> clusteringFields = new ArrayList<>();
    for (int i = 0; i < inputSchema.getNumFeatures(); i++) {
      if (inputSchema.isActive(i)) {
        FieldName fieldName = FieldName.create(inputSchema.getFeatureNames().get(i));
        ClusteringField clusteringField =
            new ClusteringField(fieldName).setCenterField(ClusteringField.CenterField.TRUE);
        clusteringFields.add(clusteringField);
      }
    }

    List<Cluster> clusters = new ArrayList<>(clusterCenters.length);
    for (int i = 0; i < clusterCenters.length; i++) {
      clusters.add(new Cluster().setId(Integer.toString(i))
                       .setSize(clusterSizesMap.get(i).intValue())
                       .setArray(AppPMMLUtils.toArray(clusterCenters[i].toArray())));
    }

    return new ClusteringModel(
        MiningFunction.CLUSTERING,
        ClusteringModel.ModelClass.CENTER_BASED,
        clusters.size(),
        AppPMMLUtils.buildMiningSchema(inputSchema),
        new ComparisonMeasure(ComparisonMeasure.Kind.DISTANCE, new SquaredEuclidean()),
        clusteringFields,
        clusters);
  }

  private JavaRDD<Vector> parsedToVectorRDD(JavaRDD<String[]> parsedRDD) {
    return parsedRDD.map(data -> {
      try {
        return Vectors.dense(KMeansUtils.featuresFromTokens(data, inputSchema));
      } catch (NumberFormatException | ArrayIndexOutOfBoundsException e) {
        log.warn("Bad input: {}", Arrays.toString(data));
        throw e;
      }
    });
  }

}