scala source code of PartitionConsolidatorSuite

mmlspark-master
- .github
  - ISSUE_TEMPLATE
    - feature_request.md
    - bug_report.md
  - config.yml
- src
  - main
    - scala
      - com
        microsoft
        ml
        spark
        recommendation
        SAR.scala
        RankingEvaluator.scala
        RankingAdapter.scala
        RankingTrainValidationSplit.scala
        RecommendationIndexer.scala
        recommendation.txt
        SARModel.scala
        stages
        Repartition.txt
        Batchers.scala
        SummarizeData.txt
        MultiColumnAdapter.scala
        SummarizeData.scala
        udfs.scala
        Cacher.scala
        ClassBalancer.scala
        TextPreprocessor.scala
        EnsembleByKey.txt
        UDFTransformer.scala
        EnsembleByKey.scala
        Timer.scala
        Lambda.scala
        DropColumns.scala
        RenameColumn.scala
        Explode.scala
        MultiColumnAdapter.txt
        MiniBatchTransformer.scala
        Repartition.scala
        StratifiedRepartition.scala
        SelectColumns.scala
        UnicodeNormalize.scala
        SelectColumns.txt
        featurize
        Featurize.scala
        CleanMissingData.txt
        AssembleFeatures.txt
        IndexToValue.txt
        ValueIndexer.txt
        DataConversion.scala
        CleanMissingData.scala
        text
        PageSplitter.scala
        TextFeaturizer.txt
        TextFeaturizer.scala
        MultiNGram.scala
        ValueIndexerModel.txt
        Featurize.txt
        IndexToValue.scala
        AssembleFeatures.scala
        DataConversion.txt
        ValueIndexer.scala
        opencv
        OpenCVUtils.scala
        ImageTransformer.scala
        nn
        ConditionalKNN.scala
        KNN.scala
        Schemas.scala
        BoundedPriorityQueue.scala
        BallTree.scala
        automl
        FindBestModel.scala
        ParamSpace.scala
        DefaultHyperparams.scala
        EvaluationUtils.scala
        FindBestModel.txt
        TuneHyperparameters.txt
        HyperparamBuilder.scala
        TuneHyperparameters.scala
        isolationforest
        IsolationForest.scala
        lightgbm
        LightGBMUtils.scala
        LightGBMBoosterParam.scala
        LightGBMParams.scala
        LightGBMBase.scala
        LightGBMDelegate.scala
        LightGBMDataset.scala
        LightGBMModelMethods.scala
        LightGBMRegressor.scala
        LightGBMClassifier.scala
        LightGBMRanker.scala
        LightGBMClassifier.txt
        TrainUtils.scala
        TrainParams.scala
        LightGBMRanker.txt
        LightGBMRegressor.txt
        LightGBMBooster.scala
        LightGBMConstants.scala
        vw
        VowpalWabbitRegressor.scala
        VowpalWabbitInteractions.scala
        HasNumBits.scala
        HasSumcollisions.scala
        VowpalWabbitBase.scala
        VowpalWabbitMurmurWithPrefix.scala
        featurizer
        VectorFeaturizer.scala
        MapStringFeaturizer.scala
        NumericFeaturizer.scala
        StringFeaturizer.scala
        StringArrayFeaturizer.scala
        BooleanFeaturizer.scala
        StringSplitFeaturizer.scala
        MapFeaturizer.scala
        Featurizer.scala
        VowpalWabbitBaseModel.scala
        VectorUtils.scala
        VowpalWabbitClassifier.scala
        VowpalWabbitFeaturizer.scala
        io
        binary
        KeyValueReaderIterator.scala
        BinaryFileFormat.scala
        BinaryFileReader.scala
        Binary.scala
        powerbi
        PowerBIWriter.scala
        IOImplicits.scala
        http
        SimpleHTTPTransformer.scala
        Clients.scala
        HTTPTransformer.scala
        SharedVariable.scala
        Parsers.scala
        HTTPSchema.scala
        HTTPClients.scala
        PartitionConsolidator.scala
        PortForwarding.scala
        image
        ImageUtils.scala
        lime
        LIME.scala
        SuperpixelTransformer.scala
        BreezeUtils.scala
        Superpixel.scala
        downloader
        Schema.scala
        ModelDownloader.scala
        core
        utils
        CastUtilities.scala
        AsyncUtils.scala
        ClusterUtil.scala
        StopWatch.scala
        ContextObjectInputStream.scala
        spark
        FluentAPI.scala
        contracts
        Metrics.scala
        Params.scala
        metrics
        MetricUtils.scala
        MetricConstants.scala
        schema
        DatasetExtensions.scala
        SparkSchema.scala
        SparkBindings.scala
        ImageSchemaUtils.scala
        BinaryFileSchema.scala
        Categoricals.scala
        SchemaConstants.scala
        env
        FileUtilities.scala
        StreamUtilities.scala
        InternalWrapper.scala
        NativeLoader.java
        serialize
        ComplexParam.scala
        ConstructorWriter.scala
        train
        ComputeModelStatistics.scala
        AutoTrainer.scala
        AutoTrainedModel.scala
        TrainRegressor.scala
        ComputeModelStatistics.txt
        TrainRegressor.txt
        ComputePerInstanceStatistics.scala
        TrainClassifier.scala
        ComputePerInstanceStatistics.txt
        TrainClassifier.txt
        cntk
        ConversionUtils.scala
        CNTKModel.scala
        CNTKFunctionParam.scala
        _CNTKModel.txt
        image
        UnrollImage.scala
        ImageSetAugmenter.scala
        ImageFeaturizer.scala
        UnrollImage.txt
        ImageFeaturizer.txt
        ResizeImageTransformer.scala
        cognitive
        BingImageSearch.scala
        ImageSearchSchemas.scala
        SpeechToText.scala
        ComputerVision.scala
        TextAnalytics.scala
        AzureSearchAPI.scala
        CognitiveServiceBase.scala
        AzureSearchSchemas.scala
        ComputerVisionSchemas.scala
        FaceSchemas.scala
        AzureSearch.scala
        CognitiveServiceSchemas.scala
        AnamolyDetection.scala
        SpeechToTextSDK.scala
        AudioStreams.scala
        RESTHelpers.scala
        AnomalyDetectorSchemas.scala
        Face.scala
        SpeechSchemas.scala
        TextAnalyticsSchemas.scala
        CNTK
        SerializableFunction.scala
      - org
        apache
        spark
        sql
        types
        injections
        OptimizedCKNNFitting.scala
        MetadataUtilities.scala
        execution
        streaming
        HTTPSource.scala
        continuous
        HTTPSourceV2.scala
        HTTPSinkV2.scala
        DistributedHTTPSource.scala
        ServingUDFs.scala
        ml
        NamespaceInjections.scala
        Serializer.scala
        recommendation
        RecommendationHelper.scala
        source
        image
        PatchedImageFileFormat.scala
        feature
        FastVectorAssembler.txt
        FastVectorAssembler.scala
        param
        DataFrameParam.scala
        ParamSpaceParam.scala
        EstimatorArrayParam.scala
        TransformerParam.scala
        BallTreeParam.scala
        EstimatorParam.scala
        UDFParam.scala
        UDPyFParam.scala
        ArrayParamMapParam.scala
        ArrayMapParam.scala
        MapArrayParam.scala
        ArrayParam.scala
        EvaluatorParam.scala
        PipelineStageParam.scala
        JsonEncodableParam.scala
        ByteArrayParam.scala
        TransformerArrayParam.scala
        MapParam.scala
        DataTypeParam.scala
        LimeNamespaceInjections.scala
        Ranker.scala
        ComplexParamsSerializer.scala
        RegressorUtils.scala
        injections
        RegressionUtils.scala
        SConf.scala
        lightgbm
        BlockManagerUtils.scala
    - python
      - mmlspark
        recommendation
        RankingTrainValidationSplit.py
        SAR.py
        RankingTrainValidationSplitModel.py
        __init__.py
        SARModel.py
        stages
        __init__.py
        UDFTransformer.py
        plot
        plot.py
        __init__.py
        opencv
        ImageTransformer.py
        __init__.py
        nn
        ConditionalBallTree.py
        __init__.py
        automl
        FindBestModel.py
        HyperparamBuilder.py
        TuneHyperparameters.py
        __init__.py
        README.txt
        lightgbm
        LightGBMRanker.py
        LightGBMRegressor.py
        __init__.py
        LightGBMClassifier.py
        vw
        VowpalWabbitClassifier.py
        __init__.py
        VowpalWabbitRegressor.py
        io
        binary
        BinaryFileReader.py
        __init__.py
        powerbi
        PowerBIWriter.py
        __init__.py
        __init__.py
        http
        ServingFunctions.py
        HTTPFunctions.py
        SimpleHTTPTransformer.py
        JSONOutputParser.py
        __init__.py
        IOImplicits.py
        image
        ImageUtils.py
        __init__.py
        __init__.py
        downloader
        __init__.py
        ModelDownloader.py
        core
        spark
        FluentAPI.py
        __init__.py
        __init__.py
        schema
        TypeConversionUtils.py
        Utils.py
        __init__.py
        serialize
        java_params_patch.py
        __init__.py
        train
        TrainRegressor.py
        TrainClassifier.py
        __init__.py
        cntk
        CNTKModel.py
        __init__.py
        image
        ImageFeaturizer.py
        __init__.py
        doc
        index.rst
        conf.py
        scala.rst
        cognitive
        AzureSearchWriter.py
        __init__.py
        BingImageSearch.py
      - setup.py
      - LICENSE.txt
      - MANIFEST.in
    - R
      - ml_utils.R
      - model_downloader.R
  - it
    - scala
      - com
        microsoft
        ml
        nbtest
        DatabricksUtilities.scala
        NotebookTests.scala
        SprayUtilities.scala
        spark
        codegen
        SparklyRWrapper.scala
        WrapperGenerator.scala
        PySparkWrapper.scala
        WritableWrapper.scala
        CodeGen.scala
        CodegenConfig.scala
        PySparkWrapperTest.scala
  - test
    - resources
      - sim_jac1.csv.gz
      - demoUsage.csv.gz
      - sim_lift3.csv.gz
      - userpred_count3_userid_only.csv.gz
      - audio3.txt
      - sim_count3.csv.gz
      - audio4.txt
      - userpred_jac3_userid_only.csv.gz
      - audio1.txt
      - benchmarks
        benchmarkBasicDataTypes.json
        benchmarkDate.json
        benchmarks_VerifyTrainClassifier.csv
        benchmarkString.json
        benchmarkNoOneHot.json
        benchmarks_VerifyLightGBMClassifier.csv
        benchmarks_VerifyVowpalWabbitRegressor.csv
        benchmarkStringIndexOneHot.json
        benchmarkOneHot.json
        benchmarkStringMissing.json
        benchmarks_VerifyLightGBMRegressor.csv
        benchmarkVectors.json
        benchmarks_VerifyTuneHyperparameters.csv
      - sim_jac3.csv.gz
      - userpred_lift3_userid_only.csv.gz
      - sim_lift1.csv.gz
      - user_aff.csv.gz
      - sim_count1.csv.gz
      - audio2.txt
    - scala
      - com
        microsoft
        ml
        spark
        recommendation
        SARSpec.scala
        RankingTrainValidationSpec.scala
        RankingTestBase.scala
        RankingAdapterSpec.scala
        RecommendationIndexerSpec.scala
        RankingEvaluatorSpec.scala
        stages
        MiniBatchTransformerSuite.scala
        SelectColumnsSuite.scala
        ClassBalancerSuite.scala
        DropColumnsSuite.scala
        BatchIteratorSuite.scala
        StratifiedRepartitionSuite.scala
        RenameColumnSuite.scala
        ExplodeSuite.scala
        UDFSuite.scala
        UnicodeNormalizeSuite.scala
        TimerSuite.scala
        EnsembleByKeySuite.scala
        MultiColumnAdapterSpec.scala
        UDFTransformerSuite.scala
        CacherSuite.scala
        TextPreprocessorSuite.scala
        RepartitionSuite.scala
        SummarizeDataSuite.scala
        LambdaSuite.scala
        featurize
        VerifyCleanMissingData.scala
        VerifyFeaturize.scala
        VerifyValueIndexer.scala
        VerifyDataConversion.scala
        text
        MultiNGramSpec.scala
        PageSplitterSpec.scala
        TextFeaturizerSpec.scala
        Secrets.scala
        flaky
        PartitionConsolidatorSuite.scala
        opencv
        ImageTransformerSuite.scala
        nn
        ConditionalBallTreeTest.scala
        KNNTest.scala
        BallTreeTest.scala
        automl
        VerifyTuneHyperparameters.scala
        VerifyFindBestModel.scala
        isolationforest
        VerifyIsolationForest.scala
        lightgbm
        split1
        VerifyLightGBMClassifier.scala
        split2
        VerifyLightGBMRanker.scala
        VerifyLightGBMRegressor.scala
        vw
        VerifyVowpalWabbitInteractions.scala
        VerifyVowpalWabbitClassifier.scala
        VerifyVowpalWabbitRegressor.scala
        VerifyVowpalWabbitRegressorFuzzing.scala
        VerifyVowpalWabbitFeaturizer.scala
        VerifyVowpalWabbitMurmurWithPrefix.scala
        io
        split1
        BinaryFileReaderSuite.scala
        PowerBiSuite.scala
        ParserSuite.scala
        SimpleHTTPTransformerSuite.scala
        HTTPTransformerSuite.scala
        ImageReaderSuite.scala
        split2
        ContinuousHTTPSuite.scala
        HTTPv2Suite.scala
        HTTPSuite.scala
        DistributedHTTPSuite.scala
        lime
        SuperpixelTransformerSuite.scala
        SuperpixelSuite.scala
        LIMESuite.scala
        downloader
        DownloaderSuite.scala
        core
        ml
        NGramSpec.scala
        OneHotEncoderSpec.scala
        IDFSpec.scala
        Word2VecSpec.scala
        HashingTFSpec.scala
        utils
        JarLoadingUtils.scala
        VerifyClusterUtil.scala
        test
        datagen
        GenerateDataset.scala
        VerifyGenerateDataset.scala
        DatasetOptions.scala
        GenerateRow.scala
        GenerateDataType.scala
        DatasetConstraints.scala
        base
        TestBase.scala
        SparkSessionFactory.scala
        benchmarks
        Benchmarks.scala
        fuzzing
        FuzzingTest.scala
        Fuzzing.scala
        schema
        TestCategoricals.scala
        SparkBindingsTest.scala
        VerifyFastVectorAssembler.scala
        VerifySparkSchema.scala
        serialize
        ValidateComplexParamSerializer.scala
        train
        VerifyTrainRegressor.scala
        VerifyComputePerInstanceStatistics.scala
        VerifyComputeModelStatistics.scala
        VerifyTrainClassifier.scala
        cntk
        CNTKTestUtils.scala
        CNTKModelSuite.scala
        CNTKBindingSuite.scala
        image
        ResizeImageTransformerSuite.scala
        ImageSetAugmenterSuite.scala
        ImageFeaturizerSuite.scala
        cognitive
        split1
        FaceSuite.scala
        TextAnalyticsSuite.scala
        ImageSearchSuite.scala
        FaceAPI.scala
        AnamolyDetectionSuite.scala
        ComputerVisionSuite.scala
        split2
        SpeechToTextSuite.scala
        SearchWriterSuite.scala
        SpeechToTextSDKSuite.scala
    - python
      - mmlsparktest
        recommendation
        __init__.py
        test_ranking.py
        nn
        test_ball_tree.py
        __init__.py
        spark.py
        vw
        test_vw.py
        __init__.py
        __init__.py
      - setup.py
      - LICENSE.txt
      - MANIFEST.in
- environment.yaml
- scalastyle-config.xml
- LICENSE
- project
  - build.properties
  - Secrets.scala
  - assembly.sbt
  - build.sbt
  - build.scala
  - plugins.sbt
  - UnzipUtils.scala
- templates
  - ivy_cache_2.yml
  - ivy_cache.yml
- CONTRIBUTING.md
- .chglog
  - CHANGELOG.tpl.md
  - config.yml
- codecov.yaml
- notebooks
  - samples
    - Classification - Adult Census with Vowpal Wabbit.ipynb
    - Regression - Flight Delays with DataCleaning.ipynb
    - DeepLearning - BiLSTM Medical Entity Extraction.ipynb
    - Regression - Vowpal Wabbit vs. LightGBM vs. Linear Regressor.ipynb
    - Classification - Adult Census.ipynb
    - DeepLearning - Flower Image Classification.ipynb
    - Vowpal Wabbit - Quantile Regression for Drug Discovery.ipynb
    - CognitiveServices - Celebrity Quote Analysis.ipynb
    - LightGBM - Quantile Regression for Drug Discovery.ipynb
    - DeepLearning - CIFAR10 Convolutional Network.ipynb
    - ConditionalKNN - Exploring Art Across Cultures.ipynb
    - Regression - Flight Delays.ipynb
    - DeepLearning - Transfer Learning.ipynb
    - TextAnalytics - Amazon Book Reviews with Word2Vec.ipynb
    - HttpOnSpark - Working with Arbitrary Web APIs.ipynb
    - AzureSearchIndex - Met Artworks.ipynb
    - OpenCV - Pipeline Image Transformations.ipynb
    - Classification - Before and After MMLSpark.ipynb
    - TextAnalytics - Amazon Book Reviews.ipynb
    - SparkServing - Deploying a Classifier.ipynb
    - Classification - Twitter Sentiment with Vowpal Wabbit.ipynb
    - ModelInterpretation - Snow Leopard Detection.ipynb
    - Regression - Auto Imports.ipynb
    - HyperParameterTuning - Fighting Breast Cancer.ipynb
- pipeline.yaml
- README.md
- tools
  - pytest
    - run_all_tests.py
  - gateway
    - setup-gateway.sh
  - misc
    - get-stats
    - mmlspark.svg
    - get-stats.js
  - vagrant
    - Vagrantfile
  - docker
    - demo
      - init_notebook.py
      - Dockerfile
    - minimal
      - Dockerfile
    - developer
      - Dockerfile
  - eula
    - EULA.txt
  - helm
    - zepplin
      - mini.Dockerfile
      - mmlsparkExamples
        simplification_mmlspark.zpln
        submitjob_2DZ7DHX6E.zpln
        sparkPi_2E12S8C29.zpln
        classification_mmlspark_2E3REACQR.zpln
        serving.py
        sparkserving_2DZFNGU8A.zpln
      - spark-defaults.conf
      - zeppelin-env.sh
      - patch_beam.patch
      - Dockerfile
      - jars
        README.md
    - spark
      - mini.Dockerfile
      - start-worker
      - log4j.properties
      - spark-defaults.conf
      - start-common.sh
      - start-master
      - Dockerfile
      - jars
        README.md
      - core-site.xml
    - README.md
    - livy
      - mini.Dockerfile
      - livy.conf
      - Dockerfile
      - jars
        README.md
  - tests
    - tags.sh
- CODEOWNERS
- build.sbt
- .gitignore
- scalastyle-test-config.xml
- docs
  - cogsvc.md
  - third-party-notices.txt
  - docker.md
  - datasets.md
  - SAR.md
  - R-setup.md
  - vagrant.md
  - vw.md
  - http.md
  - lightgbm.md
  - your-first-model.md
  - developer-readme.md
  - mmlspark-serving.md
- .dockerignore

// Copyright (C) Microsoft Corporation. All rights reserved.
// Licensed under the MIT License. See LICENSE in project root for information.

package com.microsoft.ml.spark.flaky

import com.microsoft.ml.spark.core.test.base.TimeLimitedFlaky
import com.microsoft.ml.spark.core.test.fuzzing.{TestObject, TransformerFuzzing}
import com.microsoft.ml.spark.io.http.PartitionConsolidator
import org.apache.spark.ml.util.MLReadable
import org.apache.spark.sql.catalyst.encoders.RowEncoder
import org.apache.spark.sql.types.{DoubleType, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row}
import org.scalatest.Assertion

class PartitionConsolidatorSuite extends TransformerFuzzing[PartitionConsolidator] with TimeLimitedFlaky {

  import session.implicits._

  override val numCores: Option[Int] = Some(2)

  lazy val df: DataFrame = (1 to 1000).toDF("values")

  override val sortInDataframeEquality: Boolean = true

  override def testObjects(): Seq[TestObject[PartitionConsolidator]] = Seq(
    new TestObject(new PartitionConsolidator(), df))

  override def reader: MLReadable[_] = PartitionConsolidator

  def getPartitionDist(df: DataFrame): List[Int] = {
    df.rdd.mapPartitions(it => Iterator(it.length)).collect().toList
  }

  //TODO figure out what is causing the issue on the build server
  override def testSerialization(): Unit = {}

  override def testExperiments(): Unit = {}

  def basicTest(df: DataFrame): Assertion = {
    val pd1 = getPartitionDist(df)
    val newDF = new PartitionConsolidator().transform(df)
    val pd2 = getPartitionDist(newDF)
    assert(pd1.sum === pd2.sum)
    assert(pd2.max >= pd1.max)
    assert(pd1.length === pd2.length)
  }

  test("basic functionality") {
    basicTest(df)
  }

  test("works with more partitions than cores") {
    basicTest(df.repartition(12))
  }

  test("overheads") {
    val baseDF = (1 to 1000).toDF("values").cache()
    println(baseDF.count())

    def getDF: Dataset[Row] = baseDF.map { x => Thread.sleep(10); x }(
      RowEncoder(new StructType().add("values", DoubleType)))

    val t1 = getTime(3)(
      getDF.foreach(_ => ()))._2
    val t2 = getTime(3)(
      new PartitionConsolidator().transform(getDF).foreach(_ => ()))._2

    println(t2.toDouble / t1.toDouble)
    assert(t2.toDouble / t1.toDouble < 3.0)
  }

  test("works with more partitions than cores2") {
    basicTest(df.repartition(100))
  }

  test("work with 1 partition") {
    basicTest(df.repartition(1))
  }

}