scala source code of StringIndexer

Project: spark-sql-perf (GitHub Link)

spark-sql-perf-master
- src
  - main
    - resources
      - tpcds_2_4
        q85.sql
        q93.sql
        q78.sql
        q23a.sql
        ss_max.sql
        q66.sql
        q47.sql
        q38.sql
        q37.sql
        q76.sql
        q12.sql
        q3.sql
        q36.sql
        q86.sql
        q99.sql
        q87.sql
        q53.sql
        q13.sql
        q64.sql
        q83.sql
        q20.sql
        q52.sql
        q6.sql
        q23b.sql
        q59.sql
        q84.sql
        q95.sql
        q19.sql
        q57.sql
        q11.sql
        q61.sql
        q55.sql
        q25.sql
        q82.sql
        q96.sql
        q90.sql
        q4.sql
        q5.sql
        q18.sql
        q94.sql
        q51.sql
        q67.sql
        q81.sql
        q92.sql
        q58.sql
        q77.sql
        q65.sql
        q24a.sql
        ss_maxb.sql
        q39a.sql
        q29.sql
        q54.sql
        q8.sql
        q39b.sql
        q79.sql
        q80.sql
        q56.sql
        q22.sql
        q62.sql
        q21.sql
        q46.sql
        q14b.sql
        q40.sql
        q28.sql
        q30.sql
        q14a.sql
        q10.sql
        q9.sql
        q44.sql
        q60.sql
        q7.sql
        q71.sql
        q26.sql
        q75.sql
        q41.sql
        q97.sql
        q98.sql
        q49.sql
        q33.sql
        q48.sql
        q16.sql
        q89.sql
        q32.sql
        q27.sql
        q15.sql
        q34.sql
        q24b.sql
        q63.sql
        q68.sql
        q2.sql
        q43.sql
        q50.sql
        q88.sql
        q31.sql
        q91.sql
        q35.sql
        q45.sql
        q69.sql
        q72.sql
        q74.sql
        q42.sql
        q73.sql
        q1.sql
        q17.sql
        q70.sql
      - tpch
        README
        queries
        2.sql
        1.sql
        13.sql
        14.sql
        18.sql
        22.sql
        21.sql
        6.sql
        8.sql
        10.sql
        5.sql
        20.sql
        16.sql
        11.sql
        3.sql
        17.sql
        19.sql
        9.sql
        12.sql
        15.sql
        7.sql
        4.sql
      - com
        databricks
        spark
        sql
        perf
        mllib
        config
        mllib-small.yaml
        mllib-large.yaml
    - scala
      - com
        databricks
        spark
        sql
        perf
        Benchmarkable.scala
        bigdata
        Tables.scala
        Queries.scala
        BigData.scala
        handleResults.scala
        Tables.scala
        package.scala
        tpch
        TPCH.scala
        ExecutionMode.scala
        tpcds
        ImpalaKitQueries.scala
        TPCDS_2_4_Queries.scala
        SimpleQueries.scala
        TPCDSTables.scala
        TPCDS.scala
        results.scala
        CpuProfile.scala
        Query.scala
        DatasetPerformance.scala
        mllib
        BenchmarkAlgorithm.scala
        recommendation
        ALS.scala
        yaml.scala
        fpm
        FPGrowth.scala
        classification
        GBTClassification.scala
        DecisionTreeClassification.scala
        LogisticRegression.scala
        LinearSVC.scala
        NaiveBayes.scala
        RandomForestClassification.scala
        TreeOrForestEstimator.scala
        MLBenchmarks.scala
        clustering
        KMeans.scala
        LDA.scala
        GaussianMixture.scala
        OptionImplicits.scala
        data
        ItemSetGenerator.scala
        dataGeneration.scala
        RatingGenerator.scala
        regression
        RandomForestRegression.scala
        GLMRegression.scala
        DecisionTreeRegression.scala
        GBTRegression.scala
        LinearRegression.scala
        feature
        BucketedRandomProjectionLSH.scala
        OneHotEncoder.scala
        Bucketizer.scala
        UnaryTransformer.scala
        Tokenizer.scala
        MinHashLSH.scala
        Word2Vec.scala
        VectorAssembler.scala
        VectorSlicer.scala
        QuantileDiscretizer.scala
        HashingTF.scala
        StringIndexer.scala
        MLPipelineStageBenchmarkable.scala
        MLLib.scala
        ReflectionUtils.scala
        MLBenchContext.scala
        Benchmark.scala
        JoinPerformance.scala
        RunBenchmark.scala
        AggregationPerformance.scala
      - org
        apache
        spark
        ml
        ModelBuilderSSP.scala
        classification
        ClassificationModelBuilder.scala
        TreeUtils.scala
    - notebooks
      - performance.dashboard.scala
      - tpch_run.scala
      - TPC-multi_datagen.scala
      - tpcds_run.scala
      - tpcds_datagen.scala
    - R
      - define_benchmark.r
      - run_benchmark.r
      - README.md
      - .gitignore
      - run_benchmark.sh
  - test
    - scala
      - com
        databricks
        spark
        sql
        perf
        DatasetPerformanceSuite.scala
        mllib
        MLLibSuite.scala
- build
  - sbt
  - sbt-launch-lib.bash
- LICENSE
- project
  - build.properties
  - plugins.sbt
- dev
  - merge_pr.py
- .travis.yml
- README.md
- bin
  - run-ml
  - spark-perf
  - run
- build.sbt
- .gitignore
- version.sbt

package com.databricks.spark.sql.perf.mllib.feature

import org.apache.spark.ml
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.PipelineStage
import org.apache.spark.sql._

import com.databricks.spark.sql.perf.mllib.OptionImplicits._
import com.databricks.spark.sql.perf.mllib.data.DataGenerator
import com.databricks.spark.sql.perf.mllib.{BenchmarkAlgorithm, MLBenchContext, TestFromTraining}

/** Object for testing StringIndexer performance */
object StringIndexer extends BenchmarkAlgorithm with TestFromTraining with UnaryTransformer {

  override def trainingDataSet(ctx: MLBenchContext): DataFrame = {
    import ctx.params._
    import ctx.sqlContext.implicits._

    DataGenerator.generateRandString(ctx.sqlContext,
      numExamples,
      ctx.seed(),
      numPartitions,
      vocabSize,
      inputCol)
  }

  override def getPipelineStage(ctx: MLBenchContext): PipelineStage = {
    import ctx.params._
    import ctx.sqlContext.implicits._

    new ml.feature.StringIndexer()
      .setInputCol(inputCol)
      .setHandleInvalid("skip")
  }
}