scala source code of SparkTransformerBenchmark

Project: mleap (GitHub Link)

mleap-master
- mleap-benchmark
  - src
    - main
      - scala
        com
        truecar
        mleap
        spark
        benchmark
        util
        SparkSerializer.scala
    - test
      - scala
        com
        truecar
        mleap
        spark
        benchmark
        TransformerBenchmark.scala
        SparkTransformerBenchmark.scala
- LICENSE
- project
  - Dependencies.scala
  - build.properties
  - Common.scala
  - plugins.sbt
- mleap-runtime
  - src
    - main
      - scala
        com
        truecar
        mleap
        runtime
        LeapFrame.scala
        LocalDataset.scala
        Row.scala
        transformer
        StandardScalerModel.scala
        StringIndexerModel.scala
        HashingTermFrequencyModel.scala
        builder
        LeapFrameBuilder.scala
        TransformBuilder.scala
        Transformer.scala
        TokenizerModel.scala
        RandomForestClassificationModel.scala
        SupportVectorMachineModel.scala
        PipelineModel.scala
        RandomForestRegressionModel.scala
        ReverseStringIndexerModel.scala
        VectorAssemblerModel.scala
        LinearRegressionModel.scala
        util
        LeapFrameUtil.scala
        LocalLeapFrame.scala
        Dataset.scala
        types
        StructField.scala
        StructType.scala
        DataType.scala
        attribute
        Attribute.scala
        AttributeSchema.scala
    - test
      - scala
        com
        truecar
        mleap
        runtime
        types
        StructTypeSpec.scala
- mleap-serialization
  - src
    - main
      - protobuf
        mleap
        runtime
        FieldData.proto
        types
        StructType.proto
        StructField.proto
        DataType.proto
        StringArray.proto
        LeapFrame.proto
        Row.proto
        core
        linalg
        Vector.proto
        DenseVector.proto
        SparseVector.proto
      - scala
        com
        truecar
        mleap
        serialization
        ml
        v1
        MlJsonSerializer.scala
        Converters.scala
        mleap
        v1
        MleapJsonSupport.scala
        Converters.scala
- README.md
- mleap-spark
  - src
    - main
      - scala
        com
        truecar
        mleap
        spark
        MleapSparkSupport.scala
        SparkLeapFrame.scala
        org
        apache
        spark
        ml
        mleap
        VectorUDT.scala
        classification
        SVM.scala
        bundle
        MlJsonSerializer.scala
        Converters.scala
        converter
        RowToSpark.scala
        StructTypeToMleap.scala
        SplitToMleap.scala
        VectorToMleap.scala
        StructTypeToSpark.scala
        NodeToMleap.scala
        MleapTransformerWrapper.scala
        runtime
        BaseTransformerConverter.scala
        classification
        RandomForestClassificationModelToMleap.scala
        DecisionTreeClassificationModelToMleap.scala
        SupportVectorMachineModelToMleap.scala
        SparkTransformerConverter.scala
        TransformerToMleap.scala
        regression
        LinearRegressionModelToMleap.scala
        DecisionTreeRegressionModelToMleap.scala
        RandomForestRegressionModelToMleap.scala
        feature
        IndexToStringToMleap.scala
        StandardScalerModelToMleap.scala
        StringIndexerModelToMleap.scala
        VectorAssemblerModelToMleap.scala
        PipelineModelToMleap.scala
        VectorToSpark.scala
        DataFrameToMleap.scala
        LeapFrameToSpark.scala
- mleap-core
  - src
    - main
      - scala
        com
        truecar
        mleap
        core
        classification
        ProbabilisticClassification.scala
        DecisionTreeClassification.scala
        RandomForestClassification.scala
        SupportVectorMachine.scala
        tree
        DecisionTree.scala
        TreeEnsemble.scala
        Split.scala
        Node.scala
        regression
        RandomForestRegression.scala
        DecisionTreeRegression.scala
        LinearRegression.scala
        feature
        OneHotEncoder.scala
        Tokenizer.scala
        HashingTermFrequency.scala
        ReverseStringIndexer.scala
        VectorAssembler.scala
        StandardScaler.scala
        StringIndexer.scala
        linalg
        CholeskyDecomposition.scala
        BLAS.scala
        Vector.scala
    - test
      - scala
        com
        truecar
        mleap
        core
        tree
        NodeSpec.scala
        SplitSpec.scala
        regression
        RandomForestRegressionSpec.scala
        LinearRegressionSpec.scala
        DecisionTreeRegressionSpec.scala
        feature
        StandardScalerSpec.scala
        OneHotEncoderSpec.scala
        StringIndexerSpec.scala
        VectorAssemblerSpec.scala
        TokenizerSpec.scala
        linalg
        VectorSpec.scala
- build.sbt
- NOTICE
- .gitignore

package com.truecar.mleap.spark.benchmark

import java.io.{FileInputStream, File}

import com.esotericsoftware.kryo.io.Input
import com.truecar.mleap.runtime.LocalLeapFrame
import com.truecar.mleap.spark.benchmark.util.SparkSerializer
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.ml.Transformer
import org.scalameter.Bench
import scala.collection.JavaConverters._
import org.scalameter.api._
import org.scalameter.picklers.Implicits._
import org.apache.log4j.Logger
import org.apache.log4j.Level
import com.truecar.mleap.spark.MleapSparkSupport._
import spray.json._
import com.truecar.mleap.serialization.mleap.v1.MleapJsonSupport._

/**
  * Created by hwilkins on 3/3/16.
  */
object SparkTransformerBenchmark extends Bench.ForkedTime {
  lazy override val executor = {
    SeparateJvmsExecutor(
      Executor.Warmer.Zero,
      Aggregator.min[Double],
      new Measurer.Default)
  }

  val classLoader = getClass.getClassLoader
  val regressionFile = new File("/tmp/spark.transformer.kryo")
  val frameFile = new File("/tmp/frame.json")

  val inputStream = new FileInputStream(regressionFile)
  val input = new Input(inputStream)

  val regression: Transformer = SparkSerializer().read(input)
  val lines = scala.io.Source.fromFile(frameFile).mkString
  val frame = lines.parseJson.convertTo[LocalLeapFrame]

  Logger.getLogger("org").setLevel(Level.OFF)
  Logger.getLogger("akka").setLevel(Level.OFF)

  val sparkConf = new SparkConf()
    .setAppName("Spark Transformer Benchmark")
    .setMaster("local[1]")
  val sc = new SparkContext(sparkConf)
  val sqlContext = new SQLContext(sc)

  val rdd = frame.dataset.data.map(a => Row(a.toSeq: _*)).toList.asJava
  val schema = frame.schema.toSpark
  val sparkFrame = sqlContext.createDataFrame(rdd, schema)

  val ranges = for {
    size <- Gen.range("size")(1000, 10000, 1000)
  } yield 0 until size

  measure method "transform" in {
    using(ranges) in {
      size =>
        size.foreach {
          _ => regression.transform(sparkFrame).head
        }
    }
  }

//  sc.stop()
}