Project: spark-ml-serving (GitHub Link)

spark-ml-serving-master
- src
  - main
    - scala
      - io
        hydrosphere
        spark_ml_serving
        CommonLoaderConversions.scala
        DynamicTransformerConverter.scala
        classification
        LocalRandomForestClassificationModel.scala
        LocalDecisionTreeClassificationModel.scala
        LocalMultilayerPerceptronClassificationModel.scala
        LocalGBTClassificationModel.scala
        LocalNaiveBayes.scala
        DynamicLoaderConverter.scala
        common
        ModelDataReader.scala
        utils
        PrivateMethodExposer.scala
        DataUtils.scala
        PrivateMethodCaller.scala
        PumpedClass.scala
        ParamUtils.scala
        TreeModelLoader.scala
        classification
        LocalClassificationModel.scala
        LocalProbabilisticClassificationModel.scala
        LocalData.scala
        LocalPredictionModel.scala
        SimpleModelLoader.scala
        ModelLoader.scala
        Metadata.scala
        ModelSource.scala
        reader
        SimpleRecordConverter.scala
        SimpleRecordMaterializer.scala
        SimpleRecord.scala
        SimpleReadSupport.scala
        LocalTransformer.scala
        LocalPipelineModel.scala
        CommonTransormerConversions.scala
        clustering
        LocalGaussianMixtureModel.scala
        LocalLDAModel.scala
        LocalKMeansModel.scala
        regression
        LocalGBTRegressor.scala
        LocalLinearRegressionModel.scala
        LocalRandomForestRegressionModel.scala
        LocalDecisionTreeRegressionModel.scala
        TypedTransformerConverter.scala
        preprocessors
        LocalTokenizer.scala
        LocalBinarizer.scala
        LocalCountVectorizerModel.scala
        LocalChiSqSelectorModel.scala
        LocalVectorIndexerModel.scala
        LocalIndexToString.scala
        LocalStringIndexerModel.scala
        LocalVectorAssembler.scala
        LocalIDF.scala
        LocalNormalizer.scala
        LocalHashingTF.scala
        LocalRegexTokenizer.scala
        LocalPolynomialExpansion.scala
        LocalOneHotEncoder.scala
        LocalPCAModel.scala
        LocalMinMaxScalerModel.scala
        LocalStopWordsRemover.scala
        LocalNGram.scala
        LocalDCT.scala
        LocalMaxAbsScalerModel.scala
        LocalStandardScalerModel.scala
  - test
    - resources
      - log4j.properties
      - data
        mllib
        sample_lda_libsvm_data.txt
    - scala
      - io
        hydrosphere
        spark_ml_serving
        GenericTestSpec.scala
        CommonModelsSpec.scala
- spark-2_1
  - src
    - main
      - scala
        io
        hydrosphere
        spark_ml_serving
        SpecificTransformerConversions.scala
        classification
        LocalLogisticRegressionModel.scala
        SparkImplementationImplicits.scala
        SpecificLoaderConversions.scala
        preprocessors
        LocalWord2VecModel.scala
    - test
      - scala
        io
        hydrosphere
        spark_ml_serving
        LocalModelSpec21.scala
- SUPPORTED_MODELS.MD
- examples
  - src
    - main
      - scala
        Main.scala
  - project
    - build.properties
  - build.sbt
- spark-2_2
  - src
    - main
      - scala
        io
        hydrosphere
        spark_ml_serving
        SpecificTransformerConversions.scala
        classification
        LocalLinearSVCModel.scala
        LocalLogisticRegressionModel.scala
        SparkImplementationImplicits.scala
        SpecificLoaderConversions.scala
        preprocessors
        LocalImputerModel.scala
        LocalWord2VecModel.scala
        org
        apache
        spark
        ml
        contextless_serving
        ProxyImputerModel.scala
    - test
      - resources
        pyspark_models
        py_log_reg
        metadata
        part-00000
        .part-00000.crc
        _SUCCESS
        data
        part-00000-e82c6dd6-5b89-41d2-86b1-1b710f1c0acb-c000.snappy.parquet
        .part-00000-e82c6dd6-5b89-41d2-86b1-1b710f1c0acb-c000.snappy.parquet.crc
        _SUCCESS
        py_rforest_cls
        metadata
        part-00000
        .part-00000.crc
        _SUCCESS
        treesMetadata
        .part-00001-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet.crc
        part-00000-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet
        part-00003-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet
        part-00001-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet
        .part-00002-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet.crc
        part-00002-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet
        .part-00000-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet.crc
        .part-00003-2f07e7f5-1fd8-4b7f-b1a0-23df5d97b9b0-c000.snappy.parquet.crc
        _SUCCESS
        data
        .part-00002-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet.crc
        part-00002-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet
        part-00001-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet
        part-00003-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet
        .part-00003-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet.crc
        .part-00000-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet.crc
        .part-00001-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet.crc
        part-00000-fd07e7f1-058c-4093-8f77-2f3beedc223c-c000.snappy.parquet
        _SUCCESS
      - scala
        io
        hydrosphere
        spark_ml_serving
        LocalModelSpec22.scala
        PythonModelsSpec.scala
- LICENSE
- project
  - build.properties
  - repositories
  - plugins.sbt
- spark-2_0
  - src
    - main
      - scala
        io
        hydrosphere
        spark_ml_serving
        SpecificTransformerConversions.scala
        classification
        LocalLogisticRegressionModel.scala
        SparkImplementationImplicits.scala
        SpecificLoaderConversions.scala
        preprocessors
        LocalWord2VecModel.scala
    - test
      - scala
        io
        hydrosphere
        spark_ml_serving
        LocalModelSpec20.scala
- sbt
  - sbt
- .travis.yml
- README.md
- .scalafmt.conf
- build.sbt
- .gitignore
- Jenkinsfile

Spark-ml-serving

Contextless ML implementation of Spark ML.

Proposal

To serve small ML pipelines there is no need to create SparkContext and use cluster-related features. In this project we made our implementations for ML Transformers. Some of them call context-independent Spark methods.

Structure

Instead of using DataFrames, we implemented simple LocalData class to get rid of SparkContext. All Transformers are rewritten to accept LocalData.

How to use

Import this project as dependency:

scalaVersion := "2.11.8"
// Artifact name is depends of what version of spark are you usng for model training:
// spark 2.0.x
libraryDependencies += Seq(
  "io.hydrosphere" %% "spark-ml-serving-2_0" % "0.3.0",
  "org.apache.spark" %% "spark-mllib" % "2.0.2"
)
// spark 2.1.x
libraryDependencies += Seq(
  "io.hydrosphere" %% "spark-ml-serving-2_1" % "0.3.0",
  "org.apache.spark" %% "spark-mllib" % "2.1.2"
)
// spark 2.2.x
libraryDependencies += Seq(
  "io.hydrosphere" %% "spark-ml-serving-2_2" % "0.3.0",
  "org.apache.spark" %% "spark-mllib" % "2.2.0"

)

Use it: example


import io.hydrosphere.spark_ml_serving._
import LocalPipelineModel._

// .... val model = LocalPipelineModel.load("PATH_TO_MODEL") // Load val columns = List(LocalDataColumn("text", Seq("Hello!"))) val localData = LocalData(columns) val result = model.transform(localData) // Transformed result



More examples of different ML models are in [tests](/src/test/scala/io/hydrosphere/spark_ml_serving/LocalModelSpec.scala).