scala source code of ClassifiersImpl

spark_training-master
- derby.log
- src
  - main
    - .DS_Store
    - scala
      - .DS_Store
      - com
        malaska
        .DS_Store
        spark
        training
        graph
        JsonEdge.scala
        ZombieExample.scala
        TrianglesExample.scala
        JsonVertex.scala
        utils
        CaseClassGenerator.scala
        dedupping
        DedupAdcent.scala
        salted
        SaltedExample.scala
        difference
        DiffChecker.scala
        streaming
        Message.scala
        structured
        CountingInAStreamExpGroupBy.scala
        EnrichmentInAStream.scala
        CountingInAStreamMapWithState.scala
        CountingInAStreamDatasetExpGroupBy.scala
        CountingInAStreamExpWindowing.scala
        CountingInAStreamExpQueringResults.scala
        dstream
        CountingInAStreamExpUpdateStateByKey.scala
        sessionization
        SessionDataGenerator.scala
        SessionDataFileWriter.scala
        SessionDataFileHDFSWriter.scala
        SessionizeData.scala
        SessionDataSocketSender.scala
        CountingInAStreamExpBatchCounting.scala
        EnrichmentInAStream.scala
        timeseries
        SessionWindowing.scala
        TumblingWindows.scala
        InfectionPointWindow.scala
        LeadLagExample.scala
        SplidingWindows.scala
        windowing
        superbig
        SuperBigWindowing.scala
        big
        BigWindowing.scala
        small
        SmallWindowing.scala
        manytomany
        ManyToManyNormalJoin.scala
        ManyToManyNestedJoin.scala
        nested
        NestedTableExample.scala
        JsonNestedExample.scala
        NestedDataSetExample.scala
        PopulateHiveTable.scala
        machinelearning
        golf
        PredictGolfing.scala
        titanic
        SomeSQLOnTitanic.scala
        TestPassenger.scala
        TrainPassenger.scala
        PredictingTitanic.scala
        common
        ClassifiersImpl.scala
        partitioning
        SimpleCustomPartitioner.scala
        AppleCustomPartitioner.scala
        .DS_Store
        .DS_Store
  - .DS_Store
- graph
  - vertex.json
  - edge.json
- titanic
  - gender_submission.csv
  - train.csv
  - test.csv
- datamodeling
  - MultiGroupWindow.json
  - Salted.json
  - ManyToMany.json
  - SingleBigWindow.json
  - NestedJson.json
- pom.xml
- LICENSE
- data
  - graph
    - vertex.json
    - edge.json
  - titanic
    - gender_submission.csv
    - train.csv
    - test.csv
  - datamodeling
    - MultiGroupWindow.json
    - Salted.json
    - ManyToMany.json
    - SingleBigWindow.json
    - NestedJson.json
    - GoogleAnaltyticsPivotSample.json
  - timeseries
    - leadlag.json
    - inflectionPoint.json
    - session.json
  - .DS_Store
  - golfing
    - data.tsv
- README.md
- .idea
  - libraries
    - Maven__org_apache_commons_commons_math3_3_4_1.xml
    - Maven__org_apache_calcite_calcite_linq4j_1_2_0_incubating.xml
    - Maven__net_sf_opencsv_opencsv_2_3.xml
    - Maven__org_glassfish_hk2_external_javax_inject_2_4_0_b34.xml
    - Maven__com_thoughtworks_paranamer_paranamer_2_3.xml
    - Maven__joda_time_joda_time_2_9_3.xml
    - Maven__com_github_fommil_netlib_core_1_1_2.xml
    - Maven__net_sf_py4j_py4j_0_10_4.xml
    - Maven__org_apache_commons_commons_lang3_3_5.xml
    - Maven__org_fusesource_leveldbjni_leveldbjni_all_1_8.xml
    - Maven__net_jpountz_lz4_lz4_1_3_0.xml
    - Maven__javax_xml_stream_stax_api_1_0_2.xml
    - Maven__org_apache_zookeeper_zookeeper_3_4_6.xml
    - Maven__commons_net_commons_net_2_2.xml
    - Maven__io_dropwizard_metrics_metrics_core_3_1_2.xml
    - Maven__org_apache_calcite_calcite_avatica_1_2_0_incubating.xml
    - Maven__com_github_rwl_jtransforms_2_4_0.xml
    - Maven__org_glassfish_hk2_osgi_resource_locator_1_0_1.xml
    - Maven__javax_xml_bind_jaxb_api_2_2_2.xml
    - Maven__log4j_log4j_1_2_17.xml
    - Maven__org_iq80_snappy_snappy_0_2.xml
    - Maven__com_ning_compress_lzf_1_0_3.xml
    - Maven__xerces_xercesImpl_2_9_1.xml
    - Maven__com_google_code_findbugs_jsr305_1_3_9.xml
    - Maven__org_json4s_json4s_ast_2_11_3_2_11.xml
    - Maven__org_glassfish_jersey_core_jersey_server_2_22_2.xml
    - Maven__org_datanucleus_datanucleus_core_3_2_10.xml
    - Maven__org_apache_httpcomponents_httpclient_4_5_2.xml
    - Maven__org_scala_lang_scala_compiler_2_11_0.xml
    - Maven__xmlenc_xmlenc_0_52.xml
    - Maven__io_dropwizard_metrics_metrics_json_3_1_2.xml
    - Maven__oro_oro_2_0_8.xml
    - Maven__com_googlecode_javaewah_JavaEWAH_0_3_2.xml
    - Maven__javax_validation_validation_api_1_1_0_Final.xml
    - Maven__com_google_guava_guava_16_0_1.xml
    - Maven__commons_beanutils_commons_beanutils_1_7_0.xml
    - Maven__org_datanucleus_datanucleus_rdbms_3_2_9.xml
    - Maven__commons_pool_commons_pool_1_5_4.xml
    - Maven__com_google_protobuf_protobuf_java_2_5_0.xml
    - Maven__commons_digester_commons_digester_1_8.xml
    - Maven__org_apache_xbean_xbean_asm5_shaded_4_4.xml
    - Maven__commons_logging_commons_logging_1_1_3.xml
    - Maven__javax_jdo_jdo_api_3_0_1.xml
    - Maven__commons_codec_commons_codec_1_10.xml
    - Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml
    - Maven__org_roaringbitmap_RoaringBitmap_0_5_11.xml
    - Maven__commons_beanutils_commons_beanutils_core_1_8_0.xml
    - Maven__commons_io_commons_io_2_4.xml
    - Maven__org_codehaus_janino_commons_compiler_3_0_0.xml
    - Maven__xml_apis_xml_apis_1_3_04.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml
    - Maven__io_dropwizard_metrics_metrics_jvm_3_1_2.xml
    - Maven__javolution_javolution_5_5_1.xml
    - Maven__org_apache_commons_commons_crypto_1_0_0.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml
    - Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_1.xml
    - Maven__org_apache_calcite_calcite_core_1_2_0_incubating.xml
    - Maven__javax_transaction_jta_1_1.xml
    - Maven__commons_cli_commons_cli_1_2.xml
    - Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml
    - Maven__javax_ws_rs_javax_ws_rs_api_2_0_1.xml
    - Maven__org_antlr_antlr4_runtime_4_5_3.xml
    - Maven__org_glassfish_hk2_hk2_api_2_4_0_b34.xml
    - Maven__org_objenesis_objenesis_2_1.xml
    - Maven__org_antlr_ST4_4_0_4.xml
    - Maven__org_antlr_antlr_runtime_3_4.xml
    - Maven__javax_annotation_javax_annotation_api_1_2.xml
    - Maven__com_fasterxml_jackson_core_jackson_core_2_6_5.xml
    - Maven__org_json4s_json4s_jackson_2_11_3_2_11.xml
    - Maven__com_twitter_chill_java_0_8_0.xml
    - Maven__javax_servlet_javax_servlet_api_3_1_0.xml
    - Maven__org_apache_directory_server_apacheds_i18n_2_0_0_M15.xml
    - Maven__org_scala_lang_scala_reflect_2_11_7.xml
    - Maven__commons_httpclient_commons_httpclient_3_1.xml
    - Maven__net_razorvine_pyrolite_4_13.xml
    - Maven__com_esotericsoftware_kryo_shaded_3_0_3.xml
    - Maven__com_twitter_chill_2_11_0_8_0.xml
    - Maven__org_datanucleus_datanucleus_api_jdo_3_2_6.xml
    - Maven__org_spark_project_spark_unused_1_0_0.xml
    - Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_5.xml
    - Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_22_2.xml
    - Maven__org_json4s_json4s_core_2_11_3_2_11.xml
    - Maven__com_jolbox_bonecp_0_8_0_RELEASE.xml
    - Maven__org_apache_ivy_ivy_2_4_0.xml
    - Maven__commons_configuration_commons_configuration_1_6.xml
    - Maven__org_codehaus_janino_janino_3_0_0.xml
    - Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml
    - Maven__org_glassfish_hk2_hk2_utils_2_4_0_b34.xml
    - Maven__com_univocity_univocity_parsers_2_2_1.xml
    - Maven__stax_stax_api_1_0_1.xml
    - Maven__com_esotericsoftware_minlog_1_3_0.xml
    - Maven__commons_collections_commons_collections_3_2_2.xml
    - Maven__antlr_antlr_2_7_7.xml
    - Maven__log4j_apache_log4j_extras_1_2_17.xml
    - Maven__org_scala_lang_modules_scala_xml_2_11_1_0_1.xml
    - Maven__com_clearspring_analytics_stream_2_7_0.xml
    - Maven__net_hydromatic_eigenbase_properties_1_1_5.xml
    - Maven__org_glassfish_jersey_core_jersey_client_2_22_2.xml
    - Maven__org_jpmml_pmml_schema_1_2_15.xml
    - Maven__org_jpmml_pmml_model_1_2_15.xml
    - Maven__commons_lang_commons_lang_2_6.xml
    - Maven__org_tukaani_xz_1_0.xml
    - Maven__org_antlr_stringtemplate_3_2_1.xml
    - Maven__org_apache_directory_api_api_util_1_0_0_M20.xml
    - Maven__com_google_code_gson_gson_2_2_4.xml
    - Maven__org_javassist_javassist_3_18_1_GA.xml
    - Maven__org_glassfish_jersey_core_jersey_common_2_22_2.xml
    - Maven__commons_dbcp_commons_dbcp_1_4.xml
    - Maven__org_scala_lang_scala_library_2_11_8.xml
    - Maven__org_apache_directory_api_api_asn1_api_1_0_0_M20.xml
    - Maven__org_glassfish_hk2_hk2_locator_2_4_0_b34.xml
    - Maven__org_jodd_jodd_core_3_5_2.xml
    - Maven__org_apache_commons_commons_compress_1_4_1.xml
    - Maven__com_fasterxml_jackson_core_jackson_databind_2_6_5.xml
    - Maven__org_scala_lang_scalap_2_11_0.xml
    - Maven__io_dropwizard_metrics_metrics_graphite_3_1_2.xml
    - Maven__net_sourceforge_f2j_arpack_combined_all_0_1.xml
  - compiler.xml
  - modules.xml
  - vcs.xml
  - scala_compiler.xml
  - hydra.xml
- .gitignore

package com.malaska.spark.training.machinelearning.common

import org.apache.spark.ml.classification.{DecisionTreeClassifier, GBTClassifier, LogisticRegression, NaiveBayes}
import org.apache.spark.ml.evaluation.{MulticlassClassificationEvaluator, RegressionEvaluator}
import org.apache.spark.ml.regression.RandomForestRegressor
import org.apache.spark.sql._

object ClassifiersImpl {
  def logisticRegression(trainingLabeledPointDf: DataFrame,
                         testPercentage:Double): Unit = {
    val mlr = new LogisticRegression()
      .setMaxIter(10)
      .setRegParam(0.3)
      .setElasticNetParam(0.8)

    val splits = trainingLabeledPointDf.randomSplit(Array(testPercentage, 1-testPercentage))

    val model = mlr.fit(splits(0))

    val trainTransformed = model.transform(splits(1))

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")
    val accuracy = evaluator.evaluate(trainTransformed)
    println("Test set accuracy of logisticRegression = " + accuracy)

    //println(model)
  }

  def gbtClassifer(trainingLabeledPointDf: DataFrame,
                   testPercentage:Double): Unit = {
    val gbt = new GBTClassifier()

    val splits = trainingLabeledPointDf.randomSplit(Array(testPercentage, 1-testPercentage))

    val model = gbt.fit(splits(0))

    val trainTransformed = model.transform(splits(1))

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")
    val accuracy = evaluator.evaluate(trainTransformed)
    println("Test set accuracy of gbtClassifier = " + accuracy)

    //println(model)
    //println(model.toDebugString)
  }

  def randomForestRegressor(trainingLabeledPointDf: DataFrame,
                            impurity:String,
                            maxDepth:Int,
                            maxBins:Int,
                            testPercentage:Double): Unit = {
    val rf = new RandomForestRegressor()

    rf.setImpurity(impurity)
    rf.setMaxDepth(maxDepth)
    rf.setMaxBins(maxBins)

    val splits = trainingLabeledPointDf.randomSplit(Array(testPercentage, 1-testPercentage))

    val model = rf.fit(splits(0))
    val trainTransformed = model.transform(splits(1))

    /*
    trainTransformed.take(10).foreach(r => {
      println(r)
    })
    */

    val evaluator = new RegressionEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("rmse")
    val accuracy = evaluator.evaluate(trainTransformed)
    println("Test set accuracy of RandomForest:" + impurity + " = " + accuracy)

    println(model)
    println(model.toDebugString)
  }

  def decisionTree(trainingLabeledPointDf: DataFrame,
                   impurity:String,
                   maxDepth:Int,
                   maxBins:Int,
                   testPercentage:Double): Unit = {

    val dt = new DecisionTreeClassifier
    dt.setMaxDepth(maxDepth)
    dt.setMaxBins(maxBins)
    dt.setImpurity(impurity)

    val splits = trainingLabeledPointDf.randomSplit(Array(testPercentage, 1-testPercentage))

    val model = dt.fit(splits(0))

    val trainTransformed = model.transform(splits(1))

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")
    val accuracy = evaluator.evaluate(trainTransformed)
    println("Test set accuracy of DecisionTree:" + impurity + " = " + accuracy)

    println(model)
    println(model.toDebugString)
  }

  def naiveBayerTest(trainingLabeledPointDf: DataFrame,
                     testPercentage:Double): Unit = {
    val nb = new NaiveBayes

    val splits = trainingLabeledPointDf.randomSplit(Array(testPercentage, 1-testPercentage))

    val model = nb.fit(splits(0))

    val trainTransformed = model.transform(splits(1))

    /*
    trainTransformed.take(10).foreach(r => {
      println(r)
    })
    */

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")
    val accuracy = evaluator.evaluate(trainTransformed)
    println("Test set accuracy of NaiveBayer = " + accuracy)
  }
}