scala source code of GenerateDataFeaturesFile

Machine-Learning-with-Spark-Second-Edition-master
- Chapter08
  - scala
    - 2.0.0
      - OUTPUT
        20_10_2016_04_12_52_base_2f
        movie_lens_2f_items_xy
        part-00000
        _SUCCESS
        movie_lens_2f_users_libsvm
        part-00000
        _SUCCESS
        movie_lens_2f_user_xy
        part-00000
        _SUCCESS
        movie_lens_2f_items_libsvm
        part-00000
        _SUCCESS
      - src
        main
        scala
        org
        sparksamples
        MovieLensDataPowerIterationClustering.scala
        gmm
        GMMClusteringPersist.scala
        GMMClustering.scala
        als
        ALSMovieLens2features.scala
        ALSGenericExample.scala
        ALSMovieLens.scala
        kmeans
        MovieLensKMeans.scala
        MovieLensKMeansMetrics.scala
        BisectingKMeansPersist.scala
        MovieLensKMeansPersist.scala
        BisectingKMeans.scala
        BisectingKMeansMetrics.scala
        KMeansExample.scala
        Util.scala
        lda
        LDAExample.scala
        LDATextExample.scala
      - data
        movie_lens_libsvm_2f
        movie_lens_2f_items_xy
        part-00000
        _SUCCESS
        movie_lens_2f_users_libsvm
        part-00000
        _SUCCESS
        movie_lens_2f_user_xy
        part-00000
        _SUCCESS
        movie_lens_2f_items_libsvm
        part-00000
        _SUCCESS
        movie_lens_libsvm
        movie_lens_users_libsvm
        part-00000
        _SUCCESS
        movie_lens_items_libsvm
        _SUCCESS
        movie_lens_items_xy
        part-00000
        _SUCCESS
        movie_lens_user_xy
        part-00000
        _SUCCESS
      - build.sbt
  - scala-shell
    - usercode
    - scala-shell-code_08.scala
- LICENSE
- Chapter01
  - python-spark-app
    - pythonapp.py
    - data
      - UserPurchaseHistory.csv
  - java-spark-app
    - src
      - main
        java
        JavaApp.java
    - pom.xml
    - data
      - UserPurchaseHistory.csv
  - README
  - scala-shell-code_01.scala
  - r-spark-app
    - r-script-01.R
    - data
      - UserPurchaseHistory.csv
  - scala-spark-app
    - src
      - main
        scala
        ScalaApp.scala
    - data
      - UserPurchaseHistory.csv
    - build.sbt
- Chapter12
  - 2.0.0
    - spark-ai-apps
      - src
        main
        resources
        log4j.properties
        sample_libsvm_data.txt
        sample_multiclass_classification_data.txt
        sample_linear_regression_data.txt
        scala
        org
        utils
        StandaloneSpark.scala
        textclassifier
        TextClassificationPipeline.scala
        PipelineComponentExample.scala
        stumbleuponclassifier
        GradientBoostedTreePipeline.scala
        DecisionTreePipeline.scala
        NaiveBayesPipeline.scala
        LogisticRegressionPipeline.scala
        RandomForestPipeline.scala
        SVMPipeline.scala
        StumbleUponExecutor.scala
        SparkCommonUtils.scala
        SparkConstants.scala
      - build.sbt
- .gitattributes
- Chapter10
  - scala-shell-1.6.x
    - scala-shell-code.scala
  - scala-1.6.x
    - src
      - main
        scala
        DocumentClassification.scala
        ScalaApp.scala
        TFIDFExtraction.scala
    - data
      - UserPurchaseHistory.csv
    - build.sbt
  - scala-2.0.x
    - src
      - main
        scala
        Word2VecMllib.scala
        Word2VecExample.scala
        DocumentClassificationLibSVM.scala
        archive
        DocumentClassificationArchive.scala
        DocumentClassification.scala
        TFIDFExtraction.scala
        Word2VecMl.scala
    - data
      - 20news-bydate-train
        alt.atheism
        53229
        51150
        51299
        53287
        53380
        51153
        51205
        53274
        53478
        53131
        53471
        53434
        53211
        53166
        51146
        53757
        51275
        53154
        53230
        53529
        53078
        51260
        53196
        54203
        51217
        53114
        53656
        53178
        53766
        53170
        54204
        53760
        51297
        51120
        51214
        51140
        53436
        51213
        51197
        53065
        53509
        53232
        51231
        51181
        53098
        51229
        53445
        51308
        51292
        53153
        54199
        51249
        53311
        51188
        51233
        53209
        53248
        51291
        53243
        53477
        53376
        53171
        51124
        53314
        53251
        53250
        51171
        53181
        51157
        53758
        53194
        51148
        53239
        51239
        53185
        53375
        53756
        51154
        53449
        53660
        53162
        51253
        53323
        51202
        51243
        53370
        53512
        53240
        51262
        53533
        53572
        51254
        53212
        53073
        51234
        53199
        51307
        51195
        53312
        53371
        53518
        53117
        53347
        53220
        53062
        53094
        51259
        53208
        51158
        51311
        53526
        51238
        51164
        53465
        53437
        54228
        53443
        51256
        51232
        51296
        51298
        53132
        51155
        51135
        54227
        53141
        53113
        53067
        53137
        53069
        53157
        53158
        54178
        53072
        51309
        53534
        53532
        54470
        53256
        53334
        51276
        53762
        51283
        53163
        53351
        53188
        53056
        53124
        51303
        51320
        53275
        53661
        51172
        51313
        53150
        51241
        54471
        53082
        53442
        51286
        53238
        53374
        51122
        51182
        53754
        53083
        53122
        51209
        53118
        53058
        51143
        53173
        51190
        51222
        53197
        53126
        51193
        51174
        53191
        53172
        53198
        51304
        53149
        53483
        53383
        53574
        53391
        51198
        53085
        53215
        53267
        53142
        51141
        51192
        53304
        53213
        51255
        51318
        54167
        51160
        53214
        53290
        51316
        51271
        53441
        51204
        51230
        53515
        51282
        53306
        53298
        53130
        53151
        51196
        54168
        51312
        53175
        53087
        53218
        52910
        51295
        53106
        51270
        51224
        53055
        53097
        51132
        54182
        53390
        53075
        53467
        51301
        53305
        51210
        53382
        51194
        51278
        53110
        53288
        53271
        51215
        53763
        51136
        51284
        53133
        51149
        51268
        53070
        54200
        54165
        51274
        51251
        51208
        51121
        51247
        53226
        51245
        53309
        51250
        51212
        51236
        53308
        53187
        53066
        53093
        53161
        53090
        53435
        51220
        51211
        51134
        51177
        53164
        53303
        53192
        51165
        54166
        51221
        53174
        51183
        53269
        53099
        53144
        53785
        53527
        51305
        53387
        53440
        53210
        53096
        53284
        51314
        51145
        53439
        53377
        53086
        51128
        53134
        51175
        53057
        51199
        53231
        53184
        53373
        51223
        51151
        53190
        53112
        51130
        51147
        53135
        53180
        51144
        53182
        51242
        51293
        53266
        51169
        53292
        53765
        51218
        53755
        52499
        53139
        53285
        51226
        53195
        53108
        51244
        53059
        51131
        53237
        51300
        51133
        53177
        53389
        53528
        53216
        53281
        51159
        53221
        53438
        51290
        51240
        51216
        51139
        51288
        53201
        51219
        51269
        53525
        51285
        51267
        54198
        53468
        53282
        51261
        51279
        51200
        51126
        53223
        53121
        51178
        53571
        51203
        53179
        51228
        53224
        53143
        51142
        53252
        51272
        51265
        51123
        53307
        54201
        53186
        53222
        53466
        53753
        53167
        53522
        53064
        53283
        53655
        51235
        53459
        53235
        53120
        53366
        51119
        53523
        51294
        51281
        53249
        53761
        51189
        53531
        53183
        51179
        51258
        53145
        53289
        53573
        51173
        51170
        53176
        53510
        53521
        53127
        51225
        53095
        53519
        51246
        54181
        53111
        51201
        51176
        53217
        53381
        53286
        53140
        51184
        51162
        51310
        51319
        51266
        54472
        51287
        51206
        51161
        53125
        54180
        53081
        51273
        53219
        51315
        54202
        51280
        53759
        51302
        51125
        51152
        51306
        52909
        51156
        51186
        51060
        51252
        53460
        53168
        53193
        53165
        53160
        53159
        53764
        54473
        51317
        51180
        53524
        53123
        53203
        51237
        54179
        51185
        53258
        51227
        53535
        51163
        51187
        53228
        51277
        51191
        53071
        53654
        53225
        53136
        51127
        53780
      - UserPurchaseHistory.csv
    - build.sbt
- README.md
- Chapter02
  - README
  - spark
    - src
      - main
        scala
        linalg
        sgd
        SparkSGD.scala
        vector
        SparkVector.scala
        matrix
        SparkMatrix.scala
        svd
        SparkSVDExampleOne.scala
        SparkSVDExampleTwo.scala
    - build.sbt
    - svd.txt
  - breeze
    - src
      - main
        scala
        linalg
        sgd
        BreezeSGDVector.scala
        plot
        BreezePlotLine.scala
        BreezePlotGaussian.scala
        operations
        common.scala
        fields
        ComplexNumber.scala
        GF2.scala
        GaloisField.scala
        vector
        Vector.scala
        matrix
        BreezeMatrix.scala
        BreezeMatrixOperations.scala
    - build.sbt
- Chapter05
  - 1.6.2
    - scala-spark-app
      - src
        main
        scala
        MovieLensFPGrowthApp.scala
        SampleALSApp.scala
        SampleFPGrowthApp.scala
        ScalaApp.scala
        com
        sparksample
        MovieLensFPGrowthApp.scala
        SampleALSApp.scala
        SampleFPGrowthApp.scala
        MovieLensALSApp.scala
        Util.scala
        MovieLensALSApp.scala
        Util.scala
      - build.sbt
  - 2.0.0
    - scala-spark-app
      - src
        main
        scala
        com
        spark
        recommendation
        ALSModeling.scala
        sample_movielens_ratings.txt
        test.txt
        AbstractParams.scala
        FPGrowthTestv6.scala
        AlternatingLeastSquares.scala
        FeatureExtraction.scala
      - build.sbt
  - scala-shell-code_04.scala
- Chapter07
  - scala
    - 1.6.2
      - scala-spark-app
        src
        main
        scala
        org
        sparksamples
        IsotonicRegressionApp.scala
        linearregression
        LinearRegressionUtil.scala
        LinearRegressionCrossValidationStep.scala
        LinearRegressionWithLog.scala
        LinearRegressionCrossValidationIterations.scala
        BarChart.scala
        TestPlot.scala
        LinearRegression.scala
        LinearRegressionWithIntercept.scala
        LinearRegressionCrossValidationIntercept.scala
        gradientboosted
        GradientBoostedTreesMaxBins.scala
        GradientBoostedTreesApp.scala
        GradientBoostedTreesMaxDepth.scala
        GradientBoostedTreesIterations.scala
        GradientBoostedTreesUtil.scala
        RidgeRegressionApp.scala
        chart
        LineChart.scala
        PlotLogData.scala
        PlotRawData.scala
        Util.scala
        GenerateDataFeaturesFile.scala
        CalculateStdDeviation.scala
        decisiontree
        DecisionTreeWithLog.scala
        DecisionTreeUtil.scala
        DecisionTreeMaxDepth.scala
        DecisionTreeApp.scala
        DecisionTreeMaxBins.scala
        DecisionTreeCategoricalFeaturesApp.scala
        build.sbt
    - 2.0.0
      - scala-spark-app
        src
        main
        scala
        org
        sparksamples
        regression
        bikesharing
        LinearRegressionPipeline.scala
        OneHotEncoderExample.scala
        DecisionTreeRegressionPipeline.scala
        BikeSharingExecutor.scala
        RandomForestRegressionPipeline.scala
        GeneralizedLinearRegressionPipeline.scala
        SparkCommonUtils.scala
        GradientBoostedTreeRegressorPipeline.scala
        SparkConstants.scala
        results
        Actual.xls
        part-00000
        _SUCCESS
        LogisticRegression.csv
        part-r-00000-afb63f33-a4bc-4dd7-8caf-ef6248ae2652.csv
        _SUCCESS
        LR.xls
        part-00000
        _SUCCESS
        linearregression
        LinearRegressionWithLog.scala
        Util.scala
        LinearRegression.scala
        dataset
        BikeSharing
        day.csv
        Readme.txt
        build.sbt
  - python
    - plot_sqrt_data.py
    - com
      - sparksamples
        ridgeregression
        RidgeRegression.py
        __init__.py
        util.py
        isotonicregression
        IsotonicRegression.py
        __init__.py
        gradientboostedtrees
        GradientBoostedTreesCrossValidationIterations.py
        GradientBoostedTreesCrossValidationMaxBins.py
        GradientBoostedTrees.py
        GradientBoostedTreesUtil.py
        hs_err_pid24944.log
        hs_err_pid24887.log
        __init__.py
        linearregression
        LinearRegressionCrossValidationIterations.py
        LinearRegressionCrossValidationStepSize.py
        LinearRegressionCrossValidationL1Regularization.py
        LinearRegressionLog.py
        __init__.py
        LinearRegressionUtil.py
        LinearRegression.py
        LinearRegressionCrossValidationL2Regularization.py
        LinearRegressionCrossValidationIntercept.py
        __init__.py
        decisiontree
        DecisionTreeMaxDepth.py
        DecisionTreeMaxBins.py
        DecisionTree.py
        __init__.py
        DecisionTreeCategoricalFeatures.py
        DecisionTreeUtil.py
        DecisionTreeLog.py
      - __init__.py
    - requirements.txt
    - plot_raw_data.py
- Support_Files
  - maths-for-ml
    - src
      - main
        scala
        Vectors.scala
      - Vector.scala
    - .idea
      - libraries
        SBT__org_scala_lang_scala_reflect_2_10_4_jar.xml
        SBT__com_github_rwl_jtransforms_2_4_0_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_linux_armhf_1_1_natives_jar.xml
        SBT__net_sourceforge_f2j_arpack_combined_all_0_1_jar.xml
        SBT__jfree_jcommon_1_0_16_jar.xml
        SBT__com_github_fommil_netlib_native_ref_java_1_1_jar.xml
        SBT__jfree_jfreechart_1_0_13_jar.xml
        SBT__junit_junit_4_8_2_jar.xml
        SBT__com_github_fommil_jniloader_1_1_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_win_i686_1_1_natives_jar.xml
        SBT__org_scala_lang_scala_library_2_10_4_jar.xml
        SBT__commons_io_commons_io_1_3_1_jar.xml
        SBT__net_sf_opencsv_opencsv_2_3_jar.xml
        SBT__org_scalanlp_breeze_viz_2_10_0_12_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_linux_i686_1_1_natives_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_linux_x86_64_1_1_natives_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_win_i686_1_1_natives_jar.xml
        SBT__org_scalanlp_breeze_macros_2_10_0_12_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_win_x86_64_1_1_natives_jar.xml
        SBT__bouncycastle_bcprov_jdk14_138_jar.xml
        SBT__com_github_fommil_netlib_native_system_java_1_1_jar.xml
        SBT__org_scalamacros_quasiquotes_2_10_2_0_0_jar.xml
        org_scalanlp_breeze_2_11_0_11_2.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_linux_i686_1_1_natives_jar.xml
        SBT__commons_logging_commons_logging_1_0_4_jar.xml
        SBT__com_github_fommil_netlib_core_1_1_2_jar.xml
        SBT__org_apache_xmlgraphics_xmlgraphics_commons_1_3_1_jar.xml
        SBT__bouncycastle_bcmail_jdk14_138_jar.xml
        SBT__org_slf4j_slf4j_api_1_7_5_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_osx_x86_64_1_1_natives_jar.xml
        SBT__com_chuusai_shapeless_2_10_4_2_0_0_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_win_x86_64_1_1_natives_jar.xml
        SBT__org_spire_math_spire_2_10_0_7_4_jar.xml
        SBT__org_apache_commons_commons_math3_3_2_jar.xml
        SBT__org_scalanlp_breeze_natives_2_10_0_12_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_linux_armhf_1_1_natives_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_ref_osx_x86_64_1_1_natives_jar.xml
        SBT__com_github_fommil_netlib_netlib_native_system_linux_x86_64_1_1_natives_jar.xml
        SBT__org_scalanlp_breeze_2_10_0_12_jar.xml
        SBT__com_lowagie_itext_2_1_5_jar.xml
        SBT__org_spire_math_spire_macros_2_10_0_7_4_jar.xml
      - uiDesigner.xml
      - vcs.xml
      - scala_compiler.xml
      - modules
        maths-for-ml-build.iml
- Chapter11
  - 1.6.2
    - scala-spark-streaming-app
      - src
        main
        resources
        log4j.properties
        names.csv
        scala
        org
        sparksamples
        Streaming.scala
        StreamingModel.scala
      - build.sbt
  - 2.0.0
    - scala-spark-streaming-app
      - src
        main
        resources
        log4j.properties
        names.csv
        scala
        org
        sparksamples
        Streaming.scala
        StreamingModel.scala
      - build.sbt
- .gitignore
- Chapter04
  - scala
    - 1.6.2
      - src
        main
        scala
        org
        sparksamples
        UserRatingsChart.scala
        UserData.scala
        MovieData.scala
        CountByRatingChart.scala
        exploredataset
        explore_ratings.scala
        explore_users.scala
        explore_movies.scala
        MovieAgesChart.scala
        RatingData.scala
        featureext
        TfIdfSample.scala
        ConvertWordsToVectors.scala
        StandardScalarSample.scala
        UserOccupationChart.scala
        MovieDataFillingBadValues.scala
        Util.scala
        UserAgesChart.scala
      - build.sbt
    - 2.0.0
      - src
        main
        scala
        org
        sparksamples
        UserRatingsChart.scala
        UserData.scala
        MovieData.scala
        FeatureNormalizer.scala
        CountByRatingChart.scala
        exploredataset
        explore_users.scala
        explore_movies.scala
        MovieAgesChart.scala
        RatingData.scala
        featureext
        TfIdfSample.scala
        ConvertWordsToVectors.scala
        StandardScalarSample.scala
        UserOccupationChart.scala
        MovieDataFillingBadValues.scala
        Util.scala
        UserAgesChart.scala
      - build.sbt
  - .ipynb_checkpoints
    - configure_pyspark_jupyter-checkpoint.ipynb
  - python
    - 1.6.2
      - __init__.py
      - com
        sparksamples
        user_data.py
        util.py
        plot_user_ages.py
        movie_data_df.py
        movie_data.py
        plot_user_occupations.py
        __init__.py
        rating_data.py
        code04.py
        __init__.py
    - ipython
      - code04.ipynb
      - .ipynb_checkpoints
        code04-checkpoint.ipynb
    - 2.0.0
      - com
        sparksamples
        user_data.py
        util.py
        plot_user_ages.py
        movie_data.py
        plot_user_occupations.py
        __init__.py
        rating_data.py
        __init__.py
  - data
    - text8_10000
- Chapter06
  - 1.6.2
    - scala-spark-app
      - src
        main
        scala
        org
        sparksamples
        classification
        AllInOneClassification.scala
        DataPersistenceApp.scala
        dataset
        spark-data
        sample_linear_regression_data.txt
        stumbleupon
        GradientBoostedTreePipeline.scala
        AllInOneClassification.scala
        DecisionTreePipeline.scala
        NaiveBayesPipeline.scala
        LogisticRegressionPipeline.scala
        RandomForestPipeline.scala
        SVMPipeline.scala
        StumbleUponExecutor.scala
        SparkCommonUtils.scala
        SparkConstants.scala
      - build.sbt
  - 2.0.0
    - scala-spark-app
      - src
        main
        scala
        org
        sparksamples
        classification
        results
        Actual.xls
        part-00000
        _SUCCESS
        LogisticRegression.csv
        part-r-00000-afb63f33-a4bc-4dd7-8caf-ef6248ae2652.csv
        _SUCCESS
        LR.xls
        part-00000
        _SUCCESS
        dataset
        spark-data
        sample_libsvm_data.txt
        sample_multiclass_classification_data.txt
        sample_linear_regression_data.txt
        stumbleupon
        GradientBoostedTreePipeline.scala
        AllInOneClassification.scala
        DecisionTreePipeline.scala
        MultilayerPerceptronClassifierExample.scala
        NaiveBayesPipeline.scala
        LogisticRegressionSummaryExample.scala
        LogisticRegressionPipeline.scala
        RandomForestPipeline.scala
        SVMPipeline.scala
        StumbleUponExecutor.scala
        SparkCommonUtils.scala
        SparkConstants.scala
      - build.sbt
- Chapter09
  - data
    - s.csv
  - 2.0.x
    - scala
      - src
        main
        scala
        org
        sparksamples
        ImageProcessing.scala
        Util.scala
      - s.csv
      - project
        build.properties
        plugins.sbt
      - build.sbt
    - python
      - requirements.txt
      - org
        sparksamples
        __init__.py
        plot_singular_values.py
        ploy_gallery.py
        __init__.py

package org.sparksamples

import org.apache.spark.rdd.RDD

import scala.collection.Map
import scala.collection.mutable.ListBuffer

/**
 * A simple Spark app in Scala
 */
object GenerateDataFeaturesFile{

  def get_mapping(rdd :RDD[Array[String]], idx: Int) : Map[String, Long] = {
    return rdd.map( fields=> fields(idx)).distinct().zipWithIndex().collectAsMap()
  }

  def main(args: Array[String]) {
    val sc = Util.sc
    // we take the raw data in CSV format and convert it into a set of records
    // of the form (user, product, price)
    val rawData = sc.textFile("../data/hour_noheader.csv")
    val numData = rawData.count()

    val records = rawData.map(line => line.split(","))
    val first = records.first()

    println(numData.toInt)
    records.cache()
    print("Mapping of first categorical feature column: " +  get_mapping(records, 2))
    print("Mapping of second categorical feature column: " +  get_mapping(records, 3))
    var list = new ListBuffer[Map[String, Long]]()
    for( i <- 2 to 9){
      val m = get_mapping(records, i)
      list += m
    }
    val mappings = list.toList
    var catLen = 0
    mappings.foreach( m => (catLen +=m.size))

    val numLen = records.first().slice(11, 15).size
    val totalLen = catLen + numLen

    print("Feature vector length for categorical features:"+ catLen)
    print("Feature vector length for numerical features:" + numLen)
    print("Total feature vector length: " + totalLen)

    val data = {
      records.map(r => Util.extractLabel(r) + "," +  Util.extractSumFeature(r, catLen, mappings))
    }

    val data_collection = data.collect()
    val d_iterator = data_collection.iterator
    while(d_iterator.hasNext) {
      val x = d_iterator.next
      println(x)
    }
    val first_point = data.first()
    val format = new java.text.SimpleDateFormat("dd-MM-yyyy-hh-mm-ss")
    val date = format.format(new java.util.Date())
    data.saveAsTextFile("./output/x_features" + date + ".csv")

    sc.stop()
  }

}