scala source code of L9-8PCA

Project: prosparkstreaming (GitHub Link)

prosparkstreaming-master
- Chap3
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L3-1DStreams.scala
        L3-DStreamKeyValue.scala
        L3-DStreamAggregation.scala
        L3-DStreamWindowAndAction.scala
        L3-DStreamMapping.scala
        L3-DStreamVariation.scala
  - project
    - assembly.sbt
    - plugins.sbt
  - touch_files_window.sh
- Chap2
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        T2-6Accumulator.scala
        L2-1FirstApp.scala
  - project
    - assembly.sbt
    - plugins.sbt
- Chap8
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L8-14-27DataFrameExamples.scala
        L8-29DataFrameExamplesJoin.scala
        L8-8Sql.scala
        T8-5-L8-30-34DataFrameExamplesActions.scala
        L8-10-11UDF.scala
        L8-35DataFrameExamplesRDD.scala
        L8-13HiveQL.scala
        L8-28DataFrameExamplesOps.scala
        T8-3DataFrameExamplesNA.scala
        L8-3-6-7DataFrameCreation.scala
        L8-38SparkR.scala
        L8-4DataFrameCreationSchema.scala
        L8-1DataFrameAPI.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - L8-39CdrStreamingSparkRApp.R
  - cdrschema.json
  - project
    - assembly.sbt
    - plugins.sbt
  - cdrschema2.json
  - L8-36CdrSparkRApp.R
- Chap5
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L5-15KafkaDirect.scala
        L5-9Mqtt.scala
        L5-6SocketStream.scala
        L5-13Kafka.scala
        L5-14KafkaCustomConf.scala
        HttpInputDStream.scala
        L5-11FlumePush.scala
        L5-7MultipleSocketStreams.scala
        L5-11FlumePull.scala
        L5-18Http.scala
        HttpInputDStreamAsync.scala
        L5-16Twitter.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        KafkaDriver.java
        AbstractDriver.java
  - flumeConf
    - log4j.properties
    - flumeTest.conf
    - flumePush.conf
    - flumePull.conf
  - project
    - assembly.sbt
    - plugins.sbt
- LICENSE
- Chap6
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L6-16SparkHBase.scala
        L6-22Counters.scala
        L6-23UpdateState.scala
        L6-14HBase.scala
        L6-5Exception.scala
        L6-8Static.scala
        L6-6PerRecord.scala
        L6-24Accumulators.scala
        HttpInputDStream.scala
        L6-10LazyStatic.scala
        L6-12StaticPool.scala
        L6-26Redis.scala
        L6-7PerPartition.scala
        L6-18Cassandra.scala
        L6-20CassandraConnector.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap9
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L9-13FPMiningPreprocessing.scala
        L9-3Statistics.scala
        L9-1LinearRegression.scala
        L9-8PCA.scala
        L9-12CollabFiltering.scala
        L9-10KMeans.scala
        L9-5ChiSq.scala
        L9-7FeatureExtraction.scala
        L9-11CollabFilteringPreprocessing.scala
        L9-6Preprocessing.scala
        L9-4Correlation.scala
        T9-4DataTypes.scala
        L9-14FPMining.scala
        L9-17MLCrossValidation.scala
        L9-9LogisticRegression.scala
        L9-15MLPipeline.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap4
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L4-3ProtonFlux.scala
        L4-1Voyager.scala
        L4-4Kryo.scala
  - project
    - assembly.sbt
    - plugins.sbt
- README.md
- Chap10
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L10-2DataProc.scala
        L10-9Graph.scala
        L10-4LambdaLocal.scala
        L10-4LambdaDataproc.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - yelp_pyspark.py
  - project
    - assembly.sbt
    - plugins.sbt
- .gitignore
- Chap7
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L7-4UI.scala
        L7-2-3Tachyon.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt

package org.apress.prospark

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.feature.PCA
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.StreamingContext

object PCAApp {

  def main(args: Array[String]) {
    if (args.length != 4) {
      System.err.println(
        "Usage: PCAApp <appname> <batchInterval> <hostname> <port>")
      System.exit(1)
    }
    val Seq(appName, batchInterval, hostname, port) = args.toSeq

    val conf = new SparkConf()
      .setAppName(appName)
      .setJars(SparkContext.jarOfClass(this.getClass).toSeq)

    val ssc = new StreamingContext(conf, Seconds(batchInterval.toInt))

    val substream = ssc.socketTextStream(hostname, port.toInt)
      .filter(!_.contains("NaN"))
      .map(_.split(" "))
      .filter(f => f(1) != "0")

    val datastream = substream.map(f => Array(f(1), f(4), f(5), f(6), f(20), f(21), f(22), f(36), f(37), f(38)))
      .map(f => f.map(v => v.toDouble))
      .map(f => LabeledPoint(f(0), Vectors.dense(f.slice(1, f.length))))

    datastream.foreachRDD(rdd => {
      val pca = new PCA(rdd.first().features.size / 2)
        .fit(rdd.map(_.features))
      val testTrain = rdd.randomSplit(Array(0.3, 0.7))
      val test = testTrain(0).map(lp => lp.copy(features = pca.transform(lp.features)))
      val train = testTrain(1).map(lp => lp.copy(features = pca.transform(lp.features)))
      train.take(20).foreach(println)
    })

    ssc.start()
    ssc.awaitTermination()
  }

}