scala source code of L4-4Kryo

Project: prosparkstreaming (GitHub Link)

prosparkstreaming-master
- Chap3
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L3-1DStreams.scala
        L3-DStreamKeyValue.scala
        L3-DStreamAggregation.scala
        L3-DStreamWindowAndAction.scala
        L3-DStreamMapping.scala
        L3-DStreamVariation.scala
  - project
    - assembly.sbt
    - plugins.sbt
  - touch_files_window.sh
- Chap2
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        T2-6Accumulator.scala
        L2-1FirstApp.scala
  - project
    - assembly.sbt
    - plugins.sbt
- Chap8
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L8-14-27DataFrameExamples.scala
        L8-29DataFrameExamplesJoin.scala
        L8-8Sql.scala
        T8-5-L8-30-34DataFrameExamplesActions.scala
        L8-10-11UDF.scala
        L8-35DataFrameExamplesRDD.scala
        L8-13HiveQL.scala
        L8-28DataFrameExamplesOps.scala
        T8-3DataFrameExamplesNA.scala
        L8-3-6-7DataFrameCreation.scala
        L8-38SparkR.scala
        L8-4DataFrameCreationSchema.scala
        L8-1DataFrameAPI.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - L8-39CdrStreamingSparkRApp.R
  - cdrschema.json
  - project
    - assembly.sbt
    - plugins.sbt
  - cdrschema2.json
  - L8-36CdrSparkRApp.R
- Chap5
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L5-15KafkaDirect.scala
        L5-9Mqtt.scala
        L5-6SocketStream.scala
        L5-13Kafka.scala
        L5-14KafkaCustomConf.scala
        HttpInputDStream.scala
        L5-11FlumePush.scala
        L5-7MultipleSocketStreams.scala
        L5-11FlumePull.scala
        L5-18Http.scala
        HttpInputDStreamAsync.scala
        L5-16Twitter.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        KafkaDriver.java
        AbstractDriver.java
  - flumeConf
    - log4j.properties
    - flumeTest.conf
    - flumePush.conf
    - flumePull.conf
  - project
    - assembly.sbt
    - plugins.sbt
- LICENSE
- Chap6
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L6-16SparkHBase.scala
        L6-22Counters.scala
        L6-23UpdateState.scala
        L6-14HBase.scala
        L6-5Exception.scala
        L6-8Static.scala
        L6-6PerRecord.scala
        L6-24Accumulators.scala
        HttpInputDStream.scala
        L6-10LazyStatic.scala
        L6-12StaticPool.scala
        L6-26Redis.scala
        L6-7PerPartition.scala
        L6-18Cassandra.scala
        L6-20CassandraConnector.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap9
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L9-13FPMiningPreprocessing.scala
        L9-3Statistics.scala
        L9-1LinearRegression.scala
        L9-8PCA.scala
        L9-12CollabFiltering.scala
        L9-10KMeans.scala
        L9-5ChiSq.scala
        L9-7FeatureExtraction.scala
        L9-11CollabFilteringPreprocessing.scala
        L9-6Preprocessing.scala
        L9-4Correlation.scala
        T9-4DataTypes.scala
        L9-14FPMining.scala
        L9-17MLCrossValidation.scala
        L9-9LogisticRegression.scala
        L9-15MLPipeline.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap4
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L4-3ProtonFlux.scala
        L4-1Voyager.scala
        L4-4Kryo.scala
  - project
    - assembly.sbt
    - plugins.sbt
- README.md
- Chap10
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L10-2DataProc.scala
        L10-9Graph.scala
        L10-4LambdaLocal.scala
        L10-4LambdaDataproc.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - yelp_pyspark.py
  - project
    - assembly.sbt
    - plugins.sbt
- .gitignore
- Chap7
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L7-4UI.scala
        L7-2-3Tachyon.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt

package org.apress.prospark

import org.apache.hadoop.fs.Path
import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD.rddToOrderedRDDFunctions
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.DStream.toPairDStreamFunctions

object VoyagerAppKryo {
  def main(args: Array[String]) {
    if (args.length != 3) {
      System.err.println(
        "Usage: VoyagerAppKryo <appname> <inputPath> <outputPath>")
      System.exit(1)
    }
    val Seq(appName, inputPath, outputPath) = args.toSeq

    val conf = new SparkConf()
      .setAppName(appName)
      .setJars(SparkContext.jarOfClass(this.getClass).toSeq)
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .registerKryoClasses(Array(classOf[ProtonFlux]))

    val ssc = new StreamingContext(conf, Seconds(10))

    val voyager1 = ssc.fileStream[LongWritable, Text, TextInputFormat](inputPath, (f: Path) => true, newFilesOnly = false).map(pair => pair._2.toString)
    val projected = voyager1.map(rec => {
      val attrs = rec.split("\\s+")
      new ProtonFlux(attrs(0), attrs(18), attrs(19), attrs(20), attrs(21),
        attrs(22), attrs(23), attrs(24), attrs(25), attrs(26), attrs(27),
        attrs(28))
    })
    val filtered = projected.filter(pflux => pflux.isSolarStorm)
    val yearlyBreakdown = filtered.map(rec => (rec.year, 1))
      .reduceByKey(_ + _)
      .transform(rec => rec.sortByKey(ascending = false))
    yearlyBreakdown.saveAsTextFiles(outputPath)

    ssc.start()
    ssc.awaitTermination()
  }
}