scala source code of L3-DStreamAggregation

Project: prosparkstreaming (GitHub Link)

prosparkstreaming-master
- Chap3
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L3-1DStreams.scala
        L3-DStreamKeyValue.scala
        L3-DStreamAggregation.scala
        L3-DStreamWindowAndAction.scala
        L3-DStreamMapping.scala
        L3-DStreamVariation.scala
  - project
    - assembly.sbt
    - plugins.sbt
  - touch_files_window.sh
- Chap2
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        T2-6Accumulator.scala
        L2-1FirstApp.scala
  - project
    - assembly.sbt
    - plugins.sbt
- Chap8
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L8-14-27DataFrameExamples.scala
        L8-29DataFrameExamplesJoin.scala
        L8-8Sql.scala
        T8-5-L8-30-34DataFrameExamplesActions.scala
        L8-10-11UDF.scala
        L8-35DataFrameExamplesRDD.scala
        L8-13HiveQL.scala
        L8-28DataFrameExamplesOps.scala
        T8-3DataFrameExamplesNA.scala
        L8-3-6-7DataFrameCreation.scala
        L8-38SparkR.scala
        L8-4DataFrameCreationSchema.scala
        L8-1DataFrameAPI.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - L8-39CdrStreamingSparkRApp.R
  - cdrschema.json
  - project
    - assembly.sbt
    - plugins.sbt
  - cdrschema2.json
  - L8-36CdrSparkRApp.R
- Chap5
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L5-15KafkaDirect.scala
        L5-9Mqtt.scala
        L5-6SocketStream.scala
        L5-13Kafka.scala
        L5-14KafkaCustomConf.scala
        HttpInputDStream.scala
        L5-11FlumePush.scala
        L5-7MultipleSocketStreams.scala
        L5-11FlumePull.scala
        L5-18Http.scala
        HttpInputDStreamAsync.scala
        L5-16Twitter.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        KafkaDriver.java
        AbstractDriver.java
  - flumeConf
    - log4j.properties
    - flumeTest.conf
    - flumePush.conf
    - flumePull.conf
  - project
    - assembly.sbt
    - plugins.sbt
- LICENSE
- Chap6
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L6-16SparkHBase.scala
        L6-22Counters.scala
        L6-23UpdateState.scala
        L6-14HBase.scala
        L6-5Exception.scala
        L6-8Static.scala
        L6-6PerRecord.scala
        L6-24Accumulators.scala
        HttpInputDStream.scala
        L6-10LazyStatic.scala
        L6-12StaticPool.scala
        L6-26Redis.scala
        L6-7PerPartition.scala
        L6-18Cassandra.scala
        L6-20CassandraConnector.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        MqttDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap9
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L9-13FPMiningPreprocessing.scala
        L9-3Statistics.scala
        L9-1LinearRegression.scala
        L9-8PCA.scala
        L9-12CollabFiltering.scala
        L9-10KMeans.scala
        L9-5ChiSq.scala
        L9-7FeatureExtraction.scala
        L9-11CollabFilteringPreprocessing.scala
        L9-6Preprocessing.scala
        L9-4Correlation.scala
        T9-4DataTypes.scala
        L9-14FPMining.scala
        L9-17MLCrossValidation.scala
        L9-9LogisticRegression.scala
        L9-15MLPipeline.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt
- Chap4
  - spark.sbt
  - src
    - main
      - scala
        org
        apress
        prospark
        L4-3ProtonFlux.scala
        L4-1Voyager.scala
        L4-4Kryo.scala
  - project
    - assembly.sbt
    - plugins.sbt
- README.md
- Chap10
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L10-2DataProc.scala
        L10-9Graph.scala
        L10-4LambdaLocal.scala
        L10-4LambdaDataproc.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - yelp_pyspark.py
  - project
    - assembly.sbt
    - plugins.sbt
- .gitignore
- Chap7
  - spark.sbt
  - src
    - main
      - resources
        log4j.properties
      - scala
        org
        apress
        prospark
        L7-4UI.scala
        L7-2-3Tachyon.scala
      - java
        org
        apress
        prospark
        SocketDriver.java
        AbstractDriver.java
  - project
    - assembly.sbt
    - plugins.sbt

package org.apress.prospark

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{ Milliseconds, Seconds, StreamingContext }
import org.apache.hadoop.io.{ Text, LongWritable, IntWritable }
import org.apache.hadoop.fs.Path
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat
import org.apache.spark.streaming.dstream.DStream
import org.apache.hadoop.mapred.TextOutputFormat
import org.apache.hadoop.mapreduce.lib.output.{ TextOutputFormat => NewTextOutputFormat }
import org.apache.spark.streaming.dstream.PairDStreamFunctions
import org.apache.log4j.LogManager
import org.json4s._
import org.json4s.native.JsonMethods._
import java.text.SimpleDateFormat
import java.util.Date

object RedditAggregationApp {
  def main(args: Array[String]) {
    if (args.length != 2) {
      System.err.println(
        "Usage: RedditAggregationApp <appname> <input_path>")
      System.exit(1)
    }
    val Seq(appName, inputPath) = args.toSeq
    val LOG = LogManager.getLogger(this.getClass)

    val conf = new SparkConf()
      .setAppName(appName)
      .setJars(SparkContext.jarOfClass(this.getClass).toSeq)

    val ssc = new StreamingContext(conf, Seconds(1))
    LOG.info("Started at %d".format(ssc.sparkContext.startTime))

    val comments = ssc.fileStream[LongWritable, Text, TextInputFormat](inputPath, (f: Path) => true, newFilesOnly = false).map(pair => pair._2.toString)

    val recCount = comments.count()

    val recCountValue = comments.countByValue()

    val totalWords = comments.map(rec => ((parse(rec) \ "body").values.toString))
      .flatMap(body => body.split(" "))
      .map(word => 1)
      .reduce(_ + _)

    ssc.start()
    ssc.awaitTermination()

  }
}