scala source code of MSNBCStreamingAdvanced

Mastering-Machine-Learning-with-Spark-2.x-master
- Chapter08
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter8
        Chapter8.scala
        Chapter8Library.scala
        Chapter8StreamApp.scala
  - appdata
    - events_2.csv
    - events_1.csv
  - build.gradle
- utils
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        utils
        Tabulizer.scala
        Utils.scala
        UDFTransformer.scala
    - test
      - scala
        com
        packtpub
        mmlwspark
        TestTabulizer.scala
  - build.gradle
- gradle.properties
- gradle
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
  - publish.gradle
- gradlew.bat
- LICENSE
- gradlew
- .gitattributes
- build.gradle
- README.md
- Chapter02
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter2
        Chapter2.scala
  - script
    - Chapter2.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter05
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter5
        Chapter5.scala
  - script
    - Chapter5.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter03
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter3
        Chapter3.scala
  - script
    - Chapter3.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter07
  - src
    - main
      - resources
        testGraph.gexf
      - scala
        com
        github
        maxpumperla
        ml_spark
        graphs
        PregelTest.scala
        GraphFromEdges.scala
        GraphGeneration.scala
        ConnectedComponents.scala
        GraphFromRdd.scala
        GephiApp.scala
        GraphFramesExample.scala
        utils
        Gephi.scala
  - build.gradle
  - build.sbt
- settings.gradle
- .gitignore
- Chapter04
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter4
        Chapter4.scala
  - script
    - Chapter4.scala
  - models
    - dtModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00000-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00003-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00001-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00000-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00004-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00007-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00006-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00003-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00007-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00002-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00005-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00002-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00006-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00004-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00005-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        ._SUCCESS.crc
        .part-00001-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        _SUCCESS
    - metaLearningModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
    - rfModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - treesMetadata
        .part-00007-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00007-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00005-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00003-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        .part-00006-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00003-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00002-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00000-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00001-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00004-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00004-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00002-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00001-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        .part-00005-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00006-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00000-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00005-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00003-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00001-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00004-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00007-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00002-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00004-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00000-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00001-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00005-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00000-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00007-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00006-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00002-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00003-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        ._SUCCESS.crc
        .part-00006-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        _SUCCESS
    - nbModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        .part-00000-33924de8-eb92-497d-a84e-0808fb03a192.snappy.parquet.crc
        ._SUCCESS.crc
        part-00000-33924de8-eb92-497d-a84e-0808fb03a192.snappy.parquet
        _SUCCESS
    - gbmModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - treesMetadata
        part-00001-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00006-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00002-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00007-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00007-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00003-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00005-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00006-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00005-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00004-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00002-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00000-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00004-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00003-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00001-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00000-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00000-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00000-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00003-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00002-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00001-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00005-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00006-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00004-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00005-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00003-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00004-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00007-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00006-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        part-00001-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        ._SUCCESS.crc
        part-00007-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        _SUCCESS
        part-00002-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter06
  - src
    - main
      - resources
        testGraph.gexf
      - scala
        com
        github
        maxpumperla
        ml_spark
        streaming
        MSNBCStreamingExample.scala
        MSNBCStreamingAdvanced.scala
        MSNBCPatternMining.scala
  - build.gradle
  - build.sbt

package com.github.maxpumperla.ml_spark.streaming

import org.apache.spark.mllib.fpm.PrefixSpan
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object MSNBCStreamingAdvanced extends App {

    val conf = new SparkConf()
      .setAppName("MSNBC data initial streaming example")
      .setMaster("local[4]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, batchDuration = Seconds(10))

    val transactions: RDD[Array[Int]] = sc.textFile("src/main/resources/msnbc990928.seq") map { line =>
      line.split(" ").map(_.toInt)
    }
    val trainSequences: RDD[Array[Array[Int]]] = transactions.map(_.map(Array(_))).cache()
    val prefixSpan = new PrefixSpan().setMinSupport(0.005).setMaxPatternLength(15)
    val psModel = prefixSpan.run(trainSequences)
    val freqSequences = psModel.freqSequences.map(_.sequence).collect()


    val rawEvents: DStream[String] = ssc.socketTextStream("localhost", 9999)

    val events: DStream[(Int, String)] = rawEvents.map(line => line.split(": "))
        .map(kv => (kv(0).toInt, kv(1)))

    val countIds = events.map(e => (e._1, 1))
    val counts: DStream[(Int, Int)] = countIds.reduceByKey(_ + _)

    def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
      Some(runningCount.getOrElse(0) + newValues.sum)
    }
    val runningCounts = countIds.updateStateByKey[Int](updateFunction _)

    val duration = Seconds(20)
    val slide = Seconds(10)

    val rawSequences: DStream[(Int, String)] = events
      .reduceByKeyAndWindow((v1: String, v2: String) => v1 + " " + v2, duration, slide)

    val sequences: DStream[Array[Array[Int]]] = rawSequences.map(_._2)
      .map(line => line.split(" ").map(_.toInt))
      .map(_.map(Array(_)))


    print(">>> Analysing new batch of data")
    sequences.foreachRDD(
      rdd => rdd.foreach(
        array => {
          println(">>> Sequence: ")
          println(array.map(_.mkString("[", ", ", "]")).mkString("[", ", ", "]"))
          freqSequences.count(_.deep == array.deep) match {
            case count if count > 0 => println("is frequent!")
            case _ => println("is not frequent.")
          }
        }
      )
    )
    print(">>> done")

    ssc.start()
    ssc.awaitTermination()
}