scala source code of MSNBCStreamingExample

Mastering-Machine-Learning-with-Spark-2.x-master
- Chapter08
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter8
        Chapter8.scala
        Chapter8Library.scala
        Chapter8StreamApp.scala
  - appdata
    - events_2.csv
    - events_1.csv
  - build.gradle
- utils
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        utils
        Tabulizer.scala
        Utils.scala
        UDFTransformer.scala
    - test
      - scala
        com
        packtpub
        mmlwspark
        TestTabulizer.scala
  - build.gradle
- gradle.properties
- gradle
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
  - publish.gradle
- gradlew.bat
- LICENSE
- gradlew
- .gitattributes
- build.gradle
- README.md
- Chapter02
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter2
        Chapter2.scala
  - script
    - Chapter2.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter05
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter5
        Chapter5.scala
  - script
    - Chapter5.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter03
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter3
        Chapter3.scala
  - script
    - Chapter3.scala
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter07
  - src
    - main
      - resources
        testGraph.gexf
      - scala
        com
        github
        maxpumperla
        ml_spark
        graphs
        PregelTest.scala
        GraphFromEdges.scala
        GraphGeneration.scala
        ConnectedComponents.scala
        GraphFromRdd.scala
        GephiApp.scala
        GraphFramesExample.scala
        utils
        Gephi.scala
  - build.gradle
  - build.sbt
- settings.gradle
- .gitignore
- Chapter04
  - src
    - main
      - scala
        com
        packtpub
        mmlwspark
        chapter4
        Chapter4.scala
  - script
    - Chapter4.scala
  - models
    - dtModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00000-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00003-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00001-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00000-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00004-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        part-00007-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00006-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00003-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00007-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00002-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00005-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        .part-00002-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00006-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        .part-00004-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        part-00005-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet
        ._SUCCESS.crc
        .part-00001-8dbcb1d2-fc09-4900-b93e-c2686e0c150b.snappy.parquet.crc
        _SUCCESS
    - metaLearningModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
    - rfModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - treesMetadata
        .part-00007-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00007-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00005-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00003-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        .part-00006-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00003-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00002-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00000-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00001-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00004-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00004-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        part-00002-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00001-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        .part-00005-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        part-00006-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet
        .part-00000-29fa23f1-2bd2-42aa-bc41-61a7842d4ad3.snappy.parquet.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00005-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00003-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00001-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00004-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00007-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        .part-00002-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00004-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00000-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00001-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00005-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        part-00000-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00007-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00006-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        part-00002-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet
        .part-00003-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        ._SUCCESS.crc
        .part-00006-b5424732-aaa7-4490-8416-3fc65563e940.snappy.parquet.crc
        _SUCCESS
    - nbModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - data
        .part-00000-33924de8-eb92-497d-a84e-0808fb03a192.snappy.parquet.crc
        ._SUCCESS.crc
        part-00000-33924de8-eb92-497d-a84e-0808fb03a192.snappy.parquet
        _SUCCESS
    - gbmModel
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - treesMetadata
        part-00001-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00006-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00002-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00007-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00007-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00003-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00005-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00006-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00005-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        part-00004-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        .part-00002-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00000-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00004-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00003-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        .part-00001-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet.crc
        part-00000-0ba38cf3-f125-4263-b4e4-e41b2136b773.snappy.parquet
        ._SUCCESS.crc
        _SUCCESS
      - data
        part-00000-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00000-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00003-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00002-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00001-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00005-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00006-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        .part-00004-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00005-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00003-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00004-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        .part-00007-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet.crc
        part-00006-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        part-00001-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        ._SUCCESS.crc
        part-00007-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
        _SUCCESS
        part-00002-2d268799-b09d-4ae5-b783-b294893055da.snappy.parquet
  - build.gradle
  - bin
    - getdata.sh
    - start.sh
- Chapter06
  - src
    - main
      - resources
        testGraph.gexf
      - scala
        com
        github
        maxpumperla
        ml_spark
        streaming
        MSNBCStreamingExample.scala
        MSNBCStreamingAdvanced.scala
        MSNBCPatternMining.scala
  - build.gradle
  - build.sbt

package com.github.maxpumperla.ml_spark.streaming

import org.apache.spark.mllib.fpm.PrefixSpan
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object MSNBCStreamingExample extends App {

    val conf = new SparkConf()
      .setAppName("MSNBC data initial streaming example")
      .setMaster("local[4]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, batchDuration = Seconds(10))

    val transactions: RDD[Array[Int]] = sc.textFile("src/main/resources/msnbc990928.seq") map { line =>
      line.split(" ").map(_.toInt)
    }
    val trainSequences: RDD[Array[Array[Int]]] = transactions.map(_.map(Array(_))).cache()
    val prefixSpan = new PrefixSpan().setMinSupport(0.005).setMaxPatternLength(15)
    val psModel = prefixSpan.run(trainSequences)
    val freqSequences = psModel.freqSequences.map(_.sequence).collect()


    val rawSequences: DStream[String] = ssc.socketTextStream("localhost", 9999)

    val sequences: DStream[Array[Array[Int]]] = rawSequences
      .map(line => line.split(" ").map(_.toInt))
      .map(_.map(Array(_)))

    print(">>> Analysing new batch of data")
    sequences.foreachRDD(
      rdd => rdd.foreach(
        array => {
          println(">>> Sequence: ")
          println(array.map(_.mkString("[", ", ", "]")).mkString("[", ", ", "]"))
          freqSequences.count(_.deep == array.deep) match {
            case count if count > 0 => println("is frequent!")
            case _ => println("is not frequent.")
          }
        }
      )
    )
    print(">>> done")

    ssc.start()
    ssc.awaitTermination()

}