java source code of SparkWordCount

Project: Apache-Spark-2x-for-Java-Developers (GitHub Link)

Apache-Spark-2x-for-Java-Developers-master
- src
  - main
    - resources
      - numSeries.txt
      - breakfast_menu.xml
      - log4j.properties
      - logFileWithException.log
      - movies.csv
      - Employee.txt
      - dept.txt
      - Apology_by_Plato.txt
      - people.tsv
      - pep_json.json
    - java
      - com
        packt
        sfjd
        ch7
        CustomPartitioner.java
        CustomPartitionerExample.java
        ListAccumulator.java
        Transformations.java
        MapSideJoinBroadcast.java
        TestAccumulator.java
        BroadcastVariable.java
        Partitioning.java
        PartitionIndexInformation.java
        AdvanceActionExamples.java
        ch4
        transformations
        Test.java
        Transformations.java
        TestMain.java
        SparkWordCount.java
        WordCount.java
        ActionExamples.java
        PersistExample.java
        SparkWordCount_1_7.java
        JavaWordCount.java
        AggeregateExample.java
        ActionsExamplesOld.java
        ch10
        FlightDelay.java
        BikeRentalPrediction.java
        Rating.java
        JavaALSExample.java
        JavaEstimatorTransformerParamExample.java
        Flight.java
        ch9
        WindowBatchInterval.java
        WordCountTransformOpEx.java
        FlightDetails.java
        WordCountRecoverableEx.java
        WordCountSocketJava8Ex.java
        StateLessProcessingExample.java
        Calculator.java
        WordCountSocketEx.java
        KafkaExample.java
        FileStreamingEx.java
        StructuredStreamingExample.java
        TweetText.java
        StateFulProcessingExample.java
        WordCountSocketStateful.java
        ch11
        AbsFunc5.java
        AbsFunc6.java
        AbsFunc2.java
        PropertyGraphExample.java
        AbsFunc7.java
        AbsFunc3.java
        AbsFunc1.java
        AbsFunc8.java
        PropertyGraphExampleFromEdges.java
        AbsFunc4.java
        ch2
        ClosureExample.java
        MyFilterImpl.java
        Interface2.java
        LambdaExamples.java
        WordCountInJava.java
        IntermediateOpExample.java
        CreateStreamExample.java
        generics
        MyGenericsDemo.java
        FirstExample.java
        MyGeneric.java
        MyFileNameFilter.java
        AInnerClassVsLambda.java
        MyInterface.java
        TerminalOpExample.java
        LexicalScoping.java
        MethodReferenceExample.java
        InterfaceImpl.java
        MyInterfaceImpl.java
        Car.java
        ClosureDemo.java
        ShortCircuitOperationExample.java
        Interface1.java
        CollectorsExamples.java
        MyInterfaceDemo.java
        ch5
        LFSExample.java
        CSVFileOperations.java
        DelimitedFileOperations.java
        Movie.java
        Employee.java
        Person.java
        XMLFileOperations.java
        TextFileOperations.java
        CassandraExample.java
        S3Example.java
        JsonFileOperations.java
        PersonDetails.java
        HdfsExample.java
        ch8
        DfExample.java
        SparkSessionExample.java
        UDFExample.java
        TypeSafeUDAF.java
        CalcDaysUDF.java
        Employee.java
        DsExample.java
        AverageUDAF.java
        SparkSessionHeloWorld.java
        DatasetOperations.java
        ContextCreation.java
        Average.java
- pom.xml
- LICENSE
- README.md

package com.packt.sfjd.ch4;

import java.io.File;
import java.util.Arrays;

import org.apache.commons.io.FileUtils;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;
//http://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path

//http://www.javaworld.com/article/2972863/big-data/open-source-java-projects-apache-spark.html
	
public class SparkWordCount {
	public static void main(String[] args) throws Exception {
		System.out.println(System.getProperty("hadoop.home.dir"));
		String inputPath = args[0];
		String outputPath = args[1];
		FileUtils.deleteQuietly(new File(outputPath));

		JavaSparkContext sc = new JavaSparkContext("local", "sparkwordcount");

		JavaRDD<String> rdd = sc.textFile(inputPath);

		JavaPairRDD<String, Integer> counts = rdd
				.flatMap(x -> Arrays.asList(x.split(" ")).iterator())
				.mapToPair(x -> new Tuple2<String, Integer>((String) x, 1))
				.reduceByKey((x, y) -> x + y);

		counts.saveAsTextFile(outputPath);
		sc.close();
	}
}