java source code of UDFExample

Project: Apache-Spark-2x-for-Java-Developers (GitHub Link)

Apache-Spark-2x-for-Java-Developers-master
- src
  - main
    - resources
      - numSeries.txt
      - breakfast_menu.xml
      - log4j.properties
      - logFileWithException.log
      - movies.csv
      - Employee.txt
      - dept.txt
      - Apology_by_Plato.txt
      - people.tsv
      - pep_json.json
    - java
      - com
        packt
        sfjd
        ch7
        CustomPartitioner.java
        CustomPartitionerExample.java
        ListAccumulator.java
        Transformations.java
        MapSideJoinBroadcast.java
        TestAccumulator.java
        BroadcastVariable.java
        Partitioning.java
        PartitionIndexInformation.java
        AdvanceActionExamples.java
        ch4
        transformations
        Test.java
        Transformations.java
        TestMain.java
        SparkWordCount.java
        WordCount.java
        ActionExamples.java
        PersistExample.java
        SparkWordCount_1_7.java
        JavaWordCount.java
        AggeregateExample.java
        ActionsExamplesOld.java
        ch10
        FlightDelay.java
        BikeRentalPrediction.java
        Rating.java
        JavaALSExample.java
        JavaEstimatorTransformerParamExample.java
        Flight.java
        ch9
        WindowBatchInterval.java
        WordCountTransformOpEx.java
        FlightDetails.java
        WordCountRecoverableEx.java
        WordCountSocketJava8Ex.java
        StateLessProcessingExample.java
        Calculator.java
        WordCountSocketEx.java
        KafkaExample.java
        FileStreamingEx.java
        StructuredStreamingExample.java
        TweetText.java
        StateFulProcessingExample.java
        WordCountSocketStateful.java
        ch11
        AbsFunc5.java
        AbsFunc6.java
        AbsFunc2.java
        PropertyGraphExample.java
        AbsFunc7.java
        AbsFunc3.java
        AbsFunc1.java
        AbsFunc8.java
        PropertyGraphExampleFromEdges.java
        AbsFunc4.java
        ch2
        ClosureExample.java
        MyFilterImpl.java
        Interface2.java
        LambdaExamples.java
        WordCountInJava.java
        IntermediateOpExample.java
        CreateStreamExample.java
        generics
        MyGenericsDemo.java
        FirstExample.java
        MyGeneric.java
        MyFileNameFilter.java
        AInnerClassVsLambda.java
        MyInterface.java
        TerminalOpExample.java
        LexicalScoping.java
        MethodReferenceExample.java
        InterfaceImpl.java
        MyInterfaceImpl.java
        Car.java
        ClosureDemo.java
        ShortCircuitOperationExample.java
        Interface1.java
        CollectorsExamples.java
        MyInterfaceDemo.java
        ch5
        LFSExample.java
        CSVFileOperations.java
        DelimitedFileOperations.java
        Movie.java
        Employee.java
        Person.java
        XMLFileOperations.java
        TextFileOperations.java
        CassandraExample.java
        S3Example.java
        JsonFileOperations.java
        PersonDetails.java
        HdfsExample.java
        ch8
        DfExample.java
        SparkSessionExample.java
        UDFExample.java
        TypeSafeUDAF.java
        CalcDaysUDF.java
        Employee.java
        DsExample.java
        AverageUDAF.java
        SparkSessionHeloWorld.java
        DatasetOperations.java
        ContextCreation.java
        Average.java
- pom.xml
- LICENSE
- README.md

package com.packt.sfjd.ch8;

import org.apache.log4j.Level;
import org.apache.log4j.LogManager;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.TypedColumn;
import org.apache.spark.sql.api.java.UDF2;
import org.apache.spark.sql.types.DataTypes;

public class UDFExample {

	public static void main(String[] args) {
		//Window Specific property if Hadoop is not instaalled or HADOOP_HOME is not set
		 System.setProperty("hadoop.home.dir", "E:\\hadoop");
		
		 //Build a Spark Session	
	      SparkSession sparkSession = SparkSession
	      .builder()
	      .master("local")
		  .config("spark.sql.warehouse.dir","file:///E:/hadoop/warehouse")
	      .appName("EdgeBuilder")
	      .getOrCreate();
	      Logger rootLogger = LogManager.getRootLogger();
		  rootLogger.setLevel(Level.WARN); 
		// Read the CSV data
			 Dataset<Row> emp_ds = sparkSession.read()
					 .format("com.databricks.spark.csv")
	   		         .option("header", "true")
	   		         .option("inferSchema", "true")
	   		         .load("src/main/resources/employee.txt");    
	    		
		    UDF2 calcDays=new CalcDaysUDF();
		  //Registering the UDFs in Spark Session created above      
		    sparkSession.udf().register("calcDays", calcDays, DataTypes.LongType);
		    
		    emp_ds.createOrReplaceTempView("emp_ds");
		    
		    emp_ds.printSchema();
		    emp_ds.show();
		    
		    sparkSession.sql("select calcDays(hiredate,'dd-MM-yyyy') from emp_ds").show();   
		    //Instantiate UDAF
		    AverageUDAF calcAvg= new AverageUDAF();
		    //Register UDAF to SparkSession
		    sparkSession.udf().register("calAvg", calcAvg);
		    //Use UDAF
		    sparkSession.sql("select deptno,calAvg(salary) from emp_ds group by deptno ").show(); 
		   
		    //
		    TypeSafeUDAF typeSafeUDAF=new TypeSafeUDAF();
		    
		    Dataset<Employee> emf = emp_ds.as(Encoders.bean(Employee.class));
		    emf.printSchema();
		    emf.show();
		    
		    TypedColumn<Employee, Double> averageSalary = typeSafeUDAF.toColumn().name("averageTypeSafe");
		    Dataset<Double> result = emf.select(averageSalary);
		   result.show();
		    

	}

}