java source code of JavaSparkSQLExample

nemo-master
- log4j.properties
- checkstyle.xml
- examples
  - resources
    - sample_input_people.txt
    - sample_input_people.json
    - sample_input_mr
    - test_output_wordcount
    - test_output_mr
    - sample_input_employees.json
    - test_output_broadcast
    - test_output_als
    - sample_input_als
    - sample_executor_resources.json
    - sample_input_wordcount
  - spark
    - src
      - main
        scala
        edu
        snu
        nemo
        examples
        spark
        SparkPi.scala
        SparkALS.scala
        java
        edu
        snu
        nemo
        examples
        spark
        sql
        JavaSparkSQLExample.java
        JavaUserDefinedUntypedAggregation.java
        JavaUserDefinedTypedAggregation.java
        JavaSparkPi.java
        JavaWordCount.java
      - test
        java
        edu
        snu
        nemo
        examples
        spark
        SparkITCase.java
    - pom.xml
  - beam
    - src
      - main
        java
        edu
        snu
        nemo
        examples
        beam
        Broadcast.java
        AlternatingLeastSquareInefficient.java
        GenericSourceSink.java
        MultinomialLogisticRegression.java
        MapReduce.java
        AlternatingLeastSquare.java
      - test
        java
        edu
        snu
        nemo
        examples
        beam
        MapReduceITCase.java
        policy
        PadoPolicyParallelsimFive.java
        SailfishPolicyParallelsimFive.java
        DataSkewPolicyParallelsimFive.java
        PolicyTestUtil.java
        DisaggregationPolicyParallelsimFive.java
        DefaultPolicyParallelismFive.java
        MultinomialLogisticRegressionITCase.java
        AlternatingLeastSquareITCase.java
        BroadcastITCase.java
    - pom.xml
- pom.xml
- client
  - src
    - main
      - java
        edu
        snu
        nemo
        client
        JobLauncher.java
        NemoClient.java
        ClientEndpoint.java
        StateTranslator.java
        DriverEndpoint.java
  - pom.xml
- LICENSE
- common
  - src
    - main
      - resources
        log4j.properties
        repository
        org
        apache
        reef
        reef-annotations
        0.17.0-SNAPSHOT
        reef-annotations-0.17.0-SNAPSHOT.pom
        reef-annotations-0.17.0-SNAPSHOT.jar
        reef-utils-hadoop
        0.17.0-SNAPSHOT
        reef-utils-hadoop-0.17.0-SNAPSHOT.pom
        reef-utils-hadoop-0.17.0-SNAPSHOT.jar
        reef-runtime-local
        0.17.0-SNAPSHOT
        reef-runtime-local-0.17.0-SNAPSHOT.pom
        reef-runtime-local-0.17.0-SNAPSHOT.jar
        reef-utils
        0.17.0-SNAPSHOT
        reef-utils-0.17.0-SNAPSHOT.pom
        reef-utils-0.17.0-SNAPSHOT.jar
        tang-project
        0.17.0-SNAPSHOT
        tang-project-0.17.0-SNAPSHOT.pom
        wake-project
        0.17.0-SNAPSHOT
        wake-project-0.17.0-SNAPSHOT.pom
        tang
        0.17.0-SNAPSHOT
        tang-0.17.0-SNAPSHOT.pom
        reef-project
        0.17.0-SNAPSHOT
        reef-project-0.17.0-SNAPSHOT.pom
        reef-runtime-yarn
        0.17.0-SNAPSHOT
        reef-runtime-yarn-0.17.0-SNAPSHOT.pom
        reef-runtime-yarn-0.17.0-SNAPSHOT.jar
        reef-webserver
        0.17.0-SNAPSHOT
        reef-webserver-0.17.0-SNAPSHOT.jar
        reef-webserver-0.17.0-SNAPSHOT.pom
        reef-io
        0.17.0-SNAPSHOT
        reef-io-0.17.0-SNAPSHOT.pom
        reef-common
        0.17.0-SNAPSHOT
        reef-common-0.17.0-SNAPSHOT.pom
        wake
        0.17.0-SNAPSHOT
        wake-0.17.0-SNAPSHOT.pom
      - java
        edu
        snu
        nemo
        common
        dag
        Edge.java
        Vertex.java
        DAGBuilder.java
        DAG.java
        ContextImpl.java
        DirectByteArrayOutputStream.java
        test
        ExampleTestUtil.java
        ArgBuilder.java
        ir
        OutputCollector.java
        IdManager.java
        edge
        IREdge.java
        executionproperty
        DataFlowModelProperty.java
        CompressionProperty.java
        KeyExtractorProperty.java
        UsedDataHandlingProperty.java
        PartitionerProperty.java
        DataCommunicationPatternProperty.java
        DuplicateEdgeGroupProperty.java
        DuplicateEdgeGroupPropertyValue.java
        MetricCollectionProperty.java
        DataStoreProperty.java
        executionproperty
        ExecutionProperty.java
        ExecutionPropertyMap.java
        vertex
        LoopVertex.java
        MetricCollectionBarrierVertex.java
        OperatorVertex.java
        SourceVertex.java
        executionproperty
        ParallelismProperty.java
        ScheduleGroupIndexProperty.java
        DynamicOptimizationProperty.java
        ExecutorPlacementProperty.java
        StageIdProperty.java
        IRVertex.java
        InitializedSourceVertex.java
        transform
        RelayTransform.java
        Transform.java
        Readable.java
        coder
        Coder.java
        BytesCoder.java
        exception
        UnknownFailureCauseException.java
        UnrecoverableFailureException.java
        UnsupportedMethodException.java
        BlockWriteException.java
        UnsupportedExecutionPropertyException.java
        IllegalStateTransitionException.java
        NodeConnectionException.java
        IllegalMessageException.java
        ContainerException.java
        DynamicOptimizationException.java
        SchedulingException.java
        UnsupportedCompressionException.java
        UnsupportedCommPatternException.java
        UnknownExecutionStateException.java
        UnsupportedPartitionerException.java
        IllegalVertexOperationException.java
        InvalidParameterException.java
        UnsupportedBlockStoreException.java
        JsonParseException.java
        PhysicalPlanGenerationException.java
        IllegalEdgeOperationException.java
        BlockFetchException.java
        CompileTimeOptimizationException.java
        KeyExtractor.java
        eventhandler
        CompilerEvent.java
        CompilerEventHandler.java
        RuntimeEventHandler.java
        RuntimeEvent.java
        CommonEventHandler.java
        PubSubEventHandlerWrapper.java
        StateMachine.java
        Pair.java
  - pom.xml
- compiler
  - backend
    - src
      - main
        java
        edu
        snu
        nemo
        compiler
        backend
        Backend.java
        nemo
        NemoBackend.java
    - pom.xml
  - optimizer
    - src
      - main
        java
        edu
        snu
        nemo
        compiler
        optimizer
        pass
        compiletime
        reshaping
        CommonSubexpressionEliminationPass.java
        DataSkewReshapingPass.java
        LoopOptimizations.java
        ReshapingPass.java
        LoopExtractionPass.java
        LoopUnrollingPass.java
        SailfishRelayReshapingPass.java
        annotating
        SailfishEdgeDataStorePass.java
        ScheduleGroupPass.java
        DuplicateEdgeGroupSizePass.java
        SailfishEdgeUsedDataHandlingPass.java
        PadoEdgeDataFlowModelPass.java
        ShuffleEdgePushPass.java
        DefaultEdgeUsedDataHandlingPass.java
        SailfishEdgeDataFlowModelPass.java
        DataSkewVertexPass.java
        DefaultStagePartitioningPass.java
        DataSkewEdgeMetricCollectionPass.java
        PadoEdgeDataStorePass.java
        AnnotatingPass.java
        DataSkewEdgePartitionerPass.java
        ReviseInterStageEdgeDataStorePass.java
        DataSkewEdgeDataStorePass.java
        CompressionPass.java
        DefaultParallelismPass.java
        DisaggregationEdgeDataStorePass.java
        PadoVertexExecutorPlacementPass.java
        composite
        LoopOptimizationCompositePass.java
        CompositePass.java
        PrimitiveCompositePass.java
        DataSkewCompositePass.java
        PadoCompositePass.java
        SailfishPass.java
        CompileTimePass.java
        examples
        EmptyComponents.java
        MapReduceDisaggregationOptimization.java
        policy
        DisaggregationPolicy.java
        PolicyBuilder.java
        Policy.java
        DataSkewPolicy.java
        SailfishPolicy.java
        PadoPolicy.java
        DefaultPolicy.java
        DefaultPolicyWithSeparatePass.java
        CompiletimeOptimizer.java
    - pom.xml
  - frontend
    - spark
      - src
        main
        java
        edu
        snu
        nemo
        compiler
        frontend
        spark
        sql
        Dataset.java
        SparkSession.java
        NemoSparkUserFacingClass.java
        DataFrameReader.java
        source
        SparkBoundedSourceVertex.java
        coder
        SparkCoder.java
        SparkKeyExtractor.java
        core
        java
        SparkFrontendUtils.java
        JavaRDD.java
        JavaPairRDD.java
        JavaSparkContext.java
        RDD.java
        transform
        MapTransform.java
        ReduceByKeyTransform.java
        FlatMapTransform.java
        ReduceTransform.java
        CollectTransform.java
        MapToPairTransform.java
        GroupByKeyTransform.java
      - pom.xml
    - beam
      - src
        main
        java
        edu
        snu
        nemo
        compiler
        frontend
        beam
        source
        BeamBoundedSourceVertex.java
        NemoPipelineRunner.java
        BeamStateTranslator.java
        coder
        BeamCoder.java
        PairCoder.java
        NemoPipelineOptions.java
        NemoPipelineResult.java
        BeamKeyExtractor.java
        NemoPipelineVisitor.java
        transform
        DoTransform.java
        WindowTransform.java
        FlattenTransform.java
        LoopCompositeTransform.java
        GroupByKeyTransform.java
        CreateViewTransform.java
      - pom.xml
- deploy
  - initialize_fresh_ubuntu.sh
  - set_hostname.sh
  - README.md
- runtime
  - executor
    - src
      - main
        java
        edu
        snu
        nemo
        runtime
        executor
        datatransfer
        DataTransfer.java
        OutputCollectorImpl.java
        InputReader.java
        OutputWriter.java
        DataTransferFactory.java
        MetricManagerWorker.java
        MetricCollector.java
        bytetransfer
        ByteTransfer.java
        ByteTransferContext.java
        ByteTransportChannelInitializer.java
        ByteTransport.java
        ContextManager.java
        DataFrameEncoder.java
        package-info.java
        ControlFrameEncoder.java
        FrameDecoder.java
        ByteOutputContext.java
        ByteInputContext.java
        ClosableBlockingQueue.java
        data
        FileArea.java
        DataUtil.java
        NonSerializedPartition.java
        metadata
        FileMetadata.java
        RemoteFileMetadata.java
        LocalFileMetadata.java
        PartitionMetadata.java
        Partition.java
        stores
        MemoryStore.java
        LocalFileStore.java
        LocalBlockStore.java
        SerializedMemoryStore.java
        BlockStore.java
        AbstractBlockStore.java
        FileStore.java
        GlusterFileStore.java
        RemoteFileStore.java
        SerializedPartition.java
        block
        FileBlock.java
        NonSerializedMemoryBlock.java
        Block.java
        SerializedMemoryBlock.java
        LimitedInputStream.java
        BlockManagerWorker.java
        partitioner
        HashPartitioner.java
        IntactPartitioner.java
        DataSkewHashPartitioner.java
        Partitioner.java
        SerializerManager.java
        streamchainer
        CompressionStreamChainer.java
        Serializer.java
        StreamChainer.java
        TaskGroupExecutor.java
        Executor.java
        MetricMessageSender.java
        TaskGroupStateManager.java
    - pom.xml
  - master
    - src
      - main
        java
        edu
        snu
        nemo
        runtime
        master
        resource
        ContainerManager.java
        ResourceSpecification.java
        ExecutorRepresenter.java
        JobStateManager.java
        BlockManagerMaster.java
        BlockMetadata.java
        RuntimeMaster.java
        scheduler
        SchedulingPolicy.java
        SingleJobTaskGroupQueue.java
        SchedulerRunner.java
        PendingTaskGroupQueue.java
        RoundRobinSchedulingPolicy.java
        Scheduler.java
        BatchSingleJobScheduler.java
        eventhandler
        UpdatePhysicalPlanEventHandler.java
        MetricManagerMaster.java
        MetricMessageHandler.java
    - pom.xml
  - common
    - src
      - main
        proto
        GrcpMessageService.proto
        ControlMessage.proto
        java
        edu
        snu
        nemo
        runtime
        common
        ReplyFutureMap.java
        RuntimeIdGenerator.java
        state
        StageState.java
        JobState.java
        TaskGroupState.java
        BlockState.java
        TaskState.java
        plan
        stage
        StageEdge.java
        StageBuilder.java
        StageEdgeBuilder.java
        Stage.java
        RuntimeEdge.java
        physical
        BoundedSourceTask.java
        ScheduledTaskGroup.java
        Task.java
        PhysicalStage.java
        OperatorTask.java
        UnboundedSourceTask.java
        MetricCollectionBarrierTask.java
        PhysicalPlanGenerator.java
        PhysicalPlan.java
        PhysicalStageEdge.java
        NativeChannelImplementationSelector.java
        message
        MessageListener.java
        PersistentConnectionToMasterMap.java
        grpc
        GrpcMessageEnvironment.java
        GrpcMessageClient.java
        GrpcMessageServer.java
        GrpcMessageSender.java
        GrpcMessageContext.java
        MessageParameters.java
        MessageEnvironment.java
        MessageContext.java
        ncs
        ControlMessageCodec.java
        NcsMessageEnvironment.java
        NcsMessageSender.java
        NcsMessageContext.java
        local
        LocalMessageDispatcher.java
        LocalMessageSender.java
        LocalMessageEnvironment.java
        LocalMessageContext.java
        MessageSender.java
        exception
        AbsentBlockException.java
        optimizer
        pass
        runtime
        RuntimePass.java
        DataSkewRuntimePass.java
        RuntimeOptimizer.java
        eventhandler
        DynamicOptimizationEventHandler.java
        UpdatePhysicalPlanEvent.java
        DynamicOptimizationEvent.java
        data
        HashRange.java
        KeyRange.java
        NettyChannelImplementationSelector.java
        NioChannelImplementationSelector.java
        metric
        parameter
        MetricFlushPeriod.java
        MetricData.java
        MetricDataBuilder.java
    - pom.xml
  - driver
    - src
      - main
        java
        edu
        snu
        nemo
        driver
        NemoDriver.java
        UserApplicationRunner.java
        RemoteClientMessageLoggingHandler.java
        NemoContext.java
    - pom.xml
- .travis.yml
- README.md
- webui
  - nemowebserver
    - database.py
    - models.py
    - views.py
    - __init__.py
  - setup.py
  - README.md
  - .gitignore
- tests
  - src
    - test
      - java
        edu
        snu
        nemo
        tests
        client
        ClientEndpointTest.java
        common
        DAGTest.java
        StateMachineTest.java
        PairTest.java
        ir
        LoopVertexTest.java
        executionproperty
        ExecutionPropertyMapTest.java
        compiler
        backend
        nemo
        NemoBackendTest.java
        CompilerTestUtil.java
        optimizer
        pass
        compiletime
        reshaping
        LoopExtractionPassTest.java
        LoopInvariantCodeMotionALSInefficientTest.java
        CommonSubexpressionEliminationPassTest.java
        LoopFusionPassTest.java
        LoopUnrollingPassTest.java
        LoopInvariantCodeMotionPassTest.java
        annotating
        DefaultParallelismPassTest.java
        ScheduleGroupPassTest.java
        composite
        DataSkewCompositePassTest.java
        PadoCompositePassTest.java
        DisaggregationPassTest.java
        SailfishPassTest.java
        policy
        PolicyBuilderTest.java
        TestPolicy.java
        frontend
        beam
        BeamFrontendALSTest.java
        BeamFrontendMLRTest.java
        runtime
        executor
        TaskGroupExecutorTest.java
        datatransfer
        DataTransferTest.java
        data
        BlockStoreTest.java
        master
        scheduler
        BatchSingleJobSchedulerTest.java
        RoundRobinSchedulingPolicyTest.java
        SingleTaskGroupQueueTest.java
        FaultToleranceTest.java
        ContainerManagerTest.java
        JobStateManagerTest.java
        BlockManagerMasterTest.java
        common
        plan
        DAGConverterTest.java
        message
        local
        LocalMessageTest.java
        optimizer
        pass
        runtime
        DataSkewRuntimePassTest.java
        RuntimeTestUtil.java
  - pom.xml
- bin
  - json2dot.py
  - metric-parser.py
  - generate_javadocs.sh
  - run.sh
  - run_external_app.sh
- .gitignore
- conf
  - src
    - main
      - java
        edu
        snu
        nemo
        conf
        JobConf.java
  - pom.xml

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package edu.snu.nemo.examples.spark.sql;

import java.util.ArrayList;
import java.util.List;
import java.util.Arrays;
import java.util.Collections;
import java.io.Serializable;

import edu.snu.nemo.compiler.frontend.spark.core.java.JavaRDD;
import edu.snu.nemo.compiler.frontend.spark.sql.Dataset;
import edu.snu.nemo.compiler.frontend.spark.sql.SparkSession;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.*;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

// col("...") is preferable to df.col("...")
import static org.apache.spark.sql.functions.col;

/**
 * Java Spark SQL Example program.
 *
 * This code has been copied from the Apache Spark (https://github.com/apache/spark) to demonstrate a spark example.
 */
public final class JavaSparkSQLExample {

  /**
   * Private constructor.
   */
  private JavaSparkSQLExample() {
  }

  /**
   * Simple person class.
   */
  public static final class Person implements Serializable {
    private String name;
    private int age;

    /**
     * Getter.
     * @return name.
     */
    public String getName() {
      return name;
    }

    /**
     * Setter.
     * @param name name.
     */
    public void setName(final String name) {
      this.name = name;
    }

    /**
     * Getter.
     * @return age.
     */
    public int getAge() {
      return age;
    }

    /**
     * Setter.
     * @param age age.
     */
    public void setAge(final int age) {
      this.age = age;
    }
  }

  /**
   * Main function.
   * @param args arguments.
   * @throws AnalysisException Exception.
   */
  public static void main(final String[] args) throws AnalysisException {
    SparkSession spark = SparkSession
        .builder()
        .appName("Java Spark SQL basic example")
        .config("spark.some.config.option", "some-value")
        .getOrCreate();

    runBasicDataFrameExample(spark, args[0]);
    runDatasetCreationExample(spark, args[0]);
    runInferSchemaExample(spark, args[1]);
    runProgrammaticSchemaExample(spark, args[1]);

    spark.stop();
  }

  /**
   * Function to run basic data frame example.
   * @param spark spark session.
   * @param peopleJson path to people json file.
   * @throws AnalysisException exception.
   */
  private static void runBasicDataFrameExample(final SparkSession spark, final String peopleJson)
      throws AnalysisException {
    Dataset<Row> df = spark.read().json(peopleJson);

    // Displays the content of the DataFrame to stdout
    df.show();
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|Michael|
    // |  30|   Andy|
    // |  19| Justin|
    // +----+-------+

    // Print the schema in a tree format
    df.printSchema();
    // root
    // |-- age: long (nullable = true)
    // |-- name: string (nullable = true)

    // Select only the "name" column
    df.select("name").show();
    // +-------+
    // |   name|
    // +-------+
    // |Michael|
    // |   Andy|
    // | Justin|
    // +-------+

    // Select everybody, but increment the age by 1
    df.select(col("name"), col("age").plus(1)).show();
    // +-------+---------+
    // |   name|(age + 1)|
    // +-------+---------+
    // |Michael|     null|
    // |   Andy|       31|
    // | Justin|       20|
    // +-------+---------+

    // Select people older than 21
    df.filter(col("age").gt(21)).show();
    // +---+----+
    // |age|name|
    // +---+----+
    // | 30|Andy|
    // +---+----+

    // Count people by age
    df.groupBy("age").count().show();
    // +----+-----+
    // | age|count|
    // +----+-----+
    // |  19|    1|
    // |null|    1|
    // |  30|    1|
    // +----+-----+

    // Register the DataFrame as a SQL temporary view
    df.createOrReplaceTempView("people");

    Dataset<Row> sqlDF = spark.sql("SELECT * FROM people");
    sqlDF.show();
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|Michael|
    // |  30|   Andy|
    // |  19| Justin|
    // +----+-------+

    // Register the DataFrame as a global temporary view
    df.createGlobalTempView("people");

    // Global temporary view is tied to a system preserved database `global_temp`
    spark.sql("SELECT * FROM global_temp.people").show();
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|Michael|
    // |  30|   Andy|
    // |  19| Justin|
    // +----+-------+

    // Global temporary view is cross-session
    spark.newSession().sql("SELECT * FROM global_temp.people").show();
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|Michael|
    // |  30|   Andy|
    // |  19| Justin|
    // +----+-------+
  }

  /**
   * Function to run data creation example.
   * @param spark spark session.
   * @param peopleJson path to people json file.
   */
  private static void runDatasetCreationExample(final SparkSession spark, final String peopleJson) {
    // Create an instance of a Bean class
    Person person = new Person();
    person.setName("Andy");
    person.setAge(32);

    // Encoders are created for Java beans
    Encoder<Person> personEncoder = Encoders.bean(Person.class);
    Dataset<Person> javaBeanDS = spark.createDataset(
        Collections.singletonList(person),
        personEncoder
    );
    javaBeanDS.show();
    // +---+----+
    // |age|name|
    // +---+----+
    // | 32|Andy|
    // +---+----+

    // Encoders for most common types are provided in class Encoders
    Encoder<Integer> integerEncoder = Encoders.INT();
    Dataset<Integer> primitiveDS = spark.createDataset(Arrays.asList(1, 2, 3), integerEncoder);
    Dataset<Integer> transformedDS = primitiveDS.map(
        (MapFunction<Integer, Integer>) value -> value + 1,
        integerEncoder);
    transformedDS.collect(); // Returns [2, 3, 4]

    // DataFrames can be converted to a Dataset by providing a class. Mapping based on name
    String path = peopleJson;
    Dataset<Person> peopleDS = spark.read().json(path).as(personEncoder);
    peopleDS.show();
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|Michael|
    // |  30|   Andy|
    // |  19| Justin|
    // +----+-------+
  }

  /**
   * Function to run infer schema example.
   * @param spark spark session.
   * @param peopleTxt path to people txt file.
   */
  private static void runInferSchemaExample(final SparkSession spark, final String peopleTxt) {
    // Create an RDD of Person objects from a text file
    JavaRDD<Person> peopleRDD = spark.read()
        .textFile(peopleTxt)
        .javaRDD()
        .map(line -> {
          String[] parts = line.split(",");
          Person person = new Person();
          person.setName(parts[0]);
          person.setAge(Integer.parseInt(parts[1].trim()));
          return person;
        });

    // Apply a schema to an RDD of JavaBeans to get a DataFrame
    Dataset<Row> peopleDF = spark.createDataFrame(peopleRDD, Person.class);
    // Register the DataFrame as a temporary view
    peopleDF.createOrReplaceTempView("people");

    // SQL statements can be run by using the sql methods provided by spark
    Dataset<Row> teenagersDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19");

    // The columns of a row in the result can be accessed by field index
    Encoder<String> stringEncoder = Encoders.STRING();
    Dataset<String> teenagerNamesByIndexDF = teenagersDF.map(
        (MapFunction<Row, String>) row -> "Name: " + row.getString(0),
        stringEncoder);
    teenagerNamesByIndexDF.show();
    // +------------+
    // |       value|
    // +------------+
    // |Name: Justin|
    // +------------+

    // or by field name
    Dataset<String> teenagerNamesByFieldDF = teenagersDF.map(
        (MapFunction<Row, String>) row -> "Name: " + row.<String>getAs("name"),
        stringEncoder);
    teenagerNamesByFieldDF.show();
    // +------------+
    // |       value|
    // +------------+
    // |Name: Justin|
    // +------------+
  }

  /**
   * Function to run programmatic schema example.
   * @param spark spark session.
   * @param peopleTxt path to people txt file.
   */
  private static void runProgrammaticSchemaExample(final SparkSession spark, final String peopleTxt) {
    // Create an RDD
    JavaRDD<String> peopleRDD = spark.read()
        .textFile(peopleTxt)
        .toJavaRDD();

    // The schema is encoded in a string
    String schemaString = "name age";

    // Generate the schema based on the string of schema
    List<StructField> fields = new ArrayList<>();
    for (String fieldName : schemaString.split(" ")) {
      StructField field = DataTypes.createStructField(fieldName, DataTypes.StringType, true);
      fields.add(field);
    }
    StructType schema = DataTypes.createStructType(fields);

    // Convert records of the RDD (people) to Rows
    JavaRDD<Row> rowRDD = peopleRDD.map((Function<String, Row>) record -> {
      String[] attributes = record.split(",");
      return RowFactory.create(attributes[0], attributes[1].trim());
    });

    // Apply the schema to the RDD
    Dataset<Row> peopleDataFrame = spark.createDataFrame(rowRDD, schema);

    // Creates a temporary view using the DataFrame
    peopleDataFrame.createOrReplaceTempView("people");

    // SQL can be run over a temporary view created using DataFrames
    Dataset<Row> results = spark.sql("SELECT name FROM people");

    // The results of SQL queries are DataFrames and support all the normal RDD operations
    // The columns of a row in the result can be accessed by field index or by field name
    Dataset<String> namesDS = results.map(
        (MapFunction<Row, String>) row -> "Name: " + row.getString(0),
        Encoders.STRING());
    namesDS.show();
    // +-------------+
    // |        value|
    // +-------------+
    // |Name: Michael|
    // |   Name: Andy|
    // | Name: Justin|
    // +-------------+
  }
}