scala source code of NestedTableExample

spark_training-master
- derby.log
- src
  - main
    - .DS_Store
    - scala
      - .DS_Store
      - com
        malaska
        .DS_Store
        spark
        training
        graph
        JsonEdge.scala
        ZombieExample.scala
        TrianglesExample.scala
        JsonVertex.scala
        utils
        CaseClassGenerator.scala
        dedupping
        DedupAdcent.scala
        salted
        SaltedExample.scala
        difference
        DiffChecker.scala
        streaming
        Message.scala
        structured
        CountingInAStreamExpGroupBy.scala
        EnrichmentInAStream.scala
        CountingInAStreamMapWithState.scala
        CountingInAStreamDatasetExpGroupBy.scala
        CountingInAStreamExpWindowing.scala
        CountingInAStreamExpQueringResults.scala
        dstream
        CountingInAStreamExpUpdateStateByKey.scala
        sessionization
        SessionDataGenerator.scala
        SessionDataFileWriter.scala
        SessionDataFileHDFSWriter.scala
        SessionizeData.scala
        SessionDataSocketSender.scala
        CountingInAStreamExpBatchCounting.scala
        EnrichmentInAStream.scala
        timeseries
        SessionWindowing.scala
        TumblingWindows.scala
        InfectionPointWindow.scala
        LeadLagExample.scala
        SplidingWindows.scala
        windowing
        superbig
        SuperBigWindowing.scala
        big
        BigWindowing.scala
        small
        SmallWindowing.scala
        manytomany
        ManyToManyNormalJoin.scala
        ManyToManyNestedJoin.scala
        nested
        NestedTableExample.scala
        JsonNestedExample.scala
        NestedDataSetExample.scala
        PopulateHiveTable.scala
        machinelearning
        golf
        PredictGolfing.scala
        titanic
        SomeSQLOnTitanic.scala
        TestPassenger.scala
        TrainPassenger.scala
        PredictingTitanic.scala
        common
        ClassifiersImpl.scala
        partitioning
        SimpleCustomPartitioner.scala
        AppleCustomPartitioner.scala
        .DS_Store
        .DS_Store
  - .DS_Store
- graph
  - vertex.json
  - edge.json
- titanic
  - gender_submission.csv
  - train.csv
  - test.csv
- datamodeling
  - MultiGroupWindow.json
  - Salted.json
  - ManyToMany.json
  - SingleBigWindow.json
  - NestedJson.json
- pom.xml
- LICENSE
- data
  - graph
    - vertex.json
    - edge.json
  - titanic
    - gender_submission.csv
    - train.csv
    - test.csv
  - datamodeling
    - MultiGroupWindow.json
    - Salted.json
    - ManyToMany.json
    - SingleBigWindow.json
    - NestedJson.json
    - GoogleAnaltyticsPivotSample.json
  - timeseries
    - leadlag.json
    - inflectionPoint.json
    - session.json
  - .DS_Store
  - golfing
    - data.tsv
- README.md
- .idea
  - libraries
    - Maven__org_apache_commons_commons_math3_3_4_1.xml
    - Maven__org_apache_calcite_calcite_linq4j_1_2_0_incubating.xml
    - Maven__net_sf_opencsv_opencsv_2_3.xml
    - Maven__org_glassfish_hk2_external_javax_inject_2_4_0_b34.xml
    - Maven__com_thoughtworks_paranamer_paranamer_2_3.xml
    - Maven__joda_time_joda_time_2_9_3.xml
    - Maven__com_github_fommil_netlib_core_1_1_2.xml
    - Maven__net_sf_py4j_py4j_0_10_4.xml
    - Maven__org_apache_commons_commons_lang3_3_5.xml
    - Maven__org_fusesource_leveldbjni_leveldbjni_all_1_8.xml
    - Maven__net_jpountz_lz4_lz4_1_3_0.xml
    - Maven__javax_xml_stream_stax_api_1_0_2.xml
    - Maven__org_apache_zookeeper_zookeeper_3_4_6.xml
    - Maven__commons_net_commons_net_2_2.xml
    - Maven__io_dropwizard_metrics_metrics_core_3_1_2.xml
    - Maven__org_apache_calcite_calcite_avatica_1_2_0_incubating.xml
    - Maven__com_github_rwl_jtransforms_2_4_0.xml
    - Maven__org_glassfish_hk2_osgi_resource_locator_1_0_1.xml
    - Maven__javax_xml_bind_jaxb_api_2_2_2.xml
    - Maven__log4j_log4j_1_2_17.xml
    - Maven__org_iq80_snappy_snappy_0_2.xml
    - Maven__com_ning_compress_lzf_1_0_3.xml
    - Maven__xerces_xercesImpl_2_9_1.xml
    - Maven__com_google_code_findbugs_jsr305_1_3_9.xml
    - Maven__org_json4s_json4s_ast_2_11_3_2_11.xml
    - Maven__org_glassfish_jersey_core_jersey_server_2_22_2.xml
    - Maven__org_datanucleus_datanucleus_core_3_2_10.xml
    - Maven__org_apache_httpcomponents_httpclient_4_5_2.xml
    - Maven__org_scala_lang_scala_compiler_2_11_0.xml
    - Maven__xmlenc_xmlenc_0_52.xml
    - Maven__io_dropwizard_metrics_metrics_json_3_1_2.xml
    - Maven__oro_oro_2_0_8.xml
    - Maven__com_googlecode_javaewah_JavaEWAH_0_3_2.xml
    - Maven__javax_validation_validation_api_1_1_0_Final.xml
    - Maven__com_google_guava_guava_16_0_1.xml
    - Maven__commons_beanutils_commons_beanutils_1_7_0.xml
    - Maven__org_datanucleus_datanucleus_rdbms_3_2_9.xml
    - Maven__commons_pool_commons_pool_1_5_4.xml
    - Maven__com_google_protobuf_protobuf_java_2_5_0.xml
    - Maven__commons_digester_commons_digester_1_8.xml
    - Maven__org_apache_xbean_xbean_asm5_shaded_4_4.xml
    - Maven__commons_logging_commons_logging_1_1_3.xml
    - Maven__javax_jdo_jdo_api_3_0_1.xml
    - Maven__commons_codec_commons_codec_1_10.xml
    - Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml
    - Maven__org_roaringbitmap_RoaringBitmap_0_5_11.xml
    - Maven__commons_beanutils_commons_beanutils_core_1_8_0.xml
    - Maven__commons_io_commons_io_2_4.xml
    - Maven__org_codehaus_janino_commons_compiler_3_0_0.xml
    - Maven__xml_apis_xml_apis_1_3_04.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml
    - Maven__io_dropwizard_metrics_metrics_jvm_3_1_2.xml
    - Maven__javolution_javolution_5_5_1.xml
    - Maven__org_apache_commons_commons_crypto_1_0_0.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml
    - Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_1.xml
    - Maven__org_apache_calcite_calcite_core_1_2_0_incubating.xml
    - Maven__javax_transaction_jta_1_1.xml
    - Maven__commons_cli_commons_cli_1_2.xml
    - Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml
    - Maven__javax_ws_rs_javax_ws_rs_api_2_0_1.xml
    - Maven__org_antlr_antlr4_runtime_4_5_3.xml
    - Maven__org_glassfish_hk2_hk2_api_2_4_0_b34.xml
    - Maven__org_objenesis_objenesis_2_1.xml
    - Maven__org_antlr_ST4_4_0_4.xml
    - Maven__org_antlr_antlr_runtime_3_4.xml
    - Maven__javax_annotation_javax_annotation_api_1_2.xml
    - Maven__com_fasterxml_jackson_core_jackson_core_2_6_5.xml
    - Maven__org_json4s_json4s_jackson_2_11_3_2_11.xml
    - Maven__com_twitter_chill_java_0_8_0.xml
    - Maven__javax_servlet_javax_servlet_api_3_1_0.xml
    - Maven__org_apache_directory_server_apacheds_i18n_2_0_0_M15.xml
    - Maven__org_scala_lang_scala_reflect_2_11_7.xml
    - Maven__commons_httpclient_commons_httpclient_3_1.xml
    - Maven__net_razorvine_pyrolite_4_13.xml
    - Maven__com_esotericsoftware_kryo_shaded_3_0_3.xml
    - Maven__com_twitter_chill_2_11_0_8_0.xml
    - Maven__org_datanucleus_datanucleus_api_jdo_3_2_6.xml
    - Maven__org_spark_project_spark_unused_1_0_0.xml
    - Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_5.xml
    - Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_22_2.xml
    - Maven__org_json4s_json4s_core_2_11_3_2_11.xml
    - Maven__com_jolbox_bonecp_0_8_0_RELEASE.xml
    - Maven__org_apache_ivy_ivy_2_4_0.xml
    - Maven__commons_configuration_commons_configuration_1_6.xml
    - Maven__org_codehaus_janino_janino_3_0_0.xml
    - Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml
    - Maven__org_glassfish_hk2_hk2_utils_2_4_0_b34.xml
    - Maven__com_univocity_univocity_parsers_2_2_1.xml
    - Maven__stax_stax_api_1_0_1.xml
    - Maven__com_esotericsoftware_minlog_1_3_0.xml
    - Maven__commons_collections_commons_collections_3_2_2.xml
    - Maven__antlr_antlr_2_7_7.xml
    - Maven__log4j_apache_log4j_extras_1_2_17.xml
    - Maven__org_scala_lang_modules_scala_xml_2_11_1_0_1.xml
    - Maven__com_clearspring_analytics_stream_2_7_0.xml
    - Maven__net_hydromatic_eigenbase_properties_1_1_5.xml
    - Maven__org_glassfish_jersey_core_jersey_client_2_22_2.xml
    - Maven__org_jpmml_pmml_schema_1_2_15.xml
    - Maven__org_jpmml_pmml_model_1_2_15.xml
    - Maven__commons_lang_commons_lang_2_6.xml
    - Maven__org_tukaani_xz_1_0.xml
    - Maven__org_antlr_stringtemplate_3_2_1.xml
    - Maven__org_apache_directory_api_api_util_1_0_0_M20.xml
    - Maven__com_google_code_gson_gson_2_2_4.xml
    - Maven__org_javassist_javassist_3_18_1_GA.xml
    - Maven__org_glassfish_jersey_core_jersey_common_2_22_2.xml
    - Maven__commons_dbcp_commons_dbcp_1_4.xml
    - Maven__org_scala_lang_scala_library_2_11_8.xml
    - Maven__org_apache_directory_api_api_asn1_api_1_0_0_M20.xml
    - Maven__org_glassfish_hk2_hk2_locator_2_4_0_b34.xml
    - Maven__org_jodd_jodd_core_3_5_2.xml
    - Maven__org_apache_commons_commons_compress_1_4_1.xml
    - Maven__com_fasterxml_jackson_core_jackson_databind_2_6_5.xml
    - Maven__org_scala_lang_scalap_2_11_0.xml
    - Maven__io_dropwizard_metrics_metrics_graphite_3_1_2.xml
    - Maven__net_sourceforge_f2j_arpack_combined_all_0_1.xml
  - compiler.xml
  - modules.xml
  - vcs.xml
  - scala_compiler.xml
  - hydra.xml
- .gitignore

package com.malaska.spark.training.nested

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.types.{ArrayType, IntegerType, StringType, StructType}
import org.apache.spark.sql.{Row, SparkSession}

object NestedTableExample {
  Logger.getLogger("org").setLevel(Level.OFF)
  Logger.getLogger("akka").setLevel(Level.OFF)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder
      .master("local")
      .appName("my-spark-app")
      .config("spark.some.config.option", "config-value")
      .config("spark.driver.host","127.0.0.1")
      .enableHiveSupport()
      .getOrCreate()


    spark.sql("create table IF NOT EXISTS nested_empty " +
      "( A int, " +
      "  B string, " +
      "  nested ARRAY<STRUCT< " +
      "     nested_C: int," +
      "     nested_D: string" +
      "  >>" +
      ") ")

    val rowRDD = spark.sparkContext.
      parallelize(Array(
        Row(1, "foo", Seq(Row(1, "barA"),Row(2, "bar"))),
        Row(2, "foo", Seq(Row(1, "barB"),Row(2, "bar"))),
        Row(3, "foo", Seq(Row(1, "barC"),Row(2, "bar")))))

    val emptyDf = spark.sql("select * from nested_empty limit 0")

    val tableSchema = emptyDf.schema

    val populated1Df = spark.sqlContext.createDataFrame(rowRDD, tableSchema)

    println("----")
    populated1Df.collect().foreach(r => println(" emptySchemaExample:" + r))

    val nestedSchema = new StructType()
      .add("nested_C", IntegerType)
      .add("nested_D", StringType)

    val definedSchema = new StructType()
      .add("A", IntegerType)
      .add("B", StringType)
      .add("nested", ArrayType(nestedSchema))

    val populated2Df = spark.sqlContext.createDataFrame(rowRDD, definedSchema)
    println("----")
    populated1Df.collect().foreach(r => println(" BuiltExample:" + r))

    spark.stop()
  }
}