java source code of Basic

learning-spark-with-java-master
- src
  - main
    - resources
      - log4j.properties
    - java
      - rdd
        Basic.java
        README.md
      - pairs
        Basic.java
        README.md
      - dataset
        JavaBean.java
        Basic.java
        ComplexType.java
        README.md
      - streaming
        MapWithState.java
        Windowing.java
        Pairs.java
        util
        CSVFileStreamGenerator.java
        StreamingItem.java
        Filtering.java
        MulitpleTransformations.java
        FileBased.java
        README.md
        StateAccumulation.java
        SimpleRecoveryFromCheckpoint.java
      - dataframe
        FromRowsAndSchema.java
        DatasetConversion.java
        README.md
- pom.xml
- LICENSE
- learning-spark-with-java.iml
- README.md
- .idea
  - libraries
    - Maven__net_iharder_base64_2_3_8.xml
    - Maven__org_apache_commons_commons_math3_3_4_1.xml
    - Maven__org_apache_hadoop_hadoop_auth_2_6_5.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_6_5.xml
    - Maven__org_apache_spark_spark_catalyst_2_11_2_2_0.xml
    - Maven__org_glassfish_hk2_external_javax_inject_2_4_0_b34.xml
    - Maven__com_thoughtworks_paranamer_paranamer_2_3.xml
    - Maven__net_sf_py4j_py4j_0_10_4.xml
    - Maven__org_apache_commons_commons_lang3_3_5.xml
    - Maven__org_bouncycastle_bcprov_jdk15on_1_51.xml
    - Maven__org_fusesource_leveldbjni_leveldbjni_all_1_8.xml
    - Maven__org_apache_hadoop_hadoop_yarn_server_common_2_6_5.xml
    - Maven__net_jpountz_lz4_lz4_1_3_0.xml
    - Maven__io_netty_netty_all_4_0_43_Final.xml
    - Maven__javax_xml_stream_stax_api_1_0_2.xml
    - Maven__org_apache_zookeeper_zookeeper_3_4_6.xml
    - Maven__commons_net_commons_net_2_2.xml
    - Maven__io_dropwizard_metrics_metrics_core_3_1_2.xml
    - Maven__org_apache_parquet_parquet_common_1_8_2.xml
    - Maven__org_glassfish_hk2_osgi_resource_locator_1_0_1.xml
    - Maven__javax_xml_bind_jaxb_api_2_2_2.xml
    - Maven__log4j_log4j_1_2_17.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_6_5.xml
    - Maven__com_ning_compress_lzf_1_0_3.xml
    - Maven__xerces_xercesImpl_2_9_1.xml
    - Maven__io_netty_netty_3_9_9_Final.xml
    - Maven__com_google_code_findbugs_jsr305_1_3_9.xml
    - Maven__org_slf4j_jul_to_slf4j_1_7_16.xml
    - Maven__org_apache_curator_curator_recipes_2_6_0.xml
    - Maven__org_json4s_json4s_ast_2_11_3_2_11.xml
    - Maven__org_glassfish_jersey_core_jersey_server_2_22_2.xml
    - Maven__org_htrace_htrace_core_3_0_4.xml
    - Maven__org_apache_hadoop_hadoop_yarn_client_2_6_5.xml
    - Maven__org_scala_lang_scala_compiler_2_11_0.xml
    - Maven__org_codehaus_jackson_jackson_core_asl_1_9_13.xml
    - Maven__xmlenc_xmlenc_0_52.xml
    - Maven__io_dropwizard_metrics_metrics_json_3_1_2.xml
    - Maven__oro_oro_2_0_8.xml
    - Maven__javax_validation_validation_api_1_1_0_Final.xml
    - Maven__com_google_guava_guava_16_0_1.xml
    - Maven__commons_beanutils_commons_beanutils_1_7_0.xml
    - Maven__javax_mail_mail_1_4_7.xml
    - Maven__com_google_protobuf_protobuf_java_2_5_0.xml
    - Maven__commons_digester_commons_digester_1_8.xml
    - Maven__org_apache_xbean_xbean_asm5_shaded_4_4.xml
    - Maven__com_jamesmurty_utils_java_xmlbuilder_1_0.xml
    - Maven__org_apache_parquet_parquet_column_1_8_2.xml
    - Maven__net_java_dev_jets3t_jets3t_0_9_3.xml
    - Maven__org_apache_parquet_parquet_encoding_1_8_2.xml
    - Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml
    - Maven__org_roaringbitmap_RoaringBitmap_0_5_11.xml
    - Maven__commons_beanutils_commons_beanutils_core_1_8_0.xml
    - Maven__commons_io_commons_io_2_4.xml
    - Maven__org_codehaus_janino_commons_compiler_3_0_0.xml
    - Maven__org_apache_avro_avro_ipc_1_7_7.xml
    - Maven__xml_apis_xml_apis_1_3_04.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml
    - Maven__io_dropwizard_metrics_metrics_jvm_3_1_2.xml
    - Maven__org_apache_commons_commons_crypto_1_0_0.xml
    - Maven__org_apache_spark_spark_streaming_2_11_2_2_0.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml
    - Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_1.xml
    - Maven__commons_cli_commons_cli_1_2.xml
    - Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml
    - Maven__javax_ws_rs_javax_ws_rs_api_2_0_1.xml
    - Maven__org_antlr_antlr4_runtime_4_5_3.xml
    - Maven__org_glassfish_hk2_hk2_api_2_4_0_b34.xml
    - Maven__org_codehaus_jackson_jackson_mapper_asl_1_9_13.xml
    - Maven__org_apache_avro_avro_1_7_7.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_6_5.xml
    - Maven__org_apache_spark_spark_tags_2_11_2_2_0.xml
    - Maven__org_objenesis_objenesis_2_1.xml
    - Maven__commons_codec_commons_codec_1_8.xml
    - Maven__org_apache_spark_spark_sql_2_11_2_2_0.xml
    - Maven__org_apache_hadoop_hadoop_hdfs_2_6_5.xml
    - Maven__javax_annotation_javax_annotation_api_1_2.xml
    - Maven__org_apache_spark_spark_network_shuffle_2_11_2_2_0.xml
    - Maven__com_fasterxml_jackson_core_jackson_core_2_6_5.xml
    - Maven__org_json4s_json4s_jackson_2_11_3_2_11.xml
    - Maven__org_apache_hadoop_hadoop_annotations_2_6_5.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_6_5.xml
    - Maven__com_twitter_chill_java_0_8_0.xml
    - Maven__javax_servlet_javax_servlet_api_3_1_0.xml
    - Maven__org_apache_spark_spark_unsafe_2_11_2_2_0.xml
    - Maven__org_apache_directory_server_apacheds_i18n_2_0_0_M15.xml
    - Maven__org_apache_hadoop_hadoop_yarn_common_2_6_5.xml
    - Maven__org_scala_lang_scala_reflect_2_11_7.xml
    - Maven__commons_httpclient_commons_httpclient_3_1.xml
    - Maven__net_razorvine_pyrolite_4_13.xml
    - Maven__com_esotericsoftware_kryo_shaded_3_0_3.xml
    - Maven__org_apache_httpcomponents_httpcore_4_3_3.xml
    - Maven__org_apache_hadoop_hadoop_common_2_6_5.xml
    - Maven__org_slf4j_jcl_over_slf4j_1_7_16.xml
    - Maven__com_twitter_chill_2_11_0_8_0.xml
    - Maven__org_apache_parquet_parquet_format_2_3_1.xml
    - Maven__org_xerial_snappy_snappy_java_1_1_2_6.xml
    - Maven__org_apache_hadoop_hadoop_client_2_6_5.xml
    - Maven__org_spark_project_spark_unused_1_0_0.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_6_5.xml
    - Maven__mx4j_mx4j_3_0_2.xml
    - Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_5.xml
    - Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_22_2.xml
    - Maven__org_codehaus_jackson_jackson_jaxrs_1_9_13.xml
    - Maven__org_json4s_json4s_core_2_11_3_2_11.xml
    - Maven__org_apache_hadoop_hadoop_yarn_api_2_6_5.xml
    - Maven__org_slf4j_slf4j_log4j12_1_7_16.xml
    - Maven__org_apache_ivy_ivy_2_4_0.xml
    - Maven__commons_configuration_commons_configuration_1_6.xml
    - Maven__org_codehaus_janino_janino_3_0_0.xml
    - Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml
    - Maven__org_glassfish_hk2_hk2_utils_2_4_0_b34.xml
    - Maven__com_univocity_univocity_parsers_2_2_1.xml
    - Maven__org_codehaus_jackson_jackson_xc_1_9_13.xml
    - Maven__org_apache_spark_spark_launcher_2_11_2_2_0.xml
    - Maven__org_apache_curator_curator_client_2_6_0.xml
    - Maven__com_esotericsoftware_minlog_1_3_0.xml
    - Maven__commons_collections_commons_collections_3_2_2.xml
    - Maven__org_scala_lang_modules_scala_xml_2_11_1_0_1.xml
    - Maven__org_apache_spark_spark_sketch_2_11_2_2_0.xml
    - Maven__javax_activation_activation_1_1_1.xml
    - Maven__org_apache_parquet_parquet_hadoop_1_8_2.xml
    - Maven__com_clearspring_analytics_stream_2_7_0.xml
    - Maven__org_apache_avro_avro_ipc_tests_1_7_7.xml
    - Maven__org_apache_curator_curator_framework_2_6_0.xml
    - Maven__org_apache_spark_spark_network_common_2_11_2_2_0.xml
    - Maven__org_glassfish_jersey_core_jersey_client_2_22_2.xml
    - Maven__org_slf4j_slf4j_api_1_7_16.xml
    - Maven__org_apache_avro_avro_mapred_hadoop2_1_7_7.xml
    - Maven__commons_lang_commons_lang_2_6.xml
    - Maven__org_tukaani_xz_1_0.xml
    - Maven__org_apache_directory_api_api_util_1_0_0_M20.xml
    - Maven__com_google_code_gson_gson_2_2_4.xml
    - Maven__org_javassist_javassist_3_18_1_GA.xml
    - Maven__org_apache_spark_spark_core_2_11_2_2_0.xml
    - Maven__org_glassfish_jersey_core_jersey_common_2_22_2.xml
    - Maven__org_apache_parquet_parquet_jackson_1_8_2.xml
    - Maven__org_scala_lang_scala_library_2_11_8.xml
    - Maven__org_mortbay_jetty_jetty_util_6_1_26.xml
    - Maven__org_apache_httpcomponents_httpclient_4_3_6.xml
    - Maven__org_apache_directory_api_api_asn1_api_1_0_0_M20.xml
    - Maven__org_glassfish_hk2_hk2_locator_2_4_0_b34.xml
    - Maven__org_apache_commons_commons_compress_1_4_1.xml
    - Maven__com_fasterxml_jackson_core_jackson_databind_2_6_5.xml
    - Maven__org_scala_lang_scalap_2_11_0.xml
    - Maven__io_dropwizard_metrics_metrics_graphite_3_1_2.xml
  - compiler.xml
  - modules.xml
  - uiDesigner.xml
  - misc.xml
  - vcs.xml
  - copyright
    - profiles_settings.xml
  - scala_compiler.xml

package pairs;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;

import java.util.Arrays;
import java.util.List;
import java.util.Map;

import scala.Tuple2;

//
// Many applications end up performing operations on a kay/value pairs where
// many operations are performed on a perk-key basis, so Spark introduces a
// special type of RDD for pairs, the JavaPairRDD. THis behaves like an RDD,
// but benefits from additional operations in PairRDDFunctions.
//
// Here we explore their basic usage. Elsewhere we see that they get more
// interesting when we can assume that the JavaPairRDD is partitioned so that
// the entries for each key live in just one partition.
//

public class Basic {
  public static void main(String[] args) {
    SparkSession spark = SparkSession
        .builder()
        .appName("Pairs-Basic")
        .master("local[4]")
        .getOrCreate();

    JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

    List<Tuple2<String, Integer>> pairs =
        Arrays.asList(
            new Tuple2<>("1",9), new Tuple2<>("1",2), new Tuple2<>("1",1),
            new Tuple2<>("2",3), new Tuple2<>("2",4), new Tuple2<>("3",1),
            new Tuple2<>("3",5), new Tuple2<>("6",2), new Tuple2<>("6",1),
            new Tuple2<>("6",4), new Tuple2<>("8",1));

    // a randomly partitioned pair RDD
    JavaPairRDD<String, Integer> pairsRDD = sc.parallelizePairs(pairs, 4);

    System.out.println("*** the original pairs");
    pairsRDD.foreach(i -> System.out.println(i));

    //
    // Pairs can be collected as a Map of, but this only works well if the
    // keys are unique. Here they aren't so an arbitrary value is chosen for each:
    //
    Map<String, Integer> pairsAsMap = pairsRDD.collectAsMap();
    System.out.println("*** the pretty useless map");
    System.out.println(pairsAsMap);

    // let's say we just want the pair with minimum value for each key
    // we can use one of the handy methods in PairRDDFunctions. To reduce we need
    // only supply a single function to combine all the values for each key -- the result
    // has to have the same type as the values
    JavaPairRDD<String, Integer> reducedRDD = pairsRDD.reduceByKey(Math::min);

    System.out.println("*** the reduced pairs");
    reducedRDD.foreach(i -> System.out.println(i));

    // the reduced pairs have unique keys so collecting to a map works a lot better
    Map<String, Integer> reducedAsMap = reducedRDD.collectAsMap();
    System.out.println("*** the reduced pairs as a map");
    System.out.println(reducedAsMap);

    // folding is a little mor general: we get to specifiy the identity value:
    // say 0 for adding and 1 for multiplying
    JavaPairRDD<String, Integer> foldedRDD =
        pairsRDD.foldByKey(1, (x, y) -> x * y);

    System.out.println("*** the folded pairs");
    foldedRDD.foreach(i -> System.out.println(i));

    // Combining is more general: you can produce values of a different type, which is very powerful.
    // You need to provide three functions: the first converts an individual value to the new type, the second
    // incorporates an additional value into the the result, and the third combines intermediate results, which is
    // used by execution to avoid excessive communication between partitions. The first function is applied once
    // per partition and the second is used for each additional value in the partition.
    // Below is a pretty classical example of its use: compute a per-key average by first computing the sum and count
    // for each key and then dividing.
    JavaPairRDD<String, Tuple2<Integer, Integer>> combinedRDD =
        pairsRDD.combineByKey(
            value -> new Tuple2<>(value, 1),
            (sumAndCount, value) -> new Tuple2<>(sumAndCount._1() + value, sumAndCount._2() + 1),
            (sumAndCount1, sumAndCount2) ->
                new Tuple2<>(sumAndCount1._1() + sumAndCount2._1(), sumAndCount1._2() + sumAndCount2._2())
        );

    JavaPairRDD<String, Double> averageRDD =
        combinedRDD.mapValues(sumAndCount -> (double) sumAndCount._1() / sumAndCount._2());

    System.out.println("*** the average pairs");
    averageRDD.foreach(i -> System.out.println(i));

    // The dividing could be done just by calling map, but in Java this requires a lot of conversion between the
    // two kinds of RDD and ends up *VERY* cumbersome.
    JavaRDD<Tuple2<String, Tuple2<Integer, Integer>>> tupleCombinedRDD =
        JavaRDD.fromRDD(combinedRDD.rdd(), combinedRDD.classTag());
    JavaRDD<Tuple2<String, Double>> tupleDividedRDD = tupleCombinedRDD.map(keyAndsumAndCount ->
        new Tuple2<>(keyAndsumAndCount._1(), (double) keyAndsumAndCount._2()._1() / keyAndsumAndCount._2()._2()));
    JavaPairRDD<String, Double> averageRDDtheHardWay = JavaPairRDD.fromJavaRDD(tupleDividedRDD);

    // remember these won't necessarily come out int he same order so they may not obviously be
    // the same as above
    System.out.println("*** the average pairs the hard way");
    averageRDDtheHardWay.foreach(i -> System.out.println(i));

    spark.stop();
  }
}