java source code of PartitioningRowDataSource

spark-data-sources-master
- src
  - main
    - proto
      - example-db.proto
    - resources
      - log4j.properties
    - scala
      - examples
        SReadParallel.scala
        SReadNamedTable.scala
        SReadPartitionAware_Mismatch.scala
        SReadWriteParallel.scala
        SReadPartitionAware.scala
        SBasic.scala
    - java
      - edb
        client
        DBClient.java
        common
        InvalidTypeException.java
        Filter.java
        SimpleSplit.java
        Schema.java
        IndexSplit.java
        Row.java
        ExistingTableException.java
        IExampleDB.java
        UnknownTableException.java
        Split.java
        server
        ClusteredIndexTable.java
        ITable.java
        Rowset.java
        DBServer.java
        SimpleTable.java
        Database.java
      - examples
        JReadNamedTable.java
        JBasic.java
        utils
        RDDUtils.java
        JReadPartitionAware_Mismatch.java
        JReadParallel.java
        JReadPartitionAware.java
        JReadWriteParallel.java
      - datasources
        FlexibleRowDataSource.java
        utils
        DBClientWrapper.java
        DBTableReader.java
        ParallelRowReadWriteDataSource.java
        SimpleRowDataSource.java
        ParallelRowDataSource.java
        PartitioningRowDataSource.java
  - test
    - java
      - LocalDBTest.java
      - util
        SampleTables.java
      - RemoteDBTest.java
- pom.xml
- LICENSE
- spark-data-sources.iml
- README.md
- .idea
  - libraries
    - Maven__net_iharder_base64_2_3_8.xml
    - Maven__org_apache_commons_commons_math3_3_4_1.xml
    - Maven__org_apache_hadoop_hadoop_auth_2_6_5.xml
    - Maven__com_google_guava_guava_19_0.xml
    - Maven__io_netty_netty_codec_http2_4_1_17_Final.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_6_5.xml
    - Maven__org_apache_arrow_arrow_vector_0_8_0.xml
    - Maven__org_glassfish_hk2_external_javax_inject_2_4_0_b34.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_7_9.xml
    - Maven__io_dropwizard_metrics_metrics_jvm_3_1_5.xml
    - Maven__com_thoughtworks_paranamer_paranamer_2_3.xml
    - Maven__org_antlr_antlr4_runtime_4_7.xml
    - Maven__org_codehaus_janino_commons_compiler_3_0_8.xml
    - Maven__org_apache_spark_spark_tags_2_11_2_3_0.xml
    - Maven__org_apache_spark_spark_sql_2_11_2_3_0.xml
    - Maven__org_apache_orc_orc_mapreduce_nohive_1_4_1.xml
    - Maven__io_netty_netty_buffer_4_1_17_Final.xml
    - Maven__net_java_dev_jets3t_jets3t_0_9_4.xml
    - Maven__org_apache_commons_commons_lang3_3_5.xml
    - Maven__com_fasterxml_jackson_core_jackson_databind_2_6_7_1.xml
    - Maven__io_netty_netty_codec_4_1_17_Final.xml
    - Maven__com_fasterxml_jackson_core_jackson_core_2_6_7.xml
    - Maven__org_fusesource_leveldbjni_leveldbjni_all_1_8.xml
    - Maven__org_apache_hadoop_hadoop_yarn_server_common_2_6_5.xml
    - Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_4.xml
    - Maven__com_carrotsearch_hppc_0_7_2.xml
    - Maven__javax_xml_stream_stax_api_1_0_2.xml
    - Maven__org_apache_spark_spark_core_2_11_2_3_0.xml
    - Maven__org_apache_zookeeper_zookeeper_3_4_6.xml
    - Maven__commons_net_commons_net_2_2.xml
    - Maven__io_grpc_grpc_context_1_10_0.xml
    - Maven__org_apache_parquet_parquet_common_1_8_2.xml
    - Maven__org_glassfish_hk2_osgi_resource_locator_1_0_1.xml
    - Maven__javax_xml_bind_jaxb_api_2_2_2.xml
    - Maven__log4j_log4j_1_2_17.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_6_5.xml
    - Maven__com_ning_compress_lzf_1_0_3.xml
    - Maven__com_jamesmurty_utils_java_xmlbuilder_1_1.xml
    - Maven__xerces_xercesImpl_2_9_1.xml
    - Maven__io_netty_netty_3_9_9_Final.xml
    - Maven__com_google_code_findbugs_jsr305_1_3_9.xml
    - Maven__org_slf4j_jul_to_slf4j_1_7_16.xml
    - Maven__org_apache_curator_curator_recipes_2_6_0.xml
    - Maven__org_json4s_json4s_ast_2_11_3_2_11.xml
    - Maven__io_netty_netty_resolver_4_1_17_Final.xml
    - Maven__org_glassfish_jersey_core_jersey_server_2_22_2.xml
    - Maven__io_opencensus_opencensus_api_0_11_0.xml
    - Maven__org_apache_arrow_arrow_memory_0_8_0.xml
    - Maven__org_apache_spark_spark_kvstore_2_11_2_3_0.xml
    - Maven__org_htrace_htrace_core_3_0_4.xml
    - Maven__com_univocity_univocity_parsers_2_5_9.xml
    - Maven__org_apache_hadoop_hadoop_yarn_client_2_6_5.xml
    - Maven__io_netty_netty_handler_proxy_4_1_17_Final.xml
    - Maven__org_scala_lang_scala_compiler_2_11_0.xml
    - Maven__org_codehaus_jackson_jackson_core_asl_1_9_13.xml
    - Maven__org_apache_spark_spark_network_shuffle_2_11_2_3_0.xml
    - Maven__xmlenc_xmlenc_0_52.xml
    - Maven__io_dropwizard_metrics_metrics_json_3_1_5.xml
    - Maven__oro_oro_2_0_8.xml
    - Maven__javax_validation_validation_api_1_1_0_Final.xml
    - Maven__commons_beanutils_commons_beanutils_1_7_0.xml
    - Maven__io_netty_netty_all_4_1_17_Final.xml
    - Maven__commons_digester_commons_digester_1_8.xml
    - Maven__org_apache_xbean_xbean_asm5_shaded_4_4.xml
    - Maven__org_apache_parquet_parquet_column_1_8_2.xml
    - Maven__org_apache_parquet_parquet_encoding_1_8_2.xml
    - Maven__org_apache_spark_spark_catalyst_2_11_2_3_0.xml
    - Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml
    - Maven__org_roaringbitmap_RoaringBitmap_0_5_11.xml
    - Maven__commons_beanutils_commons_beanutils_core_1_8_0.xml
    - Maven__commons_io_commons_io_2_4.xml
    - Maven__org_scala_lang_scala_reflect_2_11_8.xml
    - Maven__org_apache_avro_avro_ipc_1_7_7.xml
    - Maven__xml_apis_xml_apis_1_3_04.xml
    - Maven__com_google_protobuf_protobuf_java_3_5_1.xml
    - Maven__org_apache_spark_spark_sketch_2_11_2_3_0.xml
    - Maven__org_apache_commons_commons_crypto_1_0_0.xml
    - Maven__org_apache_orc_orc_core_nohive_1_4_1.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml
    - Maven__commons_codec_commons_codec_2_0_SNAPSHOT.xml
    - Maven__com_google_protobuf_protobuf_java_util_3_5_1.xml
    - Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_7.xml
    - Maven__commons_cli_commons_cli_1_2.xml
    - Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml
    - Maven__org_apache_spark_spark_streaming_2_11_2_3_0.xml
    - Maven__org_apache_httpcomponents_httpclient_4_5.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml
    - Maven__javax_ws_rs_javax_ws_rs_api_2_0_1.xml
    - Maven__org_glassfish_hk2_hk2_api_2_4_0_b34.xml
    - Maven__io_netty_netty_codec_socks_4_1_17_Final.xml
    - Maven__com_google_errorprone_error_prone_annotations_2_1_2.xml
    - Maven__org_codehaus_jackson_jackson_mapper_asl_1_9_13.xml
    - Maven__org_apache_avro_avro_1_7_7.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_6_5.xml
    - Maven__org_apache_spark_spark_network_common_2_11_2_3_0.xml
    - Maven__org_apache_spark_spark_unsafe_2_11_2_3_0.xml
    - Maven__com_twitter_chill_java_0_8_4.xml
    - Maven__org_objenesis_objenesis_2_1.xml
    - Maven__io_grpc_grpc_protobuf_lite_1_10_0.xml
    - Maven__org_apache_hadoop_hadoop_hdfs_2_6_5.xml
    - Maven__org_bouncycastle_bcprov_jdk15on_1_52.xml
    - Maven__javax_annotation_javax_annotation_api_1_2.xml
    - Maven__io_dropwizard_metrics_metrics_graphite_3_1_5.xml
    - Maven__org_json4s_json4s_jackson_2_11_3_2_11.xml
    - Maven__org_apache_hadoop_hadoop_annotations_2_6_5.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_7_1.xml
    - Maven__com_google_code_gson_gson_2_7.xml
    - Maven__io_grpc_grpc_stub_1_10_0.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_6_5.xml
    - Maven__javax_servlet_javax_servlet_api_3_1_0.xml
    - Maven__org_apache_httpcomponents_httpcore_4_4_1.xml
    - Maven__io_netty_netty_transport_4_1_17_Final.xml
    - Maven__org_apache_directory_server_apacheds_i18n_2_0_0_M15.xml
    - Maven__org_apache_hadoop_hadoop_yarn_common_2_6_5.xml
    - Maven__io_grpc_grpc_protobuf_1_10_0.xml
    - Maven__commons_httpclient_commons_httpclient_3_1.xml
    - Maven__net_razorvine_pyrolite_4_13.xml
    - Maven__com_esotericsoftware_kryo_shaded_3_0_3.xml
    - Maven__org_assertj_assertj_core_3_9_1.xml
    - Maven__org_lz4_lz4_java_1_4_0.xml
    - Maven__org_apache_hadoop_hadoop_common_2_6_5.xml
    - Maven__org_slf4j_jcl_over_slf4j_1_7_16.xml
    - Maven__junit_junit_4_12.xml
    - Maven__io_grpc_grpc_netty_1_10_0.xml
    - Maven__org_apache_parquet_parquet_format_2_3_1.xml
    - Maven__joda_time_joda_time_2_9_9.xml
    - Maven__org_xerial_snappy_snappy_java_1_1_2_6.xml
    - Maven__io_airlift_aircompressor_0_8.xml
    - Maven__org_apache_hadoop_hadoop_client_2_6_5.xml
    - Maven__org_spark_project_spark_unused_1_0_0.xml
    - Maven__io_grpc_grpc_core_1_10_0.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_6_5.xml
    - Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_22_2.xml
    - Maven__org_codehaus_jackson_jackson_jaxrs_1_9_13.xml
    - Maven__org_json4s_json4s_core_2_11_3_2_11.xml
    - Maven__org_apache_hadoop_hadoop_yarn_api_2_6_5.xml
    - Maven__com_vlkan_flatbuffers_1_2_0_3f79e055.xml
    - Maven__org_slf4j_slf4j_log4j12_1_7_16.xml
    - Maven__org_apache_ivy_ivy_2_4_0.xml
    - Maven__commons_configuration_commons_configuration_1_6.xml
    - Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml
    - Maven__org_glassfish_hk2_hk2_utils_2_4_0_b34.xml
    - Maven__org_codehaus_janino_janino_3_0_8.xml
    - Maven__io_dropwizard_metrics_metrics_core_3_1_5.xml
    - Maven__org_codehaus_jackson_jackson_xc_1_9_13.xml
    - Maven__org_apache_curator_curator_client_2_6_0.xml
    - Maven__com_esotericsoftware_minlog_1_3_0.xml
    - Maven__commons_collections_commons_collections_3_2_2.xml
    - Maven__io_netty_netty_codec_http_4_1_17_Final.xml
    - Maven__org_scala_lang_modules_scala_xml_2_11_1_0_1.xml
    - Maven__javax_activation_activation_1_1_1.xml
    - Maven__org_apache_parquet_parquet_hadoop_1_8_2.xml
    - Maven__com_clearspring_analytics_stream_2_7_0.xml
    - Maven__org_apache_arrow_arrow_format_0_8_0.xml
    - Maven__org_apache_avro_avro_ipc_tests_1_7_7.xml
    - Maven__org_apache_curator_curator_framework_2_6_0.xml
    - Maven__org_glassfish_jersey_core_jersey_client_2_22_2.xml
    - Maven__org_slf4j_slf4j_api_1_7_16.xml
    - Maven__org_apache_avro_avro_mapred_hadoop2_1_7_7.xml
    - Maven__org_apache_spark_spark_launcher_2_11_2_3_0.xml
    - Maven__commons_lang_commons_lang_2_6.xml
    - Maven__org_tukaani_xz_1_0.xml
    - Maven__org_apache_directory_api_api_util_1_0_0_M20.xml
    - Maven__com_google_api_grpc_proto_google_common_protos_1_0_0.xml
    - Maven__io_opencensus_opencensus_contrib_grpc_metrics_0_11_0.xml
    - Maven__org_javassist_javassist_3_18_1_GA.xml
    - Maven__com_github_luben_zstd_jni_1_3_2_2.xml
    - Maven__org_glassfish_jersey_core_jersey_common_2_22_2.xml
    - Maven__org_apache_parquet_parquet_jackson_1_8_2.xml
    - Maven__org_scala_lang_scala_library_2_11_8.xml
    - Maven__org_mortbay_jetty_jetty_util_6_1_26.xml
    - Maven__org_apache_directory_api_api_asn1_api_1_0_0_M20.xml
    - Maven__org_glassfish_hk2_hk2_locator_2_4_0_b34.xml
    - Maven__org_apache_commons_commons_compress_1_4_1.xml
    - Maven__com_twitter_chill_2_11_0_8_4.xml
    - Maven__io_netty_netty_handler_4_1_17_Final.xml
    - Maven__org_hamcrest_hamcrest_core_1_3.xml
    - Maven__net_sf_py4j_py4j_0_10_6.xml
    - Maven__org_scala_lang_scalap_2_11_0.xml
    - Maven__io_netty_netty_common_4_1_17_Final.xml
  - compiler.xml
  - modules.xml
  - uiDesigner.xml
  - .name
  - misc.xml
  - vcs.xml
  - copyright
    - profiles_settings.xml
  - scala_compiler.xml
  - hydra.xml
- .gitignore

package datasources;

import datasources.utils.DBClientWrapper;
import datasources.utils.DBTableReader;
import edb.common.Split;
import edb.common.UnknownTableException;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.sources.v2.DataSourceOptions;
import org.apache.spark.sql.sources.v2.DataSourceV2;
import org.apache.spark.sql.sources.v2.ReadSupport;
import org.apache.spark.sql.sources.v2.reader.DataReader;
import org.apache.spark.sql.sources.v2.reader.DataReaderFactory;
import org.apache.spark.sql.sources.v2.reader.DataSourceReader;
import org.apache.spark.sql.sources.v2.reader.SupportsReportPartitioning;
import org.apache.spark.sql.sources.v2.reader.partitioning.ClusteredDistribution;
import org.apache.spark.sql.sources.v2.reader.partitioning.Distribution;
import org.apache.spark.sql.sources.v2.reader.partitioning.Partitioning;
import org.apache.spark.sql.types.StructType;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * This DataSource also supports parallel reads (i.e.: on multiple executors)
 * from the ExampleDB.
 *
 * The interesting feature of this example is that it supports informing the
 * Spark SQL optimizer whether the table is partitioned in the right way to avoid shuffles
 * in certain queries. One example is grouping queries, where shuffles can be avoided if the
 * table is clustered in such a way that each group (cluster) is fully contained in a
 * single partition. Since ExampleDB only supports clustered indexes on single columns,
 * in practice a shuffle can be avoided if the table is clustered on one of the grouping
 * columns. (In ExampleDB clustered tables, splits always respect clustering.)
 *
 * It gets a table name from its configuration and infers a schema from
 * that table. If a number of partitions is specified in properties, it is used. Otherwise,
 * the table's default partition count (always 4 in ExampleDB) is used.
 */
public class PartitioningRowDataSource implements DataSourceV2, ReadSupport {

    static Logger log = Logger.getLogger(PartitioningRowDataSource.class.getName());

    /**
     * Spark calls this to create the reader. Notice how it pulls the host and port
     * on which ExampleDB is listening, as well as a table name, from the supplied options.
     * @param options
     * @return
     */
    @Override
    public DataSourceReader createReader(DataSourceOptions options) {
        String host = options.get("host").orElse("localhost");
        int port = options.getInt("port", -1);
        String table = options.get("table").orElse("unknownTable"); // TODO: throw
        int partitions = Integer.parseInt(options.get("partitions").orElse("0"));
        return new Reader(host, port, table, partitions);
    }

    /**
     * This is how Spark discovers the source table's schema by requesting it from ExmapleDB,
     * and how it obtains the reader factories to be used by the executors to create readers.
     * Notice that one factory is created for each partition.
     */
    static class Reader implements SupportsReportPartitioning {

        static Logger log = Logger.getLogger(Reader.class.getName());

        public Reader(String host, int port, String table, int partitions) {
            _host = host;
            _port = port;
            _table = table;
            _requestedPartitions = partitions;
        }

        private String _host;
        private int _port;
        private String _table;
        private int _requestedPartitions;

        //
        // dynamic properties inferred from database
        //

        private boolean _initialized = false;
        private StructType _schema;
        private String _clusteredColumn;
        private List<Split> _splits;


        private void initialize() {
            if (!_initialized) {
                log.info("initializing");
                DBClientWrapper db = new DBClientWrapper(_host, _port);
                db.connect();
                try {
                    _schema = db.getSparkSchema(_table);
                    _clusteredColumn = db.getClusteredIndexColumn(_table);
                    if (_requestedPartitions == 0)
                        _splits = db.getSplits(_table);
                    else
                        _splits = db.getSplits(_table, _requestedPartitions);
                } catch (UnknownTableException ute) {
                    throw new RuntimeException(ute);
                } finally {
                    db.disconnect();
                }
                _initialized = true;
                log.info("initialized");
            }
        }

        @Override
        public StructType readSchema() {
            log.info("schema requested for table [" + _table + "]");
            initialize();
            return _schema;
        }

        @Override
        public List<DataReaderFactory<Row>> createDataReaderFactories() {
            log.info("reader factories requested for table [" + _table + "]");
            initialize();
            List<DataReaderFactory<Row>> factories = new ArrayList<>();
            for (Split split : _splits) {
                DataReaderFactory<Row> factory =
                        new SplitDataReaderFactory(_host, _port, _table, readSchema(), split);
                factories.add(factory);
            }
            return factories;
        }

        @Override
        public Partitioning outputPartitioning() {
            log.info("output partitioning requested for table [" + _table + "]");
            return new SingleClusteredColumnPartitioning(
                    _clusteredColumn, _splits.size());
        }
    }

    static class SingleClusteredColumnPartitioning implements Partitioning {

        static Logger log = Logger.getLogger(SingleClusteredColumnPartitioning.class.getName());

        public SingleClusteredColumnPartitioning(String columnName, int partitions) {
            _columnName = columnName;
            _partitions = partitions;
        }

        @Override
        public int numPartitions() {
            log.info("asked for numPartitions");
            return _partitions;
        }

        @Override
        public boolean satisfy(Distribution distribution) {
            //
            // Since Spark may add other Distribution policies in the future, we can't assume
            // it's always a ClusteredDistribution
            //

            if (distribution instanceof ClusteredDistribution) {

                String[] clusteredCols = ((ClusteredDistribution) distribution).clusteredColumns;
                StringBuilder logEntryBuilder = new StringBuilder();
                logEntryBuilder.append("asked to satisfy ClusteredDistribution on columns ");
                if (clusteredCols.length > 0) {
                    for (String col : clusteredCols) {
                        logEntryBuilder.append("[");
                        logEntryBuilder.append(col);
                        logEntryBuilder.append("] ");
                    }
                }
                log.info(logEntryBuilder.toString());
                if (_columnName == null) {
                    log.info("no cluster column so does not satisfy");
                    return false;
                } else {
                    boolean satisfies = Arrays.asList(clusteredCols).contains(_columnName);
                    log.info("based on cluster column: " + satisfies);
                    return satisfies;
                }
            }
            log.info("asked to satisfy unknown distribution of type [" +
                    distribution.getClass().getCanonicalName() + "]");
            return false;
        }

        private String _columnName;
        private int _partitions;
    }

    /**
     * This is used by each executor to read from ExampleDB. It uses the Split to know
     * which data to read.
     * Also note that when DBClientWrapper's getTableReader() method is called
     * it reads ALL the data in its own Split eagerly.
     */
    static class TaskDataReader implements DataReader<Row> {

        static Logger log = Logger.getLogger(TaskDataReader.class.getName());

        public TaskDataReader(String host, int port, String table,
                              StructType schema, Split split)
                throws UnknownTableException {
            log.info("Task reading from [" + host + ":" + port + "]" );
            _db = new DBClientWrapper(host, port);
            _db.connect();
            _reader = _db.getTableReader(table, schema.fieldNames(), split);
        }

        private DBClientWrapper _db;

        private DBTableReader _reader;

        @Override
        public boolean next() {
            return _reader.next();
        }

        @Override
        public Row get() {
            return _reader.get();
        }

        @Override
        public void close() throws IOException {
            _db.disconnect();
        }
    }

    /**
     * Note that this has to be serializable. Each instance is sent to an executor,
     * which uses it to create a reader for its own use.
     */
    static class SplitDataReaderFactory implements DataReaderFactory<Row> {

        static Logger log = Logger.getLogger(SplitDataReaderFactory.class.getName());

        public SplitDataReaderFactory(String host, int port,
                                       String table, StructType schema,
                                       Split split) {
            _host = host;
            _port = port;
            _table = table;
            _schema = schema;
            _split = split;
        }

        private String _host;
        private int _port;
        private String _table;
        private StructType _schema;
        private Split _split;

        @Override
        public DataReader<Row> createDataReader() {
            log.info("Factory creating reader for [" + _host + ":" + _port + "]" );
            try {
                return new TaskDataReader(_host, _port, _table, _schema, _split);
            } catch (UnknownTableException ute) {
                throw new RuntimeException(ute);
            }
        }

    }


}