java source code of BigQueryMapper

DataflowTemplates-master
- .github
  - stale.yml
- src
  - main
    - proto
      - export.proto
      - text_import.proto
    - resources
      - checkstyle
        checkstyle.xml
        suppressions.xml
      - schema
        avro
        bigtable.avsc
        streaming_source_deadletter_table_schema.json
        pubsubmessage_deadletter_table_schema.json
    - python
      - transform.py
      - requirements.txt
    - java
      - com
        google
        cloud
        teleport
        kafka
        connector
        KafkaTimestampType.java
        CustomTimestampPolicyWithLimitedDelay.java
        KafkaUnboundedSource.java
        ProducerSpEL.java
        KafkaRecord.java
        KafkaUnboundedReader.java
        serialization
        InstantDeserializer.java
        package-info.java
        InstantSerializer.java
        TimestampPolicy.java
        KafkaIO.java
        KafkaCheckpointMark.java
        KafkaRecordCoder.java
        package-info.java
        TimestampPolicyFactory.java
        KafkaPublishTimestampFunction.java
        ConsumerSpEL.java
        KafkaWriter.java
        KafkaExactlyOnceSink.java
        avro
        AvroPubsubMessageRecord.java
        package-info.java
        coders
        package-info.java
        FailsafeElementCoder.java
        cdc
        merge
        BigQueryMerger.java
        MergeInfo.java
        MergeStatementBuilder.java
        package-info.java
        MergeConfiguration.java
        mappers
        package-info.java
        MergeInfoMapper.java
        BigQueryDefaultSchemas.java
        BigQueryMapper.java
        dlq
        BigQueryDeadLetterQueueSanitizer.java
        package-info.java
        DeadLetterQueueSanitizer.java
        splunk
        SplunkEventWriter.java
        SplunkEvent.java
        SplunkEventCoder.java
        package-info.java
        HttpEventPublisher.java
        SplunkWriteError.java
        SplunkWriteErrorCoder.java
        SplunkIO.java
        templates
        PubsubToDatastore.java
        DatastoreToText.java
        TextToPubsubStream.java
        TextToDatastore.java
        WordCount.java
        PubsubToAvro.java
        TextIOToBigQuery.java
        PubsubToText.java
        TextToPubsub.java
        SchemaParser.java
        common
        SubprocessTextTransformer.java
        BigQueryDynamicConverters.java
        JdbcConverters.java
        BigQueryMappers.java
        SplunkConverters.java
        BigQueryConverters.java
        DatastoreConverters.java
        ErrorConverters.java
        package-info.java
        CombineJsonLines.java
        TextConverters.java
        PubsubConverters.java
        JavascriptTextTransformer.java
        SpannerConverters.java
        DatastoreSchemasCountToText.java
        DatastoreToPubsub.java
        KafkaToBigQuery.java
        JdbcToBigQuery.java
        PubSubToBigQuery.java
        BulkCompressor.java
        BulkDecompressor.java
        SpannerToText.java
        TextToBigQueryStreaming.java
        package-info.java
        BigQueryToDatastore.java
        DatastoreToBigQuery.java
        DatastoreToDatastoreDelete.java
        BigQueryToTFRecord.java
        DLPTextToBigQueryStreaming.java
        PubSubToSplunk.java
        PubsubToPubsub.java
        util
        DualInputNestedValueProvider.java
        DurationUtils.java
        ResourceUtils.java
        package-info.java
        ValueProviderUtils.java
        KMSEncryptedNestedValueProvider.java
        bigtable
        BigtableToAvro.java
        CassandraKeyUtils.java
        ParquetToBigtable.java
        BeamRowToBigtableFn.java
        CassandraRowMapperFactory.java
        BigtableToParquet.java
        AvroToBigtable.java
        CassandraRowMapperFn.java
        package-info.java
        CassandraToBigtable.java
        spanner
        ImportTransform.java
        GcsUtil.java
        ddl
        Ddl.java
        Index.java
        InformationSchemaScanner.java
        IndexColumn.java
        package-info.java
        Column.java
        Table.java
        ForeignKey.java
        TextSource.java
        ImportPipeline.java
        DdlToAvroSchemaConverter.java
        AsList.java
        FileShard.java
        FileChecksum.java
        TextRowToMutation.java
        BuildReadFromTableOperations.java
        ReadInformationSchema.java
        AvroUtil.java
        ApplyDDLTransform.java
        package-info.java
        AvroRecordConverter.java
        TextImportPipeline.java
        ExportTransform.java
        AvroTableFileAsMutations.java
        README.md
        ExportPipeline.java
        TextImportTransform.java
        SpannerRecordConverter.java
        SplitIntoRangesFn.java
        AvroSchemaToDdlConverter.java
        io
        package-info.java
        WindowedFilenamePolicy.java
        DynamicJdbcIO.java
        values
        package-info.java
        FailsafeElement.java
      - org
        apache
        beam
        sdk
        io
        gcp
        spanner
        LocalBatchSpannerRead.java
        LocalSpannerIO.java
        package-info.java
        ExposedSpannerAccessor.java
        LocalCreateTransactionFn.java
        LocalReadSpannerSchema.java
  - test
    - resources
      - JavascriptTextTransformerTest
        scriptParseException.js
        transform.js
    - java
      - com
        google
        cloud
        teleport
        kafka
        connector
        CustomTimestampPolicyWithLimitedDelayTest.java
        KafkaRecordCoderTest.java
        cdc
        merge
        MergeStatementBuilderTest.java
        BigQueryMergerTest.java
        splunk
        SplunkIOTest.java
        SplunkEventTest.java
        SplunkEventCoderTest.java
        SplunkWriteErrorCoderTest.java
        SplunkEventWriterTest.java
        HttpEventPublisherTest.java
        SplunkWriteErrorTest.java
        templates
        PubsubToPubsubTest.java
        BulkDecompressorTest.java
        PubsubToAvroTest.java
        BigQueryToTFRecordTest.java
        BulkCompressorTest.java
        KafkaToBigQueryTest.java
        common
        BigQueryConvertersTest.java
        JavascriptTextTransformerTest.java
        SpannerConverterTest.java
        JdbcConvertersTest.java
        DatastoreConvertersTest.java
        ErrorConvertersTest.java
        SplunkConvertersTest.java
        PubsubToBigQueryTest.java
        WordCountTest.java
        PubsubToTextTest.java
        TextToBigQueryStreamingTest.java
        DLPTextToBigQueryStreamingTest.java
        util
        ResourceUtilsTest.java
        TestUtils.java
        DualInputNestedvalueProviderTest.java
        bigtable
        AvroToBigtableTest.java
        TestUtils.java
        CassandraBaseTest.java
        BigtableToAvroTest.java
        ParquetToBigtableTest.java
        BigtableToParquetTest.java
        BeamRowToBigtableFnTest.java
        CassandraKeyUtilsTest.java
        CassandraRowMapperFnTest.java
        spanner
        TextRowToMutationTest.java
        CompareDatabases.java
        ImportFromAvroTest.java
        ddl
        RandomUtils.java
        InformationSchemaScannerTest.java
        RandomValueGenerator.java
        DdlTest.java
        RandomInsertMutationGenerator.java
        RandomDdlGenerator.java
        ExportTimestampTest.java
        IntegrationTest.java
        TextImportTransformTest.java
        TextSourceTest.java
        DdlToAvroSchemaConverterTest.java
        CopyDbTest.java
        AvroTableFileAsMutationsTest.java
        SpannerRecordConverterTest.java
        AvroRecordConverterTest.java
        ExportTransformTest.java
        SpannerServerResource.java
        CopySchemaTest.java
        ImportTransformTest.java
        AvroToDdlTool.java
        AvroSchemaToDdlConverterTest.java
        io
        WindowedFilenamePolicyTest.java
        DynamicJdbcIOTest.java
        values
        FailsafeElementTest.java
- CONTRIBUTORS.md
- pom.xml
- v2
  - pubsub-binary-to-bigquery
    - src
      - main
        resources
        pubsub-avro-to-bigquery-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        PubsubAvroToBigQuery.java
        package-info.java
    - pom.xml
    - README.md
  - kafka-to-bigquery
    - src
      - main
        resources
        kafka-to-bigquery-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        KafkaToBigQuery.java
        package-info.java
      - test
        resources
        JavascriptTextTransformerTest
        scriptParseException.js
        transform.js
        java
        com
        google
        cloud
        teleport
        v2
        templates
        KafkaToBigQueryTest.java
    - pom.xml
    - README.md
  - flex-wordcount-python
    - wordcount.py
    - spec
      - python_command_spec.json
    - README.md
    - Dockerfile
  - kafka-to-gcs
    - src
      - main
        resources
        kafka-to-gcs-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        options
        KafkaToGCSOptions.java
        package-info.java
        templates
        package-info.java
        KafkaToGCS.java
        transforms
        FileFormatFactory.java
        package-info.java
      - test
        java
        com
        google
        cloud
        teleport
        v2
        templates
        KafkaToGCSTest.java
    - pom.xml
    - README.md
  - file-format-conversion
    - src
      - main
        resources
        file-format-conversion-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        FileFormatConversion.java
        FileFormatConversionFactory.java
        package-info.java
      - test
        resources
        FileFormatConversionTest
        csv_file.csv
        parquet_file.parquet
        avro_schema_two.json
        missing_field.csv
        avro_file.avro
        avro_schema.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        FileFormatConversionTest.java
    - pom.xml
    - README.md
  - pom.xml
  - kudu-to-bigquery
    - src
      - main
        resources
        kudu-to-bigquery-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        KuduToBigQuery.java
        package-info.java
      - test
        java
        com
        google
        cloud
        teleport
        v2
        templates
        KuduToBigQueryTest.java
    - pom.xml
    - README.md
  - csv-to-elasticsearch
    - src
      - main
        resources
        csv-to-elasticsearch-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        package-info.java
        CsvToElasticsearch.java
      - test
        resources
        JavascriptTextTransformerTest
        scriptParseException.js
        transform.js
        CsvToElasticsearchTest
        with_headers.csv
        testSchema.json
        no_header.csv
        elasticUdf.js
        java
        com
        google
        cloud
        teleport
        v2
        templates
        CsvToElasticsearchTest.java
    - img
    - pom.xml
    - README.md
  - common
    - src
      - main
        resources
        schema
        streaming_source_deadletter_table_schema.json
        pubsubmessage_deadletter_table_schema.json
        java
        com
        google
        cloud
        teleport
        v2
        options
        BigQueryCommonOptions.java
        package-info.java
        PubsubCommonOptions.java
        coders
        package-info.java
        FailsafeElementCoder.java
        utils
        DurationUtils.java
        WriteToGCSUtility.java
        ResourceUtils.java
        SerializableSchemaSupplier.java
        package-info.java
        DataStream.java
        SchemaUtils.java
        cdc
        merge
        BigQueryMerger.java
        MergeInfo.java
        MergeStatementBuilder.java
        package-info.java
        MergeConfiguration.java
        BigQueryMergeValidatorTemplate.java
        mappers
        BigStreamMapper.java
        BigQueryTableRowCleaner.java
        BigQueryMappers.java
        package-info.java
        MergeInfoMapper.java
        BigQueryDefaultSchemas.java
        BigQueryMapper.java
        dlq
        DeadLetterQueueManager.java
        BigQueryDeadLetterQueueSanitizer.java
        FileBasedDeadLetterQueueReconsumer.java
        package-info.java
        DeadLetterQueueSanitizer.java
        io
        package-info.java
        WindowedFilenamePolicy.java
        values
        package-info.java
        FailsafeElement.java
        transforms
        BigQueryDynamicConverters.java
        ElasticsearchTransforms.java
        WriteToGCSParquet.java
        CsvConverters.java
        BigQueryConverters.java
        KeyValueToGenericRecordFn.java
        ErrorConverters.java
        WriteToGCSText.java
        package-info.java
        AvroConverters.java
        WriteToGCSAvro.java
        ValueExtractorTransform.java
        ParquetConverters.java
        JavascriptTextTransformer.java
      - test
        resources
        JavascriptTextTransformerTest
        scriptParseException.js
        transform.js
        ParquetConvertersTest
        test_parquet_file.parquet
        test_schema.json
        AvroConvertersTest
        test_schema.json
        test_avro_file.avro
        SchemaUtilsTest
        avro_schema.json
        CsvConvertersTest
        with_headers.csv
        testSchema.json
        testAvroSchema.json
        elasticUdfBad.js
        no_header.csv
        elasticUdf.js
        testAvroSchemaTwo.json
        with_headers_2.csv
        java
        com
        google
        cloud
        teleport
        v2
        coders
        FailsafeElementCoderTest.java
        utils
        SerializableSchemaSupplierTest.java
        SchemaUtilsTest.java
        cdc
        dlq
        FileBasedDeadLetterQueueReconsumerTest.java
        values
        FailsafeElementTest.java
        transforms
        BigQueryConvertersTest.java
        KeyValueToGenericRecordFnTest.java
        ParquetConvertersTest.java
        JavascriptTextTransformerTest.java
        WriteToGCSParquetTest.java
        ValueExtractorTransformTest.java
        WriteToGCSAvroTest.java
        ElasticsearchTransformsTest.java
        CsvConvertersTest.java
        ErrorConvertersTest.java
        WriteToGCSTextTest.java
        AvroConvertersTest.java
    - pom.xml
  - streaming-data-generator
    - src
      - main
        resources
        streaming-data-generator-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        package-info.java
        StreamingDataGenerator.java
      - test
        java
        com
        google
        cloud
        teleport
        v2
        templates
        StreamingDataGeneratorTest.java
    - img
    - pom.xml
    - README.md
  - cdc-parent
    - cdc-agg
      - src
        main
        resources
        cdc-agg-command-spec.json
      - pom.xml
    - pom.xml
    - cdc-common
      - src
        main
        java
        com
        google
        cloud
        dataflow
        cdc
        common
        DataflowCdcRowFormat.java
        DataCatalogSchemaUtils.java
        package-info.java
        SchemaUtils.java
        test
        java
        com
        google
        cloud
        dataflow
        cdc
        common
        SchemaUtilsTest.java
        DataCatalogSchemaUtilsTest.java
      - pom.xml
    - cdc-embedded-connector
      - src
        main
        resources
        gcp_test_password.properties
        simplelogger.properties
        dataflow_cdc.properties
        java
        com
        google
        cloud
        dataflow
        cdc
        connector
        DebeziumSourceRecordToDataflowCdcFormatTranslator.java
        DebeziumToPubSubDataSender.java
        package-info.java
        DebeziumMysqlToPubSubDataSender.java
        PubSubChangeConsumer.java
        App.java
        test
        java
        com
        google
        cloud
        dataflow
        cdc
        connector
        DebeziumMysqlToPubSubDataSenderTest.java
        PubSubChangeconsumerTest.java
        DebeziumSourceRecordToDataflowCdcFormatTranslatorTest.java
      - pom.xml
      - app.yml
    - cdc-change-applier
      - src
        main
        java
        com
        google
        cloud
        dataflow
        cdc
        applier
        BigQueryStatementIssuingFn.java
        CdcPCollectionsFetchers.java
        BigQueryAction.java
        ChangelogTableDynamicDestinations.java
        PubsubUtils.java
        CdcToBigQueryChangeApplierPipeline.java
        package-info.java
        KeySchemasByTableFn.java
        BigQueryChangeApplier.java
        DecodeRows.java
        MergeStatementBuildingFn.java
        BigQuerySchemaUtils.java
        test
        java
        com
        google
        cloud
        dataflow
        cdc
        applier
        ChangelogTableDynamicDestinationsTest.java
        MergeStatementBuildingFnTest.java
        PubSubUtilsTest.java
        BigQueryStatementIssuingFnTest.java
        BigQuerySchemaUtilsTest.java
        BigQueryChangeApplierTest.java
      - pom.xml
    - README.md
  - pubsub-to-elasticsearch
    - src
      - main
        resources
        pubsub-to-elasticsearch-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        package-info.java
        PubSubToElasticsearch.java
      - test
        resources
        PubSubToElasticsearchTest
        transform.js
        java
        com
        google
        cloud
        teleport
        v2
        templates
        PubSubToElasticsearchTest.java
    - pom.xml
    - README.md
  - checkstyle
    - checkstyle.xml
    - suppressions.xml
  - pubsub-to-mongodb
    - src
      - main
        resources
        pubsub-to-mongodb-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        PubSubToMongoDB.java
        package-info.java
      - test
        resources
        PubSubToMongoDBTest
        transform.js
        com
        google
        cloud
        teleport
        v2
        templates
        PubSubToMongoDBTest.java
    - pom.xml
    - README.md
  - bigquery-to-elasticsearch
    - src
      - main
        resources
        bigquery-to-elasticsearch-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        package-info.java
        BigQueryToElasticsearch.java
      - test
        java
        com
        google
        cloud
        teleport
        v2
        templates
        BigQueryToElasticsearchTest.java
    - img
    - pom.xml
    - README.md
  - bigquery-to-parquet
    - src
      - main
        resources
        bigquery-to-parquet-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        package-info.java
        BigQueryToParquet.java
      - test
        java
        com
        google
        cloud
        teleport
        v2
        templates
        BigQueryToParquetTest.java
    - pom.xml
    - README.md
  - pubsub-cdc-to-bigquery
    - src
      - main
        resources
        pubsub-cdc-to-bigquery-command-spec.json
        java
        com
        google
        cloud
        teleport
        v2
        templates
        PubSubCdcToBigQuery.java
        package-info.java
      - test
        resources
        JavascriptTextTransformerTest
        scriptParseException.js
        transform.js
        java
        com
        google
        cloud
        teleport
        v2
        templates
        PubSubCdcToBigQueryTest.java
    - pom.xml
    - README.md
- LICENSE
- CONTRIBUTING.md
- README.md
- cloudbuild.yaml
- .gitignore

/*
 * Copyright (C) 2018 Google Inc.
 *
 * Licensed under the Apache License, Version 2.0 (the "License"); you may not
 * use this file except in compliance with the License. You may obtain a copy of
 * the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
 * WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
 * License for the specific language governing permissions and limitations under
 * the License.
 */

package com.google.cloud.teleport.v2.cdc.mappers;

import com.google.api.services.bigquery.model.TableRow;
import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.FieldList;
import com.google.cloud.bigquery.LegacySQLTypeName;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardTableDefinition;
import com.google.cloud.bigquery.Table;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableInfo;
import com.google.cloud.bigquery.TimePartitioning;
import com.google.common.base.Supplier;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.concurrent.TimeUnit;
import org.apache.beam.sdk.transforms.MapElements;
import org.apache.beam.sdk.transforms.PTransform;
import org.apache.beam.sdk.transforms.SimpleFunction;
import org.apache.beam.sdk.values.PCollection;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * BigQueryMapper is intended to be easily extensible to enable BigQuery schema management during
 * pipeline execution.  New fields and tables will be automatically added to BigQuery when they are
 * detected and before data causes BQ load failures.
 *
 * The BigQueryMapper can be easily extended by overriding: - public TableId getTableId(InputT
 * input) - public TableRow getTableRow(InputT input) - public OutputT getOutputObject(InputT input)
 * - public Map<String, LegacySQLTypeName> getInputSchema(InputT input)
 */
public class BigQueryMapper<InputT, OutputT>
    extends PTransform<PCollection<InputT>, PCollection<OutputT>> {

  private static final Logger LOG = LoggerFactory.getLogger(BigQueryMapper.class);
  private BigQuery bigquery;
  private Map<String, LegacySQLTypeName> defaultSchema;
  private boolean dayPartitioning = false;
  private final String projectId;
  private BigQueryTableRowCleaner bqTableRowCleaner;
  private BigQueryTableCache tableCache;
  private int mapperRetries = 5;

  public BigQueryMapper(String projectId) {
    this.projectId = projectId;
  }

  public TableId getTableId(InputT input) {
    return null;
  }

  public TableRow getTableRow(InputT input) {
    return null;
  }

  public OutputT getOutputObject(InputT input) {
    return null;
  }

  /* Return a HashMap with the Column->Column Type Mapping required from the source
      Implementing getInputSchema will allow the mapper class to support your desired format
  */
  public Map<String, LegacySQLTypeName> getInputSchema(InputT input) {
    return new HashMap<String, LegacySQLTypeName>();
  }

  public void setMapperRetries(int retries) {
    this.mapperRetries = retries;
  }

  public int getMapperRetries() {
    return this.mapperRetries;
  }

  public String getProjectId() {
    return this.projectId;
  }

  public BigQueryMapper<InputT, OutputT> withDefaultSchema(
      Map<String, LegacySQLTypeName> defaultSchema) {
    this.defaultSchema = defaultSchema;
    return this;
  }

  public BigQueryMapper<InputT, OutputT> withDayPartitioning(boolean dayPartitioning) {
    this.dayPartitioning = dayPartitioning;
    return this;
  }

  /* Return the combination of any schema returned via
      implementing getInputSchema (for complex and dynamic cases)
      and submitting a static default schema.
  */
  private Map<String, LegacySQLTypeName> getObjectSchema(InputT input) {
    Map<String, LegacySQLTypeName> inputSchema = getInputSchema(input);
    if (this.defaultSchema != null) {
      inputSchema.putAll(this.defaultSchema);
    }

    return inputSchema;
  }

  /** Sets all objects needed during mapper execution. */
  public void setUp() {
    if (this.bqTableRowCleaner == null) {
      this.bqTableRowCleaner = BigQueryTableRowCleaner.getBigQueryTableRowCleaner();
    }
    if (this.bigquery == null) {
      this.bigquery =
          BigQueryOptions.newBuilder().setProjectId(getProjectId()).build().getService();
    }
    if (this.tableCache == null) {
      this.tableCache = new BigQueryTableCache(this.bigquery);
    }
  }

  @Override
  public PCollection<OutputT> expand(PCollection<InputT> tableKVPCollection) {
    return tableKVPCollection.apply(
        "TableRowExtractDestination",
        MapElements.via(
            new SimpleFunction<InputT, OutputT>() {
              @Override
              public OutputT apply(InputT input) {
                /*
                    We run validation against every event to ensure all columns
                    exist in source.
                    If a column is in the event and not in BigQuery,
                    the column is added to the table before the event can continue.
                */
                setUp();
                TableId tableId = getTableId(input);
                TableRow row = getTableRow(input);
                Map<String, LegacySQLTypeName> inputSchema = getObjectSchema(input);
                int retries = getMapperRetries();

                applyMapperToTableRow(tableId, row, inputSchema, retries);
                return getOutputObject(input);
              }
            }));
  }

  /**
   * Sets the {@code BigQueryTableRowCleaner} used in BigQuery TableRow cleanup.
   *
   * @param cleaner a BigQueryTableRowCleaner object to use in cleanup.
   */
  public void setBigQueryTableRowCleaner(BigQueryTableRowCleaner cleaner) {
    this.bqTableRowCleaner = cleaner;
  }

  /**
   * Returns {@code TableRow} after cleaning each field according to
   * the data type found in BigQuery.
   *
   * @param tableId a TableId referencing the BigQuery table to be loaded to.
   * @param row a TableRow with the raw data to be loaded into BigQuery.
   */
  public TableRow getCleanedTableRow(TableId tableId, TableRow row) {
    TableRow cleanRow = row.clone();

    Table table = this.tableCache.get(tableId);
    FieldList tableFields = table.getDefinition().getSchema().getFields();

    Set<String> rowKeys = cleanRow.keySet();
    for (String rowKey : rowKeys) {
      this.bqTableRowCleaner.cleanTableRowField(cleanRow, tableFields, rowKey);
    }

    return cleanRow;
  }

  /**
   * Extracts and applies new column information to BigQuery by comparing the TableRow against the
   * BigQuery Table. Retries the supplied number of times before failing.
   *
   * @param tableId a TableId referencing the BigQuery table to be loaded to.
   * @param row a TableRow with the raw data to be loaded into BigQuery.
   * @param inputSchema The source schema lookup to be used in mapping.
   * @param retries Number of remaining retries before error is raised.
   */
  private void applyMapperToTableRow(
      TableId tableId, TableRow row, Map<String, LegacySQLTypeName> inputSchema, int retries) {
    try {
      updateTableIfRequired(tableId, row, inputSchema);
    } catch (Exception e) {
      if (retries > 0) {
        LOG.info("RETRY TABLE UPDATE - enter: {}", String.valueOf(retries));
        try {
          Thread.sleep(2000);
        } catch (InterruptedException i) {
          throw e;
        }
        LOG.info("RETRY TABLE UPDATE - apply: {}", String.valueOf(retries));
        applyMapperToTableRow(tableId, row, inputSchema, retries - 1);
      } else {
        LOG.info("RETRY TABLE UPDATE - throw: {}", String.valueOf(retries));
        throw e;
      }
    }
  }

  /**
   * Extracts and applies new column information to BigQuery by comparing the TableRow against the
   * BigQuery Table.
   *
   * @param tableId a TableId referencing the BigQuery table to be loaded to.
   * @param row a TableRow with the raw data to be loaded into BigQuery.
   * @param inputSchema The source schema lookup to be used in mapping.
   */
  private void updateTableIfRequired(
      TableId tableId, TableRow row, Map<String, LegacySQLTypeName> inputSchema) {
    Table table = getOrCreateBigQueryTable(tableId);
    FieldList tableFields = table.getDefinition().getSchema().getFields();

    Set<String> rowKeys = row.keySet();
    Boolean tableWasUpdated = false;
    List<Field> newFieldList = new ArrayList<Field>();
    for (String rowKey : rowKeys) {
      // Check if rowKey (column from data) is in the BQ Table
      try {
        Field tableField = tableFields.get(rowKey);
      } catch (IllegalArgumentException e) {
        tableWasUpdated = addNewTableField(tableId, row, rowKey, newFieldList, inputSchema);
      }
    }

    if (tableWasUpdated) {
      LOG.info("Updating Table");
      updateBigQueryTable(tableId, table, tableFields, newFieldList);
    }
  }

  /**
   * Returns {@code Table} which was either extracted from the cache or created.
   *
   * @param tableId a TableId referencing the BigQuery table being requested.
   */
  private Table getOrCreateBigQueryTable(TableId tableId) {
    Table table = this.tableCache.get(tableId);

    // Check that table exists, if not create empty table
    // the empty table will have columns automapped during updateBigQueryTable()
    if (table == null) {
      LOG.info("Creating Table: {}", tableId.toString());
      table = createBigQueryTable(tableId);
      table = this.tableCache.reset(tableId);
    }

    return table;
  }

  /**
   * Returns {@code Table} after creating the table with no columns in BigQuery.
   *
   * @param tableId a TableId referencing the BigQuery table being requested.
   */
  private Table createBigQueryTable(TableId tableId) {
    // Create Blank BigQuery Table
    List<Field> fieldList = new ArrayList<Field>();
    Schema schema = Schema.of(fieldList);

    StandardTableDefinition.Builder tableDefinitionBuilder =
        StandardTableDefinition.newBuilder().setSchema(schema);
    if (dayPartitioning) {
      tableDefinitionBuilder.setTimePartitioning(
          TimePartitioning.newBuilder(TimePartitioning.Type.DAY).build());
    }
    TableInfo tableInfo = TableInfo.newBuilder(tableId, tableDefinitionBuilder.build()).build();
    Table table = bigquery.create(tableInfo);

    return table;
  }

  /* Update BigQuery Table Object Supplied */
  private void updateBigQueryTable(
      TableId tableId, Table table, FieldList tableFields, List<Field> newFieldList) {
    // Table Name to Use for Cache
    String tableName = tableId.toString();

    // Add all current columns to the list
    List<Field> fieldList = new ArrayList<Field>();
    for (Field field : tableFields) {
      fieldList.add(field);
    }
    // Add all new columns to the list
    // TODO use guava to use joiner on multi-thread multi line logging
    LOG.info(tableName);
    LOG.info("Mapping New Columns:");
    for (Field field : newFieldList) {
      fieldList.add(field);
      LOG.info(field.toString());
    }

    Schema newSchema = Schema.of(fieldList);
    Table updatedTable =
        table.toBuilder().setDefinition(StandardTableDefinition.of(newSchema)).build().update();
    LOG.info("Updated Table");

    this.tableCache.reset(tableId);
  }

  private Boolean addNewTableField(TableId tableId, TableRow row, String rowKey,
      List<Field> newFieldList, Map<String, LegacySQLTypeName> inputSchema) {
    // Call Get Schema and Extract New Field Type
    Field newField;

    if (inputSchema.containsKey(rowKey)) {
      newField = Field.of(rowKey, inputSchema.get(rowKey));
    } else {
      newField = Field.of(rowKey, LegacySQLTypeName.STRING);
    }

    newFieldList.add(newField);

    // Currently we always add new fields for each call
    // TODO: add an option to ignore new field and why boolean?
    return true;
  }

  /**
   * The {@link BigQueryTableCache} manages safely getting and setting BigQuery Table objects from a
   * local cache for each worker thread.
   *
   * <p>The key factors addressed are ensuring expiration of cached tables, consistent update
   * behavior to ensure reliabillity, and easy cache reloads. Open Question: Does the class require
   * thread-safe behaviors? Currently it does not since there is no iteration and get/set are not
   * continuous.
   */
  public static class BigQueryTableCache {

    private Map<String, TableSupplier> tables = new HashMap<String, TableSupplier>();
    private BigQuery bigquery;

    /**
     * Create an instance of a {@link BigQueryTableCache} to track table schemas.
     *
     * @param bigquery A BigQuery instance used to extract Table objects.
     */
    public BigQueryTableCache(BigQuery bigquery) {
      this.bigquery = bigquery;
    }

    /**
     * Return a {@code Table} representing the schema of a BigQuery table.
     *
     * @param tableId A BigQuuery table reference used as the key to lookup.
     */
    public Table get(TableId tableId) {
      String tableName = tableId.toString();
      TableSupplier tableSupplier = tables.get(tableName);

      // Reset cache if the table DNE in the map
      // or if ther cache has expired.
      if (tableSupplier == null) {
        return this.reset(tableId);
      } else if (tableSupplier.get() == null) {
        return this.reset(tableId);
      } else {
        return tableSupplier.get();
      }
    }

    /**
     * Returns a {@code Table} pulled from BigQuery and sets the table in the local cache.
     *
     * @param tableId a TableId referencing the BigQuery table to be reset.
     */
    public Table reset(TableId tableId) {
      String tableName = tableId.toString();
      Table table = this.bigquery.getTable(tableId);
      LOG.info("Reset Table from API: {}", tableName);

      TableSupplier tableSupplier = new TableSupplier(table, 5, TimeUnit.MINUTES);
      tables.put(tableName, tableSupplier);
      return table;
    }

    /**
     * The {@link TableSupplier} is a Supplier to help manage BQ Tables. The Table is stored as well
     * as expiry time to enable cache expiry after a given amount of time.
     */
    public static class TableSupplier implements Supplier<Table> {
      Table table;
      long expiryTimeNano;

      public TableSupplier(Table table, long duration, TimeUnit unit) {
        this.table = table;
        this.expiryTimeNano = System.nanoTime() + unit.toNanos(duration);
      }

      @Override
      public Table get() {
        if (this.expiryTimeNano < System.nanoTime()) {
          return null;
        }
        return this.table;
      }
    }
  }
}