java source code of HDFSParquetImporter

hudi-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - ISSUE_TEMPLATE
    - SUPPORT_REQUEST.md
    - config.yml
- .asf.yaml
- style
  - scalastyle.xml
  - checkstyle.xml
  - checkstyle-suppressions.xml
- hudi-hive-sync
  - src
    - main
      - java
        org
        apache
        hudi
        hive
        SchemaDifference.java
        HiveSyncTool.java
        PartitionValueExtractor.java
        MultiPartKeysValueExtractor.java
        util
        ColumnNameXLator.java
        HiveSchemaUtil.java
        HoodieHiveClient.java
        NonPartitionedExtractor.java
        SlashEncodedDayPartitionValueExtractor.java
        HoodieHiveSyncException.java
        HiveSyncConfig.java
    - test
      - resources
        log4j-surefire.properties
        log4j-surefire-quiet.properties
      - java
        org
        apache
        hudi
        hive
        testutils
        HiveTestUtil.java
        HiveTestService.java
        TestHiveSyncTool.java
    - assembly
      - src.xml
  - run_sync_tool.sh
  - pom.xml
- hudi-spark
  - src
    - main
      - resources
        META-INF
        services
        org.apache.spark.sql.sources.DataSourceRegister
      - scala
        org
        apache
        hudi
        AvroConversionHelper.scala
        AvroConversionUtils.scala
        package.scala
        HudiEmptyRelation.scala
        DataSourceOptions.scala
        DefaultSource.scala
        IncrementalRelation.scala
        HoodieStreamingSink.scala
        HoodieSparkSqlWriter.scala
      - java
        org
        apache
        hudi
        DataSourceUtils.java
        QuickstartUtils.java
        HoodieDataSourceHelpers.java
        keygen
        SimpleKeyGenerator.java
        NonpartitionedKeyGenerator.java
        ComplexKeyGenerator.java
        GlobalDeleteKeyGenerator.java
        KeyGenerator.java
        payload
        AWSDmsAvroPayload.java
    - test
      - resources
        log4j-surefire.properties
        log4j-surefire-quiet.properties
      - scala
        org
        apache
        hudi
        functional
        HoodieSparkSqlWriterSuite.scala
        TestDataSource.scala
        TestDataSourceDefaults.scala
      - java
        HoodieJavaApp.java
        org
        apache
        hudi
        testutils
        DataSourceTestUtils.java
        TestDataSourceUtils.java
        HoodieJavaStreamingApp.java
  - run_hoodie_app.sh
  - pom.xml
- pom.xml
- LICENSE
- hudi-common
  - src
    - main
      - avro
        HoodieRestoreMetadata.avsc
        HoodieCleanMetadata.avsc
        HoodieSavePointMetadata.avsc
        HoodieCommitMetadata.avsc
        HoodieRollbackMetadata.avsc
        HoodieCompactionOperation.avsc
        HoodieCleanerPlan.avsc
        HoodieCompactionMetadata.avsc
        HoodieArchivedMetaEntry.avsc
      - java
        org
        apache
        hudi
        avro
        HoodieAvroUtils.java
        HoodieAvroWriteSupport.java
        MercifulJsonConverter.java
        common
        HoodieJsonPayload.java
        HoodieRollbackStat.java
        fs
        ConsistencyGuard.java
        SizeAwareDataOutputStream.java
        NoOpConsistencyGuard.java
        SizeAwareFSDataOutputStream.java
        ConsistencyGuardConfig.java
        inline
        InLineFileSystem.java
        InLineFSUtils.java
        InLineFsDataInputStream.java
        InMemoryFileSystem.java
        StorageSchemes.java
        FSUtils.java
        FailSafeConsistencyGuard.java
        SizeAwareDataInputStream.java
        HoodieWrapperFileSystem.java
        table
        HoodieTableMetaClient.java
        TableSchemaResolver.java
        timeline
        dto
        FileGroupDTO.java
        FilePathDTO.java
        CompactionOpDTO.java
        LogFileDTO.java
        FSPermissionDTO.java
        TimelineDTO.java
        InstantDTO.java
        FileSliceDTO.java
        BaseFileDTO.java
        FileStatusDTO.java
        TimelineDiffHelper.java
        HoodieDefaultTimeline.java
        TimelineMetadataUtils.java
        HoodieTimeline.java
        HoodieArchivedTimeline.java
        HoodieActiveTimeline.java
        versioning
        VersionMigrator.java
        TimelineLayoutVersion.java
        clean
        CleanMetadataMigrator.java
        CleanV2MigrationHandler.java
        CleanV1MigrationHandler.java
        compaction
        CompactionPlanMigrator.java
        CompactionV1MigrationHandler.java
        CompactionV2MigrationHandler.java
        MetadataMigrator.java
        AbstractMigratorBase.java
        TimelineLayout.java
        HoodieInstant.java
        log
        AbstractHoodieLogRecordScanner.java
        HoodieLogFileReader.java
        LogReaderUtils.java
        HoodieLogFormatReader.java
        HoodieLogFormatVersion.java
        block
        HoodieAvroDataBlockVersion.java
        HoodieAvroDataBlock.java
        HoodieLogBlock.java
        HoodieDeleteBlock.java
        HoodieDataBlock.java
        HoodieDeleteBlockVersion.java
        HoodieCorruptBlock.java
        HoodieCommandBlock.java
        HoodieLogBlockVersion.java
        HoodieCommandBlockVersion.java
        HoodieLogFormatWriter.java
        HoodieUnMergedLogRecordScanner.java
        HoodieLogFormat.java
        HoodieMergedLogRecordScanner.java
        HoodieTableConfig.java
        view
        AbstractTableFileSystemView.java
        PriorityBasedFileSystemView.java
        FileSystemViewStorageConfig.java
        FileSystemViewManager.java
        FileSystemViewStorageType.java
        SpillableMapBasedFileSystemView.java
        RemoteHoodieTableFileSystemView.java
        IncrementalTimelineSyncFileSystemView.java
        HoodieTableFileSystemView.java
        SyncableFileSystemView.java
        RocksDbBasedFileSystemView.java
        TableFileSystemView.java
        util
        ParquetUtils.java
        CleanerUtils.java
        CompactionUtils.java
        SpillableMapUtils.java
        NumericUtils.java
        ObjectSizeCalculator.java
        ReflectionUtils.java
        Functions.java
        NetworkUtils.java
        collection
        ExternalSpillableMap.java
        ImmutableTriple.java
        RocksDBDAO.java
        LazyFileIterable.java
        RocksDBBasedMap.java
        Triple.java
        DiskBasedMap.java
        Pair.java
        ImmutablePair.java
        ArrayUtils.java
        Option.java
        SerializationUtils.java
        HoodieTimer.java
        DefaultSizeEstimator.java
        SizeEstimator.java
        ValidationUtils.java
        Base64CodecUtil.java
        RocksDBSchemaHelper.java
        BufferedRandomAccessFile.java
        HoodieRecordSizeEstimator.java
        FileIOUtils.java
        CollectionUtils.java
        StringUtils.java
        queue
        IteratorBasedQueueProducer.java
        BoundedInMemoryQueue.java
        BoundedInMemoryExecutor.java
        BoundedInMemoryQueueConsumer.java
        BoundedInMemoryQueueProducer.java
        FunctionBasedQueueProducer.java
        ParquetReaderIterator.java
        bloom
        BloomFilter.java
        BloomFilterFactory.java
        InternalDynamicBloomFilter.java
        HoodieDynamicBoundedBloomFilter.java
        BloomFilterUtils.java
        InternalFilter.java
        SimpleBloomFilter.java
        BloomFilterTypeCode.java
        HoodieCleanStat.java
        config
        DFSPropertiesConfiguration.java
        TypedProperties.java
        SerializableConfiguration.java
        DefaultHoodieConfig.java
        model
        HoodieRollingStatMetadata.java
        HoodieRecordLocation.java
        ActionType.java
        HoodieDeltaWriteStat.java
        FileSlice.java
        HoodieFileFormat.java
        HoodieBaseFile.java
        HoodieCommitMetadata.java
        OverwriteWithLatestAvroPayload.java
        CompactionOperation.java
        HoodieLogFile.java
        HoodiePartitionMetadata.java
        HoodieRollingStat.java
        BaseAvroPayload.java
        HoodieKey.java
        HoodieRecordPayload.java
        HoodieArchivedLogFile.java
        WriteOperationType.java
        HoodieRecord.java
        EmptyHoodieRecordPayload.java
        HoodieFileGroup.java
        HoodieAvroPayload.java
        HoodieFileGroupId.java
        HoodieCleaningPolicy.java
        HoodieTableType.java
        HoodieWriteStat.java
        exception
        HoodieIndexException.java
        InvalidTableException.java
        TableNotFoundException.java
        HoodieCorruptedDataException.java
        MetadataNotFoundException.java
        CorruptedLogFileException.java
        HoodieSerializationException.java
        SchemaCompatabilityException.java
        HoodieRecordMissingException.java
        HoodieIOException.java
        HoodieNotSupportedException.java
        HoodieException.java
        InvalidHoodiePathException.java
        HoodieKeyException.java
        HoodieRemoteException.java
        io
        storage
        HoodieFileReaderFactory.java
        HoodieParquetReader.java
        HoodieFileReader.java
    - test
      - resources
        sample.data
        log4j-surefire.properties
        old-version.commit
        simple-test-evolved.avsc
        log4j-surefire-quiet.properties
        complex-test-evolved.avsc
        timestamp-test-evolved.avsc
        simple-test.avsc
      - java
        org
        apache
        hudi
        avro
        TestHoodieAvroUtils.java
        TestHoodieAvroWriteSupport.java
        common
        testutils
        HoodieTestUtils.java
        NetworkTestUtils.java
        SchemaTestUtil.java
        minicluster
        HdfsTestService.java
        MiniClusterUtil.java
        ZookeeperTestService.java
        HoodieCommonTestHarness.java
        FileSystemTestUtils.java
        SampleTestRecord.java
        AvroBinaryTestPayload.java
        CompactionTestUtils.java
        MockHoodieTimeline.java
        SpillableMapTestUtils.java
        fs
        TestFSUtils.java
        TestStorageSchemes.java
        inline
        TestInLineFileSystemHFileInLining.java
        TestInMemoryFileSystem.java
        TestInLineFileSystem.java
        functional
        TestHoodieLogFormat.java
        TestHoodieLogFormatAppendFailure.java
        TestHoodieAvroLogFormat.java
        table
        timeline
        TestHoodieActiveTimeline.java
        TestTimelineLayout.java
        log
        TestHoodieLogFormatVersion.java
        TestHoodieTableMetaClient.java
        view
        TestHoodieTableFileSystemView.java
        TestPriorityBasedFileSystemView.java
        TestRocksDbBasedFileSystemView.java
        TestSpillableMapBasedIncrementalFSViewSync.java
        TestSpillableMapBasedFileSystemView.java
        TestIncrementalFSViewSync.java
        TestRocksDBBasedIncrementalFSViewSync.java
        util
        TestCompactionUtils.java
        TestDFSPropertiesConfiguration.java
        TestParquetUtils.java
        TestSerializationUtils.java
        TestFileIOUtils.java
        TestNumericUtils.java
        TestStringUtils.java
        collection
        TestDiskBasedMap.java
        TestRocksDBDAO.java
        TestRocksDbBasedMap.java
        TestExternalSpillableMap.java
        TestBase64CodecUtil.java
        TestParquetReaderIterator.java
        bloom
        TestBloomFilter.java
        TestInternalDynamicBloomFilter.java
        model
        TestHoodieRecord.java
        TestHoodieWriteStat.java
        TestHoodieCommitMetadata.java
        io
        storage
        TestHoodieFileReaderFactory.java
  - pom.xml
- hudi-utilities
  - src
    - main
      - java
        org
        apache
        hudi
        utilities
        adhoc
        UpgradePayloadFromUberToApache.java
        sources
        Source.java
        JsonKafkaSource.java
        ParquetDFSSource.java
        JsonDFSSource.java
        helpers
        DFSPathSelector.java
        AvroConvertor.java
        KafkaOffsetGen.java
        IncrSourceHelper.java
        AvroDFSSource.java
        HiveIncrPullSource.java
        InputBatch.java
        AvroSource.java
        AvroKafkaSource.java
        RowSource.java
        HoodieIncrSource.java
        CsvDFSSource.java
        JsonSource.java
        HoodieSnapshotExporter.java
        checkpointing
        KafkaConnectHdfsProvider.java
        InitialCheckPointProvider.java
        UtilHelpers.java
        deltastreamer
        SourceFormatAdapter.java
        Compactor.java
        SchedulerConfGenerator.java
        HoodieDeltaStreamer.java
        HoodieDeltaStreamerMetrics.java
        DeltaSync.java
        HoodieMultiTableDeltaStreamer.java
        TableExecutionContext.java
        HoodieWithTimelineServer.java
        exception
        HoodieDeltaStreamerException.java
        HoodieIncrementalPullSQLException.java
        HoodieSnapshotExporterException.java
        HoodieIncrementalPullException.java
        HoodieCleaner.java
        HoodieCompactor.java
        HiveIncrementalPuller.java
        keygen
        TimestampBasedKeyGenerator.java
        HoodieCompactionAdminTool.java
        HoodieSnapshotCopier.java
        perf
        TimelineServerPerf.java
        HDFSParquetImporter.java
        schema
        SchemaProvider.java
        JdbcbasedSchemaProvider.java
        SchemaRegistryProvider.java
        RowBasedSchemaProvider.java
        NullTargetSchemaRegistryProvider.java
        DelegatingSchemaProvider.java
        FilebasedSchemaProvider.java
        transform
        SqlQueryBasedTransformer.java
        FlatteningTransformer.java
        ChainedTransformer.java
        AWSDmsTransformer.java
        Transformer.java
    - test
      - resources
        log4j-surefire.properties
        delta-streamer-config
        target.avsc
        triprec.sql
        sql-transformer.properties
        kafka-source.properties
        target-flattened.avsc
        uber_config.properties
        target_uber.avsc
        short_trip_uber_config.properties
        source_short_trip_uber.avsc
        source-jdbc.avsc
        source-flattened.avsc
        dfs-source.properties
        base.properties
        target_short_trip_uber.avsc
        invalid_hive_sync_uber_config.properties
        source.avsc
        source_uber.avsc
        log4j-surefire-quiet.properties
        IncrementalPull.sqltemplate
      - java
        org
        apache
        hudi
        utilities
        testutils
        sources
        AbstractBaseTestSource.java
        DistributedTestDataSource.java
        config
        SourceConfigs.java
        AbstractDFSSourceTestBase.java
        UtilitiesTestBase.java
        functional
        TestHoodieSnapshotExporter.java
        TestHoodieDeltaStreamer.java
        TestAWSDatabaseMigrationServiceSource.java
        TestHoodieSnapshotCopier.java
        TestJdbcbasedSchemaProvider.java
        TestHDFSParquetImporter.java
        TestHoodieMultiTableDeltaStreamer.java
        sources
        TestKafkaSource.java
        TestCsvDFSSource.java
        TestInputBatch.java
        TestParquetDFSSource.java
        TestDataSource.java
        TestJsonDFSSource.java
        checkpointing
        TestKafkaConnectHdfsProvider.java
        deltastreamer
        TestSchedulerConfGenerator.java
        TestHiveIncrementalPuller.java
        inline
        fs
        TestParquetInLining.java
        keygen
        TestTimestampBasedKeyGenerator.java
        TestUtilHelpers.java
        transform
        TestFlatteningTransformer.java
        TestChainedTransformer.java
  - pom.xml
- hudi-cli
  - src
    - main
      - resources
        META-INF
        spring
        spring-shell-plugin.xml
      - scala
        org
        apache
        hudi
        cli
        DedupeSparkJob.scala
        SparkHelpers.scala
      - java
        org
        apache
        hudi
        cli
        HoodiePrompt.java
        utils
        CommitUtil.java
        TempViewProvider.java
        InputStreamConsumer.java
        SparkTempViewProvider.java
        HiveUtil.java
        SparkUtil.java
        HoodieHistoryFileNameProvider.java
        commands
        SparkEnvCommand.java
        HoodieSyncCommand.java
        ArchivedCommitsCommand.java
        RepairsCommand.java
        CommitsCommand.java
        CompactionCommand.java
        TableCommand.java
        SavepointsCommand.java
        SparkMain.java
        HoodieLogFileCommand.java
        TempViewCommand.java
        RollbacksCommand.java
        UtilsCommand.java
        HDFSParquetImportCommand.java
        ExportCommand.java
        FileSystemViewCommand.java
        StatsCommand.java
        CleansCommand.java
        HoodieSplashScreen.java
        Main.java
        HoodieCliSparkConfig.java
        HoodieTableHeaderFields.java
        HoodiePrintHelper.java
        Table.java
        HoodieCLI.java
        TableHeader.java
    - test
      - resources
        log4j-surefire.properties
        table-config.properties
        log4j-surefire-quiet.properties
        clean.properties
      - java
        org
        apache
        hudi
        cli
        testutils
        AbstractShellIntegrationTest.java
        HoodieTestCommitUtilities.java
        HoodieTestCommitMetadataGenerator.java
        commands
        TestSavepointsCommand.java
        TestArchivedCommitsCommand.java
        TestSparkEnvCommand.java
        TestFileSystemViewCommand.java
        TestUtilsCommand.java
        TestTableCommand.java
        TestCleansCommand.java
        TestCommitsCommand.java
        TestRepairsCommand.java
        TestStatsCommand.java
        TestHoodieLogFileCommand.java
        TestRollbacksCommand.java
        integ
        ITTestRepairsCommand.java
        ITTestCommitsCommand.java
        ITTestSavepointsCommand.java
        ITTestHDFSParquetImportCommand.java
  - hudi-cli.sh
  - pom.xml
  - conf
    - hudi-env.sh
- docker
  - demo
    - hive-batch2-after-compaction.commands
    - hive-table-check.commands
    - sparksql-batch2.commands
    - hive-incremental-mor-rt.commands
    - hive-incremental-mor-ro.commands
    - sparksql-batch1.commands
    - presto-batch2-after-compaction.commands
    - compaction.commands
    - hive-batch1.commands
    - presto-batch1.commands
    - config
      - kafka-source.properties
      - spark-defaults.conf
      - dfs-source.properties
      - base.properties
      - schema.avsc
    - setup_demo_container.sh
    - data
    - hive-incremental-cow.commands
    - presto-table-check.commands
    - sparksql-incremental.commands
    - get_min_commit_time_cow.sh
    - get_min_commit_time_mor.sh
  - build_local_docker_images.sh
  - hoodie
    - hadoop
      - hive_base
        entrypoint.sh
        pom.xml
        startup.sh
        Dockerfile
        conf
        hive-log4j2.properties
        hive-site.xml
        beeline-log4j2.properties
        hive-exec-log4j2.properties
        llap-daemon-log4j2.properties
        ivysettings.xml
        hive-env.sh
      - pom.xml
      - base
        entrypoint.sh
        pom.xml
        export_container_ip.sh
        Dockerfile
      - prestobase
        pom.xml
        lib
        mustache.sh
        bin
        mustache.sh
        entrypoint.sh
        Dockerfile
        etc
        worker.properties.mustache
        catalog
        localfile.properties
        jmx.properties
        hive.properties
        jvm.config.mustache
        log.properties
        coordinator.properties.mustache
        node.properties.mustache
      - sparkadhoc
        pom.xml
        adhoc.sh
        Dockerfile
      - historyserver
        pom.xml
        run_history.sh
        Dockerfile
      - sparkmaster
        master.sh
        pom.xml
        Dockerfile
      - namenode
        run_nn.sh
        pom.xml
        Dockerfile
      - sparkworker
        pom.xml
        worker.sh
        Dockerfile
      - spark_base
        pom.xml
        finish-step.sh
        execute-step.sh
        wait-for-step.sh
        Dockerfile
      - datanode
        pom.xml
        run_dn.sh
        Dockerfile
  - compose
    - docker-compose_hadoop284_hive233_spark244.yml
    - hadoop.env
  - setup_demo.sh
  - stop_demo.sh
- doap_HUDI.rdf
- hudi-integ-test
  - src
    - test
      - resources
        log4j-surefire.properties
        log4j-surefire-quiet.properties
      - java
        org
        apache
        hudi
        integ
        ITTestHoodieDemo.java
        ITTestHoodieSanity.java
        ITTestBase.java
  - pom.xml
- hudi-client
  - src
    - main
      - resources
        log4j.properties
      - java
        org
        apache
        hudi
        index
        simple
        HoodieGlobalSimpleIndex.java
        HoodieSimpleIndex.java
        hbase
        HBaseIndex.java
        HBaseIndexQPSResourceAllocator.java
        DefaultHBaseQPSResourceAllocator.java
        HoodieIndexUtils.java
        bloom
        IntervalTreeBasedIndexFileFilter.java
        HoodieGlobalBloomIndex.java
        ListBasedGlobalIndexFileFilter.java
        HoodieBloomIndex.java
        IndexFileFilter.java
        KeyRangeLookupTree.java
        IntervalTreeBasedGlobalIndexFileFilter.java
        ListBasedIndexFileFilter.java
        BloomIndexFileInfo.java
        KeyRangeNode.java
        HoodieBloomIndexCheckFunction.java
        BucketizedBloomCheckPartitioner.java
        HoodieIndex.java
        InMemoryHashIndex.java
        client
        CompactionAdminClient.java
        utils
        ClientUtils.java
        SparkConfigUtils.java
        LazyIterableIterator.java
        HoodieWriteClient.java
        AbstractHoodieClient.java
        WriteStatus.java
        AsyncCleanerService.java
        SparkTaskContextSupplier.java
        AbstractHoodieWriteClient.java
        HoodieReadClient.java
        embedded
        EmbeddedTimelineService.java
        table
        UserDefinedBulkInsertPartitioner.java
        HoodieTimelineArchiveLog.java
        HoodieCopyOnWriteTable.java
        WorkloadStat.java
        action
        rollback
        RollbackHelper.java
        MergeOnReadRollbackActionExecutor.java
        BaseRollbackActionExecutor.java
        CopyOnWriteRollbackActionExecutor.java
        RollbackRequest.java
        clean
        CleanActionExecutor.java
        PartitionCleanStat.java
        CleanPlanner.java
        compact
        RunCompactionActionExecutor.java
        ScheduleCompactionActionExecutor.java
        CompactHelpers.java
        HoodieCompactor.java
        HoodieMergeOnReadTableCompactor.java
        OperationResult.java
        strategy
        BoundedIOCompactionStrategy.java
        UnBoundedCompactionStrategy.java
        CompactionStrategy.java
        LogFileSizeBasedCompactionStrategy.java
        UnBoundedPartitionAwareCompactionStrategy.java
        BoundedPartitionAwareCompactionStrategy.java
        DayBasedCompactionStrategy.java
        commit
        InsertPreppedCommitActionExecutor.java
        BucketType.java
        DeleteCommitActionExecutor.java
        BucketInfo.java
        BulkInsertCommitActionExecutor.java
        WriteHelper.java
        BaseCommitActionExecutor.java
        UpsertPartitioner.java
        InsertCommitActionExecutor.java
        DeleteHelper.java
        CommitActionExecutor.java
        BulkInsertPreppedCommitActionExecutor.java
        UpsertCommitActionExecutor.java
        InsertBucket.java
        SmallFile.java
        BulkInsertHelper.java
        UpsertPreppedCommitActionExecutor.java
        restore
        CopyOnWriteRestoreActionExecutor.java
        BaseRestoreActionExecutor.java
        MergeOnReadRestoreActionExecutor.java
        savepoint
        SavepointHelpers.java
        SavepointActionExecutor.java
        HoodieWriteMetadata.java
        BaseActionExecutor.java
        deltacommit
        UpsertPreppedDeltaCommitActionExecutor.java
        DeltaCommitActionExecutor.java
        UpsertDeltaCommitPartitioner.java
        UpsertDeltaCommitActionExecutor.java
        BulkInsertDeltaCommitActionExecutor.java
        DeleteDeltaCommitActionExecutor.java
        InsertDeltaCommitActionExecutor.java
        BulkInsertPreppedDeltaCommitActionExecutor.java
        InsertPreppedDeltaCommitActionExecutor.java
        HoodieMergeOnReadTable.java
        HoodieTable.java
        WorkloadProfile.java
        config
        HoodieStorageConfig.java
        HoodieMetricsConfig.java
        HoodieMemoryConfig.java
        HoodieCompactionConfig.java
        HoodieHBaseIndexConfig.java
        HoodieMetricsDatadogConfig.java
        HoodieWriteConfig.java
        HoodieIndexConfig.java
        exception
        HoodieAppendException.java
        HoodieInsertException.java
        HoodieRestoreException.java
        HoodieSavepointException.java
        HoodieUpsertException.java
        HoodieCompactionException.java
        HoodieRollbackException.java
        HoodieDependentSystemUnavailableException.java
        HoodieCommitException.java
        execution
        BulkInsertMapFunction.java
        LazyInsertIterable.java
        SparkBoundedInMemoryExecutor.java
        io
        WriteHandleFactory.java
        storage
        HoodieFileWriterFactory.java
        HoodieParquetWriter.java
        HoodieFileWriter.java
        HoodieParquetConfig.java
        HoodieIOHandle.java
        HoodieCreateHandle.java
        HoodieKeyLocationFetchHandle.java
        AppendHandleFactory.java
        HoodieAppendHandle.java
        HoodieWriteHandle.java
        HoodieRangeInfoHandle.java
        HoodieKeyLookupHandle.java
        HoodieReadHandle.java
        HoodieMergeHandle.java
        CreateHandleFactory.java
        metrics
        JmxMetricsReporter.java
        HoodieMetrics.java
        JmxReporterServer.java
        MetricsReporterFactory.java
        datadog
        DatadogMetricsReporter.java
        DatadogHttpClient.java
        DatadogReporter.java
        MetricsGraphiteReporter.java
        Metrics.java
        InMemoryMetricsReporter.java
        MetricsReporter.java
        MetricsReporterType.java
        async
        AbstractAsyncService.java
    - test
      - resources
        log4j-surefire.properties
        log4j-surefire-quiet.properties
        exampleEvolvedSchema.txt
        exampleSchema.txt
      - java
        org
        apache
        hudi
        testutils
        HoodieMergeOnReadTestUtils.java
        HoodieTestDataGenerator.java
        HoodieClientTestBase.java
        HoodieClientTestUtils.java
        TestRawTripPayload.java
        HoodieClientTestHarness.java
        index
        hbase
        TestHBaseQPSResourceAllocator.java
        TestHBaseIndex.java
        bloom
        TestBucketizedBloomCheckPartitioner.java
        TestHoodieBloomIndex.java
        TestKeyRangeLookupTree.java
        TestHoodieGlobalBloomIndex.java
        TestHoodieIndex.java
        client
        TestHoodieReadClient.java
        utils
        TestSparkConfigUtils.java
        TestClientRollback.java
        TestHoodieClientOnCopyOnWriteStorage.java
        TestCompactionAdminClient.java
        TestMultiFS.java
        TestWriteStatus.java
        TestUpdateSchemaEvolution.java
        TestTableSchemaEvolution.java
        table
        action
        compact
        TestAsyncCompaction.java
        TestHoodieCompactor.java
        strategy
        TestHoodieCompactionStrategy.java
        commit
        TestUpsertPartitioner.java
        TestCopyOnWriteActionExecutor.java
        TestCleaner.java
        TestConsistencyGuard.java
        TestHoodieMergeOnReadTable.java
        config
        TestHoodieWriteConfig.java
        execution
        TestSparkBoundedInMemoryExecutor.java
        TestBoundedInMemoryQueue.java
        io
        storage
        TestHoodieFileWriterFactory.java
        TestHoodieKeyLocationFetchHandle.java
        TestHoodieCommitArchiveLog.java
        TestHoodieMergeHandle.java
        metrics
        TestHoodieJmxMetrics.java
        TestMetricsReporterFactory.java
        TestHoodieMetrics.java
        datadog
        TestDatadogReporter.java
        TestDatadogHttpClient.java
        TestDatadogMetricsReporter.java
  - pom.xml
- hudi-timeline-service
  - src
    - main
      - java
        org
        apache
        hudi
        timeline
        service
        handlers
        Handler.java
        TimelineHandler.java
        FileSliceHandler.java
        BaseFileHandler.java
        TimelineService.java
        FileSystemViewHandler.java
    - test
      - resources
        log4j-surefire.properties
        log4j-surefire-quiet.properties
      - java
        org
        apache
        hudi
        timeline
        service
        functional
        TestRemoteHoodieTableFileSystemView.java
  - pom.xml
- .travis.yml
- README.md
- scripts
  - release
    - deploy_staging_jars.sh
    - generate_notice.sh
    - cut_release_branch.sh
    - generate_jar_path.py
    - create_source_release.sh
    - validate_staged_release.sh
    - preparation_before_release.sh
  - run_travis_tests.sh
  - report_coverage.sh
- hudi-hadoop-mr
  - src
    - main
      - java
        com
        uber
        hoodie
        hadoop
        HoodieInputFormat.java
        realtime
        HoodieRealtimeInputFormat.java
        org
        apache
        hudi
        hadoop
        RecordReaderValueIterator.java
        utils
        HoodieHiveUtils.java
        HoodieRealtimeRecordReaderUtils.java
        HoodieRealtimeInputFormatUtils.java
        HoodieInputFormatUtils.java
        realtime
        HoodieRealtimeFileSplit.java
        HoodieParquetRealtimeInputFormat.java
        HoodieParquetSerde.java
        RealtimeCompactedRecordReader.java
        HoodieCombineRealtimeRecordReader.java
        AbstractRealtimeRecordReader.java
        HoodieRealtimeRecordReader.java
        RealtimeUnmergedRecordReader.java
        UseRecordReaderFromInputFormat.java
        config
        HoodieRealtimeConfig.java
        UseFileSplitsFromInputFormat.java
        hive
        HoodieCombineHiveInputFormat.java
        HoodieCombineRealtimeHiveSplit.java
        HoodieCombineRealtimeFileSplit.java
        SafeParquetRecordReaderWrapper.java
        HoodieROTablePathFilter.java
        HoodieParquetInputFormat.java
        InputPathHandler.java
    - test
      - resources
        log4j-surefire.properties
        sample1.avsc
        log4j-surefire-quiet.properties
      - java
        org
        apache
        hudi
        hadoop
        testutils
        InputFormatTestUtil.java
        TestInputPathHandler.java
        TestRecordReaderValueIterator.java
        functional
        TestHoodieCombineHiveInputFormat.java
        TestHoodieParquetInputFormat.java
        realtime
        TestHoodieRealtimeFileSplit.java
        TestHoodieRealtimeRecordReader.java
        TestHoodieROTablePathFilter.java
        TestAnnotation.java
  - pom.xml
- hudi-examples
  - src
    - main
      - resources
        delta-streamer-config
        kafka
        kafka-source.properties
        dfs
        source-file.json
      - scala
        org
        apache
        hudi
        examples
        spark
        HoodieDataSourceExample.scala
      - java
        org
        apache
        hudi
        examples
        common
        HoodieExampleSparkUtils.java
        ExampleDataSchemaProvider.java
        HoodieExampleDataGenerator.java
        IdentityTransformer.java
        RandomJsonSource.java
        spark
        HoodieWriteClientExample.java
  - pom.xml
  - README.md
  - bin
    - hudi-delta-streamer
    - kafka-delta-streamer-example.sh
    - custom-delta-streamer-example.sh
    - dfs-delta-streamer-example.sh
- .codecov.yml
- packaging
  - hudi-hadoop-mr-bundle
    - src
      - main
        java
        org
        apache
        hudi
        hadoop
        bundle
        Main.java
    - pom.xml
  - hudi-hive-sync-bundle
    - src
      - main
        java
        org
        apache
        hudi
        hive
        bundle
        Main.java
    - pom.xml
  - hudi-utilities-bundle
    - src
      - main
        java
        org
        apache
        hudi
        utilities
        bundle
        Main.java
    - pom.xml
  - README.md
  - hudi-presto-bundle
    - src
      - main
        java
        org
        apache
        hudi
        presto
        bundle
        Main.java
    - pom.xml
  - hudi-timeline-server-bundle
    - src
      - main
        java
        org
        apache
        hudi
        timeline
        server
        bundle
        Main.java
    - run_server.sh
    - pom.xml
  - hudi-spark-bundle
    - src
      - main
        java
        org
        apache
        hudi
        spark
        bundle
        Main.java
    - pom.xml
- NOTICE
- .gitignore

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package org.apache.hudi.utilities;

import org.apache.hudi.client.HoodieWriteClient;
import org.apache.hudi.client.WriteStatus;
import org.apache.hudi.common.HoodieJsonPayload;
import org.apache.hudi.common.config.TypedProperties;
import org.apache.hudi.common.fs.FSUtils;
import org.apache.hudi.common.model.HoodieKey;
import org.apache.hudi.common.model.HoodieRecord;
import org.apache.hudi.common.model.HoodieRecordPayload;
import org.apache.hudi.common.table.HoodieTableConfig;
import org.apache.hudi.common.table.HoodieTableMetaClient;
import org.apache.hudi.common.util.Option;
import org.apache.hudi.exception.HoodieIOException;

import com.beust.jcommander.IValueValidator;
import com.beust.jcommander.JCommander;
import com.beust.jcommander.Parameter;
import com.beust.jcommander.ParameterException;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericRecord;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.log4j.LogManager;
import org.apache.log4j.Logger;
import org.apache.parquet.avro.AvroReadSupport;
import org.apache.parquet.hadoop.ParquetInputFormat;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.io.IOException;
import java.io.Serializable;
import java.time.Instant;
import java.time.ZoneId;
import java.time.format.DateTimeFormatter;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;
import java.util.Properties;

import scala.Tuple2;

/**
 * Loads data from Parquet Sources.
 */
public class HDFSParquetImporter implements Serializable {

  private static final long serialVersionUID = 1L;
  private static final Logger LOG = LogManager.getLogger(HDFSParquetImporter.class);

  private static final DateTimeFormatter PARTITION_FORMATTER = DateTimeFormatter.ofPattern("yyyy/MM/dd")
      .withZone(ZoneId.systemDefault());
  private final Config cfg;
  private transient FileSystem fs;
  /**
   * Bag of properties with source, hoodie client, key generator etc.
   */
  private TypedProperties props;

  public HDFSParquetImporter(Config cfg) {
    this.cfg = cfg;
  }

  public static void main(String[] args) {
    final Config cfg = new Config();
    JCommander cmd = new JCommander(cfg, null, args);
    if (cfg.help || args.length == 0) {
      cmd.usage();
      System.exit(1);
    }
    HDFSParquetImporter dataImporter = new HDFSParquetImporter(cfg);
    JavaSparkContext jssc =
        UtilHelpers.buildSparkContext("data-importer-" + cfg.tableName, cfg.sparkMaster, cfg.sparkMemory);
    try {
      dataImporter.dataImport(jssc, cfg.retry);
    } finally {
      jssc.stop();
    }

  }

  private boolean isUpsert() {
    return "upsert".equals(cfg.command.toLowerCase());
  }

  public int dataImport(JavaSparkContext jsc, int retry) {
    this.fs = FSUtils.getFs(cfg.targetPath, jsc.hadoopConfiguration());
    this.props = cfg.propsFilePath == null ? UtilHelpers.buildProperties(cfg.configs)
        : UtilHelpers.readConfig(fs, new Path(cfg.propsFilePath), cfg.configs).getConfig();
    LOG.info("Starting data import with configs : " + props.toString());
    int ret = -1;
    try {
      // Verify that targetPath is not present.
      if (fs.exists(new Path(cfg.targetPath)) && !isUpsert()) {
        throw new HoodieIOException(String.format("Make sure %s is not present.", cfg.targetPath));
      }
      do {
        ret = dataImport(jsc);
      } while (ret != 0 && retry-- > 0);
    } catch (Throwable t) {
      LOG.error(t);
    }
    return ret;
  }

  protected int dataImport(JavaSparkContext jsc) throws IOException {
    try {
      if (fs.exists(new Path(cfg.targetPath)) && !isUpsert()) {
        // cleanup target directory.
        fs.delete(new Path(cfg.targetPath), true);
      }

      if (!fs.exists(new Path(cfg.targetPath))) {
        // Initialize target hoodie table.
        Properties properties = new Properties();
        properties.put(HoodieTableConfig.HOODIE_TABLE_NAME_PROP_NAME, cfg.tableName);
        properties.put(HoodieTableConfig.HOODIE_TABLE_TYPE_PROP_NAME, cfg.tableType);
        HoodieTableMetaClient.initTableAndGetMetaClient(jsc.hadoopConfiguration(), cfg.targetPath, properties);
      }

      // Get schema.
      String schemaStr = UtilHelpers.parseSchema(fs, cfg.schemaFile);

      HoodieWriteClient client =
          UtilHelpers.createHoodieClient(jsc, cfg.targetPath, schemaStr, cfg.parallelism, Option.empty(), props);

      JavaRDD<HoodieRecord<HoodieRecordPayload>> hoodieRecords = buildHoodieRecordsForImport(jsc, schemaStr);
      // Get instant time.
      String instantTime = client.startCommit();
      JavaRDD<WriteStatus> writeResponse = load(client, instantTime, hoodieRecords);
      return UtilHelpers.handleErrors(jsc, instantTime, writeResponse);
    } catch (Throwable t) {
      LOG.error("Error occurred.", t);
    }
    return -1;
  }

  protected JavaRDD<HoodieRecord<HoodieRecordPayload>> buildHoodieRecordsForImport(JavaSparkContext jsc,
      String schemaStr) throws IOException {
    Job job = Job.getInstance(jsc.hadoopConfiguration());
    // Allow recursive directories to be found
    job.getConfiguration().set(FileInputFormat.INPUT_DIR_RECURSIVE, "true");
    // To parallelize reading file status.
    job.getConfiguration().set(FileInputFormat.LIST_STATUS_NUM_THREADS, "1024");
    AvroReadSupport.setAvroReadSchema(jsc.hadoopConfiguration(), (new Schema.Parser().parse(schemaStr)));
    ParquetInputFormat.setReadSupportClass(job, (AvroReadSupport.class));

    return jsc.newAPIHadoopFile(cfg.srcPath, ParquetInputFormat.class, Void.class, GenericRecord.class,
            job.getConfiguration())
        // To reduce large number of tasks.
        .coalesce(16 * cfg.parallelism).map(entry -> {
          GenericRecord genericRecord = ((Tuple2<Void, GenericRecord>) entry)._2();
          Object partitionField = genericRecord.get(cfg.partitionKey);
          if (partitionField == null) {
            throw new HoodieIOException("partition key is missing. :" + cfg.partitionKey);
          }
          Object rowField = genericRecord.get(cfg.rowKey);
          if (rowField == null) {
            throw new HoodieIOException("row field is missing. :" + cfg.rowKey);
          }
          String partitionPath = partitionField.toString();
          LOG.debug("Row Key : " + rowField + ", Partition Path is (" + partitionPath + ")");
          if (partitionField instanceof Number) {
            try {
              long ts = (long) (Double.parseDouble(partitionField.toString()) * 1000L);
              partitionPath = PARTITION_FORMATTER.format(Instant.ofEpochMilli(ts));
            } catch (NumberFormatException nfe) {
              LOG.warn("Unable to parse date from partition field. Assuming partition as (" + partitionField + ")");
            }
          }
          return new HoodieRecord<>(new HoodieKey(rowField.toString(), partitionPath),
              new HoodieJsonPayload(genericRecord.toString()));
        });
  }

  /**
   * Imports records to Hoodie table.
   *
   * @param client Hoodie Client
   * @param instantTime Instant Time
   * @param hoodieRecords Hoodie Records
   * @param <T> Type
   */
  protected <T extends HoodieRecordPayload> JavaRDD<WriteStatus> load(HoodieWriteClient client, String instantTime,
      JavaRDD<HoodieRecord<T>> hoodieRecords) {
    switch (cfg.command.toLowerCase()) {
      case "upsert": {
        return client.upsert(hoodieRecords, instantTime);
      }
      case "bulkinsert": {
        return client.bulkInsert(hoodieRecords, instantTime);
      }
      default: {
        return client.insert(hoodieRecords, instantTime);
      }
    }
  }

  public static class CommandValidator implements IValueValidator<String> {

    List<String> validCommands = Arrays.asList("insert", "upsert", "bulkinsert");

    @Override
    public void validate(String name, String value) {
      if (value == null || !validCommands.contains(value.toLowerCase())) {
        throw new ParameterException(
            String.format("Invalid command: value:%s: supported commands:%s", value, validCommands));
      }
    }
  }

  public static class FormatValidator implements IValueValidator<String> {

    List<String> validFormats = Collections.singletonList("parquet");

    @Override
    public void validate(String name, String value) {
      if (value == null || !validFormats.contains(value)) {
        throw new ParameterException(
            String.format("Invalid format type: value:%s: supported formats:%s", value, validFormats));
      }
    }
  }

  public static class Config implements Serializable {

    @Parameter(names = {"--command", "-c"}, description = "Write command Valid values are insert(default)/upsert/bulkinsert",
        validateValueWith = CommandValidator.class)
    public String command = "INSERT";
    @Parameter(names = {"--src-path", "-sp"}, description = "Base path for the input table", required = true)
    public String srcPath = null;
    @Parameter(names = {"--target-path", "-tp"}, description = "Base path for the target hoodie table",
        required = true)
    public String targetPath = null;
    @Parameter(names = {"--table-name", "-tn"}, description = "Table name", required = true)
    public String tableName = null;
    @Parameter(names = {"--table-type", "-tt"}, description = "Table type", required = true)
    public String tableType = null;
    @Parameter(names = {"--row-key-field", "-rk"}, description = "Row key field name", required = true)
    public String rowKey = null;
    @Parameter(names = {"--partition-key-field", "-pk"}, description = "Partition key field name", required = true)
    public String partitionKey = null;
    @Parameter(names = {"--parallelism", "-pl"}, description = "Parallelism for hoodie insert(default)/upsert/bulkinsert", required = true)
    public int parallelism = 1;
    @Parameter(names = {"--schema-file", "-sf"}, description = "path for Avro schema file", required = true)
    public String schemaFile = null;
    @Parameter(names = {"--format", "-f"}, description = "Format for the input data.", validateValueWith = FormatValidator.class)
    public String format = null;
    @Parameter(names = {"--spark-master", "-ms"}, description = "Spark master")
    public String sparkMaster = null;
    @Parameter(names = {"--spark-memory", "-sm"}, description = "spark memory to use", required = true)
    public String sparkMemory = null;
    @Parameter(names = {"--retry", "-rt"}, description = "number of retries")
    public int retry = 0;
    @Parameter(names = {"--props"}, description = "path to properties file on localfs or dfs, with configurations for "
        + "hoodie client for importing")
    public String propsFilePath = null;
    @Parameter(names = {"--hoodie-conf"}, description = "Any configuration that can be set in the properties file "
        + "(using the CLI parameter \"--propsFilePath\") can also be passed command line using this parameter")
    public List<String> configs = new ArrayList<>();
    @Parameter(names = {"--help", "-h"}, help = true)
    public Boolean help = false;
  }
}