java source code of MRCompactorJobRunner

Project: incubator-gobblin (GitHub Link)

incubator-gobblin-master
- .github
  - PULL_REQUEST_TEMPLATE.md
- gobblin-test-utils
  - src
    - main
      - avro
        TestRecord.avsc
      - proto
        TestRecord.proto
      - resources
        META-INF
        services
        org.apache.gobblin.crypto.CredentialStoreProvider
        org.apache.gobblin.crypto.EncryptionProvider
      - java
        org
        apache
        gobblin
        test
        TimingType.java
        crypto
        TestEncryptionProvider.java
        TestRandomCredentialStore.java
        InsecureShiftCodec.java
        ConstantTimingType.java
        TimingResult.java
        TestUtils.java
        ErrorManager.java
        NthTimingType.java
        TimingManager.java
        TestRecord.java
    - test
      - java
        org
        apache
        gobblin
        test
        RandomCredentialStoreTest.java
        ErrorManagerTest.java
  - buildConfig
    - findbugs-exclude-filter.xml
  - build.gradle
- gobblin-binary-management
  - src
    - main
      - java
        org
        apache
        gobblin
        binary_creation
        AvroTestTools.java
        DataTestTools.java
        OrcTestTools.java
    - test
      - resources
        orcWriterTest
        data2.json
        data1.json
        schema.avsc
        avroWriterTest
        data2.json
        data1.json
        schema.avsc
      - java
        org
        apache
        gobblin
        binary_creation
        AvroTestToolsTest.java
        OrcTestToolsTest.java
  - build.gradle
- gobblin-hive-registration
  - src
    - main
      - java
        org
        apache
        gobblin
        hive
        PartitionDeregisterStep.java
        avro
        HiveAvroSerDeManager.java
        metastore
        HiveMetaStoreBasedRegister.java
        HiveMetaStoreEventHelper.java
        HiveMetaStoreUtils.java
        HiveMetastoreClientPool.java
        HiveSerDeManager.java
        HiveConfFactory.java
        orc
        HiveOrcSerDeManager.java
        HiveRegProps.java
        HivePartition.java
        policy
        HiveRegistrationPolicy.java
        HiveSnapshotRegistrationPolicy.java
        HiveRegistrationPolicyBase.java
        HiveRegistrationUnit.java
        HiveConstants.java
        HiveTableComparator.java
        HiveRegistrationUnitComparator.java
        HiveRegisterUtils.java
        HiveMetaStoreClientFactory.java
        HiveLock.java
        SharedHiveConfKey.java
        TableDeregisterStep.java
        spec
        HiveSpecWithPreActivities.java
        HiveSpecWithPostActivities.java
        activity
        DropPartitionActivity.java
        Activity.java
        DropTableActivity.java
        HiveSpec.java
        SimpleHiveSpec.java
        HiveSpecWithPredicates.java
        predicate
        TableNotExistPredicate.java
        PartitionNotExistPredicate.java
        AutoCloseableHiveLock.java
        HiveTable.java
        HiveSerDeWrapper.java
        HiveRegister.java
        HivePartitionComparator.java
        HiveLockFactory.java
        HiveLockImpl.java
        HiveRegisterStep.java
        gobblin
        hive
        HiveRegProps.java
    - test
      - resources
        hive-site.xml
        test-hive-table
        hive-test.avro
        snapshot1
        .gitignore
        hive-test.avsc
        avro_input
        input.json
        schema.avsc
      - java
        org
        apache
        gobblin
        hive
        avro
        HiveAvroSerDeManagerTest.java
        metastore
        HiveMetaStoreUtilsTest.java
        orc
        HiveOrcSerDeManagerTest.java
        policy
        HiveRegistrationPolicyBaseTest.java
        HiveSnapshotRegistrationPolicyTest.java
        HiveRegistrationUnitComparatorTest.java
        HiveMetaStoreClientFactoryTest.java
        spec
        SimpleHiveSpecTest.java
        HiveConfFactoryTest.java
        HiveMetastoreClientPoolTest.java
  - build.gradle
- query_github_issues.py
- gobblin-kubernetes
  - gobblin-service
    - mysql-cluster
      - mysql-pv.yaml
      - deployment.yaml
      - standalone-application.conf
      - gaas-application.conf
      - kustomization.yaml
      - README.md
      - mysql-deployment.yaml
    - azure-cluster
      - ingress.yaml
      - kustomization.yaml
    - base-cluster
      - deployment.yaml
      - storage.yaml
      - ingress.yaml
      - kustomization.yaml
      - README.md
      - service.yaml
      - flowconfig-templates
        distcp.template
- gradle.properties
- gradle
  - resources
    - rat-output-to-html.xsl
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
  - scripts
    - javaPlugin.gradle
    - restli.gradle
    - sourcesJar.gradle
    - mavenPublishing.gradle
    - environment.gradle
    - bintrayPublishing.gradle
    - nexusPublishing.gradle
    - computeVersions.gradle
    - javadoc.gradle
    - repositories.gradle
    - release.gradle
    - idesSetup.gradle
    - configureSubprojects.gradle
    - globalDependencies.gradle
    - rat.gradle
    - javaVersionCheck.gradle
    - utilities.gradle
    - buildscript.gradle
    - defaultBuildProperties.gradle
    - jacoco-coveralls-support.gradle
    - testSetup.gradle
    - dependencyDefinitions.gradle
- gobblin-distribution
  - gobblin-flavor-standard.gradle
  - build.gradle
  - gobblin-flavor-custom.gradle
  - gobblin-flavor-minimal.gradle
  - gobblin-flavor-full.gradle
- gobblin-example
  - src
    - main
      - resources
        simplejson.pull
        hive-avro-to-orc.pull
        githubjsontoparquet.template
        avro-to-mysql.pull
        kafka-console.pull
        avro-eventhub.job
        distcp.conf
        google-analytics-unsampledreport-to-avro.pull
        simplejson.json.1
        hdfs-monthly-to-hdfs-daily.pull
        distcpFromS3.job
        service-azkaban-hello-world.template
        hive-materializer.conf
        wikipedia-elastic.conf
        mysql-state-store-retention.pull
        streaming-kafka-console.pull
        wikipedia-console.pull
        distcp-hive.pull
        stressTest.conf
        wikipedia.template
        wikipedia.pull
        streaming-test-kafka.pull
        distcpToS3.job
        wikipedia-kafka.pull
        simplejson.json.0
        csvToAvro.conf
        state-store-retention.pull
        google-web-master.pull
        wikipedia-orc.pull
        streaming-kafka-kafka.pull
        example-parquet.pull
      - java
        org
        apache
        gobblin
        example
        hadoop
        HadoopTextFileSource.java
        HadoopTextFileInputExtractor.java
        githubjsontoparquet
        GithubDataEventTypesPartitioner.java
        EmbeddedGithubJsonToParquet.java
        wikipedia
        WikipediaPartitioner.java
        WikipediaConverter.java
        EmbeddedWikipediaExample.java
        WikipediaExtractor.java
        WikipediaSource.java
        hivematerializer
        HiveMaterializerSource.java
        simplejson
        SimpleJsonSource.java
        SimpleJsonExtractor.java
        SimpleJsonConverter.java
  - build.gradle
- gobblin-rest-service
  - gobblin-rest-client
    - src
      - main
        java
        org
        apache
        gobblin
        rest
        JobExecutionInfoClient.java
    - build.gradle
  - gobblin-rest-api
    - src
      - main
        idl
        org.apache.gobblin.rest.jobExecutions.restspec.json
        pegasus
        org
        apache
        gobblin
        rest
        Metric.pdsc
        JobExecutionQuery.pdsc
        JobExecutionQueryResult.pdsc
        JobExecutionInfo.pdsc
        TaskExecutionInfo.pdsc
        TimeRange.pdsc
        Table.pdsc
        snapshot
        org.apache.gobblin.rest.jobExecutions.snapshot.json
    - config
      - checkstyle
        suppressions.xml
    - build.gradle
  - gobblin-rest-server
    - src
      - main
        java
        org
        apache
        gobblin
        rest
        JobExecutionInfoServer.java
        JobExecutionInfoResource.java
      - test
        resources
        gobblin-rest-server-test-log4j.properties
        java
        org
        apache
        gobblin
        rest
        JobExecutionInfoServerTest.java
    - gradle.properties
    - config
      - checkstyle
        suppressions.xml
    - build.gradle
- gobblin-metastore
  - src
    - main
      - resources
        db
        migration
        V1_0_3__Update_Key_Length.sql
        V1_0_1__Performance_improvements.sql
        V1_0_0__Initial_version.sql
        V1_0_2__LauncherType_enum_expansion.sql
        migrationConfig
        readme.txt
      - java
        org
        apache
        gobblin
        metastore
        MysqlJobStatusStateStoreFactory.java
        MysqlDataSourceFactory.java
        database
        DatabaseJobHistoryStoreV102.java
        Filter.java
        VersionedDatabaseJobHistoryStore.java
        DatabaseJobHistoryStoreV103.java
        SupportedDatabaseVersion.java
        DatabaseJobHistoryStoreV101.java
        DatabaseJobHistoryStoreV100.java
        MysqlStateStoreFactory.java
        FsStateStoreFactory.java
        MysqlJobStatusStateStoreEntryManager.java
        StateStore.java
        DatasetStoreDataset.java
        metadata
        DatasetStateStoreEntryManager.java
        StateStoreEntryManager.java
        DatasetStateStore.java
        JobHistoryStore.java
        util
        DatabaseJobHistoryStoreSchemaManager.java
        MySqlJdbcUrl.java
        StateStoreCleaner.java
        StateStoreCleanerRunnable.java
        predicates
        DatasetPredicate.java
        StoreNamePredicate.java
        StateStorePredicate.java
        MysqlStateStore.java
        FileContextBasedFsStateStore.java
        DatasetStoreDatasetFinder.java
        JobHistoryDataSourceProvider.java
        nameParser
        GuidDatasetUrnStateStoreNameParser.java
        DatasetUrnStateStoreNameParser.java
        SimpleDatasetUrnStateStoreNameParser.java
        MysqlStateStoreEntryManager.java
        MysqlDataSourceKey.java
        MysqlJobStatusStateStore.java
        MetaStoreModule.java
        DatabaseJobHistoryStore.java
        FsStateStore.java
        FileContextBasedFsStateStoreFactory.java
    - test
      - resources
        backwardsCompatTestStore
        .testTable.crc
        testStore
        testTable
      - java
        org
        apache
        gobblin
        metastore
        DatabaseJobHistoryStoreV103Test.java
        DatabaseJobHistoryStoreTest.java
        FsStateStoreTest.java
        DatabaseJobHistoryStoreV100Test.java
        DatabaseJobHistoryStoreV101Test.java
        MysqlDataSourceFactoryTest.java
        nameParser
        GuidDatasetUrnStateStoreNameParserTest.java
        testing
        TestMetadataDatabase.java
        TestMetastoreDatabaseFactory.java
        ITestMetastoreDatabase.java
        TestMetastoreDatabaseServer.java
  - build.gradle
- gobblin-admin
  - src
    - main
      - resources
        static
        config.json
        img
        fonts
        glyphicons-halflings-regular.woff
        glyphicons-halflings-regular.eot
        glyphicons-halflings-regular.woff2
        glyphicons-halflings-regular.ttf
        glyphicons-halflings-regular.svg
        js
        views
        job-view.js
        job-execution-view.js
        key-value-table-view.js
        over-view.js
        table-view.js
        gobblin.js
        models
        job-execution.js
        task-execution.js
        collections
        job-executions.js
        router.js
        index.html
        css
        gobblin.css
        bootstrap.min.css
        tablesorter.theme.css
      - java
        org
        apache
        gobblin
        admin
        AdminWebServer.java
        DefaultAdminWebServerFactory.java
        cli
        AdminClient.java
        JobCommand.java
        JobInfoPrintUtils.java
        CliTablePrinter.java
    - test
      - java
        org
        apache
        gobblin
        admin
        AdminWebServerTest.java
  - build.gradle
  - README.md
- readthedocs.yml
- gobblin-compaction
  - src
    - main
      - java
        org
        apache
        gobblin
        compaction
        source
        CompactionFailedTask.java
        CompactionSource.java
        verify
        CompactionVerifier.java
        InputRecordCountHelper.java
        CompactionTimeRangeVerifier.java
        CompactionWatermarkChecker.java
        CompactionAuditCountVerifier.java
        DataCompletenessVerifier.java
        CompactionThresholdVerifier.java
        conditions
        RecompactionCondition.java
        RecompactionConditionBasedOnRatio.java
        RecompactionConditionBasedOnFileCount.java
        RecompactionConditionFactory.java
        RecompactionCombineCondition.java
        RecompactionConditionBasedOnDuration.java
        audit
        PinotAuditCountHttpClient.java
        KafkaAuditCountHttpClientFactory.java
        KafkaAuditCountHttpClient.java
        PinotAuditCountHttpClientFactory.java
        AuditCountClient.java
        AuditCountClientFactory.java
        dataset
        SimpleDatasetsFinder.java
        Dataset.java
        TimeBasedSubDirDatasetsFinder.java
        DatasetsFinder.java
        DatasetHelper.java
        Compactor.java
        CliOptions.java
        listeners
        CompactorCompletionListenerFactory.java
        CompactorListenerFactory.java
        CompactorListenerCreationException.java
        SimpleCompactorCompletionListener.java
        CompactorListener.java
        SerialCompactorListener.java
        CompactorCompletionListener.java
        ReflectionCompactorListenerFactory.java
        event
        CompactionSlaEventHelper.java
        DedupeStatus.java
        suite
        CompactionWithWatermarkSuiteFactory.java
        CompactionSuiteFactory.java
        CompactionSuiteBase.java
        CompactionWithWatermarkSuite.java
        CompactionSuite.java
        CompactionSuiteBaseWithConfigurableCompleteAction.java
        CompactionSuiteBaseWithConfigurableCompleteActionFactory.java
        CompactionSuiteBaseFactory.java
        CompactionSuiteUtils.java
        hivebasedconstructs
        HiveMetadataForCompactionExtractor.java
        HiveMetadataForCompactionExtractorFactory.java
        CompactionLauncherWriter.java
        CompactionLauncherWriterBuilder.java
        MRCompactionEntity.java
        CompactorCreationException.java
        action
        CompactionCompleteAction.java
        CompactionCompleteFileOperationAction.java
        CompactionMarkDirectoryAction.java
        CompactionHiveRegistrationAction.java
        CompactionWatermarkAction.java
        CompactorFactory.java
        hive
        HiveAttribute.java
        CompactionRunner.java
        HdfsWriter.java
        registration
        HiveRegistrationCompactorListener.java
        HdfsReader.java
        HdfsIO.java
        HiveManagedTable.java
        HiveTable.java
        AvroExternalTable.java
        SerialCompactor.java
        ReflectionCompactorFactory.java
        mapreduce
        RecordKeyMapperBase.java
        avro
        ConfBasedDeltaFieldProvider.java
        AvroKeyCompactorOutputFormat.java
        AvroKeyRecursiveCombineFileInputFormat.java
        MRCompactorAvroKeyDedupJobRunner.java
        FieldAttributeBasedDeltaFieldsProvider.java
        AvroKeyMapper.java
        AvroKeyCombineFileRecordReader.java
        AvroKeyDedupReducer.java
        AvroDeltaFieldNameProvider.java
        CompactionJobConfigurator.java
        MRCompactorJobPropCreator.java
        orc
        OrcKeyComparator.java
        OrcValueCombineFileRecordReader.java
        OrcUtils.java
        OrcValueMapper.java
        OrcKeyCompactorOutputFormat.java
        OrcValueCombineFileInputFormat.java
        OrcKeyDedupReducer.java
        RecordKeyDedupReducerBase.java
        CompactorOutputCommitter.java
        MRCompactionRunner.java
        CompactionOrcJobConfigurator.java
        MRCompactionTask.java
        MRCompactionTaskFactory.java
        CompactionAvroJobConfigurator.java
        CompactionCombineFileInputFormat.java
        MRCompactorJobRunner.java
        MRCompactor.java
        parser
        CompactionPathParser.java
    - test
      - resources
        log4j.xml
        dedup-schema
        dedup-schema-with-pkey.avsc
        dedup-schema-without-pkey.avsc
        key-schema.avsc
        dedup-schema.avsc
      - java
        org
        apache
        gobblin
        compaction
        verify
        CompactionWatermarkCheckerTest.java
        PinotAuditCountVerifierTest.java
        CompactionTimeVerifierTest.java
        suite
        TestCompactionSuites.java
        TestCompactionSuiteFactories.java
        action
        CompactionWatermarkActionTest.java
        CompactionHiveRegistrationActionTest.java
        mapreduce
        avro
        MRCompactorAvroKeyDedupJobRunnerTest.java
        FieldAttributeBasedDeltaFieldsProviderTest.java
        ConfBasedDeltaFieldProviderTest.java
        CompactionJobConfiguratorTest.java
        orc
        OrcKeyComparatorTest.java
        OrcUtilsTest.java
        OrcValueMapperTest.java
        OrcTestUtils.java
        OrcCompactionTaskTest.java
        conditions
        RecompactionConditionTest.java
        AvroCompactionTaskTest.java
        RenameSourceDirectoryTest.java
        KeyDedupReducerTest.java
        MRCompactorJobRunnerFilenameRecordCountProviderTest.java
  - jobconf
    - task1.conf
  - build.gradle
  - compaction.properties
- mkdocs.yml
- gradlew.bat
- gobblin-api
  - src
    - main
      - java
        org
        apache
        gobblin
        configuration
        CombinedWorkUnitAndDatasetStateFunctional.java
        ImmutableWorkUnitState.java
        SourceState.java
        WorkUnitState.java
        NoopDynamicConfigGenerator.java
        StateUtils.java
        ConfigurationException.java
        DynamicConfigGenerator.java
        State.java
        ConfigurationKeys.java
        CombinedWorkUnitAndDatasetState.java
        password
        PasswordManager.java
        Constructs.java
        crypto
        CredentialStoreProvider.java
        EncryptionProvider.java
        CredentialStore.java
        source
        Source.java
        extractor
        StreamingExtractor.java
        WatermarkSerializerHelper.java
        Watermark.java
        ComparableWatermark.java
        DataRecordException.java
        CheckpointableWatermark.java
        WatermarkInterval.java
        Extractor.java
        workunit
        WorkUnitWeighter.java
        WorkUnitStream.java
        ImmutableExtract.java
        ExtractFactory.java
        BasicWorkUnitStream.java
        ImmutableWorkUnit.java
        WorkUnitBinPacker.java
        Extract.java
        MissingExtractAttributeException.java
        WorkUnit.java
        MultiWorkUnit.java
        WorkUnitStreamSource.java
        publisher
        UnpublishedHandling.java
        DataPublisher.java
        SingleTaskDataPublisher.java
        codec
        StreamCodec.java
        stream
        MetadataUpdateControlMessage.java
        FlushControlMessage.java
        StreamEntity.java
        ControlMessageInjector.java
        RecordEnvelope.java
        ControlMessage.java
        dataset
        comparators
        URNLexicographicalComparator.java
        package-info.java
        DatasetDescriptor.java
        Dataset.java
        IterableDatasetFinder.java
        DatasetResolver.java
        HiveToHdfsDatasetResolverFactory.java
        test
        SimpleDatasetPartitionForTesting.java
        SimpleDatasetForTesting.java
        SimplePartitionableDatasetForTesting.java
        StaticDatasetsFinderForTesting.java
        PartitionDescriptor.java
        PartitionableDataset.java
        DatasetResolverFactory.java
        DatasetsFinder.java
        IterableDatasetFinderImpl.java
        NoopDatasetResolver.java
        FileSystemDataset.java
        URNIdentified.java
        HiveToHdfsDatasetResolver.java
        DescriptorResolverFactory.java
        DatasetConstants.java
        DescriptorResolver.java
        Descriptor.java
        metadata
        GlobalMetadata.java
        MetadataMerger.java
        qualitychecker
        task
        TaskLevelPolicy.java
        row
        RowLevelPolicy.java
        compat
        hadoop
        WritableShim.java
        TextSerializer.java
        util
        ClassAliasResolver.java
        CompletedFuture.java
        FinalState.java
        Decorator.java
        DecoratorUtils.java
        io
        GsonInterfaceAdapter.java
        RecordCountProvider.java
        TaskEventMetadataUtils.java
        runtime
        api
        Spec.java
        SpecProducer.java
        AdminWebServerFactory.java
        SpecExecutor.java
        TaskEventMetadataGenerator.java
        FlowEdge.java
        SpecConsumer.java
        ServiceNode.java
        JobShutdownException.java
        NoopTaskEventMetadataGenerator.java
        BasicTestControlMessage.java
        recordaccess
        RecordAccessor.java
        IncorrectTypeException.java
        RecordAccessorProvider.java
        RecordAccessorException.java
        FieldDoesNotExistException.java
        broker
        iface
        SharedResourceFactoryResponse.java
        NoSuchScopeException.java
        SharedResourcesBroker.java
        NotConfiguredException.java
        ScopeType.java
        SharedResourceKey.java
        ScopedConfigView.java
        ScopeInstance.java
        SharedResourceFactory.java
        ConfigView.java
        SubscopedBrokerBuilder.java
        BrokerConstants.java
        StringNameSharedResourceKey.java
        SimpleScopeType.java
        SimpleScope.java
        gobblin_scopes
        JobScopeInstance.java
        GobblinScopeTypes.java
        TaskScopeInstance.java
        GobblinScopeInstance.java
        ResourceEntry.java
        ResourceCoordinate.java
        commit
        CommitStepException.java
        DeliverySemantics.java
        CommitSequence.java
        CommitStepBase.java
        CommitStep.java
        CommitSequenceStore.java
        service
        ServiceConfigKeys.java
        converter
        Converter.java
        DataConversionException.java
        SchemaConversionException.java
        initializer
        ConverterInitializer.java
        NoopConverterInitializer.java
        annotation
        Stable.java
        Alpha.java
        Alias.java
        Beta.java
        ack
        HierarchicalAckable.java
        BasicAckableForTesting.java
        Ackable.java
        writer
        DataWriterBuilder.java
        WriterWrapper.java
        WriterOutputFormat.java
        FsWriterMetrics.java
        DataWriter.java
        Destination.java
        FluentDataWriterBuilder.java
        WatermarkStorage.java
        PartitionIdentifier.java
        initializer
        NoopWriterInitializer.java
        WriterInitializer.java
        initializer
        Initializer.java
        NoopInitializer.java
        records
        RecordStreamConsumer.java
        ControlMessageHandler.java
        RecordStreamWithMetadata.java
        FlushControlMessageHandler.java
        RecordStreamProcessor.java
        capability
        CapabilityAware.java
        Capability.java
        testing
        AssertWithBackoff.java
        fork
        CopyNotSupportedException.java
        ForkOperator.java
        Copyable.java
        CopyHelper.java
        Forker.java
        gobblin
        configuration
        ImmutableWorkUnitState.java
        SourceState.java
        WorkUnitState.java
        State.java
        source
        extractor
        Watermark.java
        CheckpointableWatermark.java
        WatermarkInterval.java
        workunit
        ImmutableExtract.java
        ImmutableWorkUnit.java
        Extract.java
        WorkUnit.java
        MultiWorkUnit.java
    - test
      - java
        com
        linkedin
        gobblin
        TestAlias.java
        org
        apache
        gobblin
        configuration
        StateTest.java
        password
        PasswordManagerTest.java
        source
        extractor
        WatermarkTest.java
        TestWatermark.java
        workunit
        TimeZoneUtilsTest.java
        ExtractFactoryTest.java
        stream
        RecordEnvelopeTest.java
        StreamEntityTest.java
        dataset
        DescriptorTest.java
        DatasetResolverTest.java
        compat
        TextSerializerTest.java
        util
        ClassAliasResolverTest.java
        test
        BaseClass.java
        ExtendedClass.java
        TestClass.java
        io
        GsonInterfaceAdapterTest.java
        broker
        gobblin_scopes
        GobblinScopesTest.java
        converter
        ConverterTest.java
        ack
        HierarchicalAckableTest.java
        writer
        FsWriterMetricsTest.java
        testing
        AssertWithBackoffTest.java
        fork
        CopyHelperTest.java
        ForkerTest.java
  - build.gradle
- gobblin-core-base
  - src
    - main
      - java
        org
        apache
        gobblin
        crypto
        CredentialStoreFactory.java
        EncryptionFactory.java
        EncryptionConfigParser.java
        source
        extractor
        JobCommitPolicy.java
        WorkUnitRetryPolicy.java
        DefaultCheckpointableWatermark.java
        extract
        EventBasedExtractor.java
        AbstractSource.java
        EventBasedSource.java
        LongWatermark.java
        limiter
        LimiterConfigurationKeys.java
        test
        AnyToStringConverter.java
        AnyToJsonConverter.java
        SequentialTestSource.java
        instrumented
        extractor
        InstrumentedExtractor.java
        InstrumentedExtractorDecorator.java
        InstrumentedExtractorBase.java
        qualitychecker
        InstrumentedRowLevelPolicyBase.java
        InstrumentedRowLevelPolicyDecorator.java
        InstrumentedRowLevelPolicy.java
        Instrumented.java
        GobblinMetricsKeys.java
        StandardMetricsBridge.java
        converter
        InstrumentedConverter.java
        InstrumentedConverterBase.java
        InstrumentedConverterDecorator.java
        Instrumentable.java
        writer
        InstrumentedDataWriterBase.java
        InstrumentedDataWriterDecorator.java
        InstrumentedPartitionedDataWriterDecorator.java
        InstrumentedDataWriter.java
        fork
        InstrumentedForkOperator.java
        InstrumentedForkOperatorBase.java
        InstrumentedForkOperatorDecorator.java
        types
        TypeMapper.java
        AvroGenericRecordTypeMapper.java
        FieldMappingException.java
        compression
        CompressionFactory.java
        CompressionConfigParser.java
        converter
        ToAvroConverterBase.java
        AvroToAvroConverterBase.java
        AsyncConverter1to1.java
        SingleRecordIterable.java
        SamplingConverter.java
        IdentityConverter.java
        filter
        AvroProjectionConverter.java
        GobblinTrackingEventFlattenFilterConverter.java
        AvroSchemaFieldRemover.java
        writer
        GenericWriteResponseWrapper.java
        WatermarkManager.java
        SyncDataWriter.java
        SequentialBasedBatchAccumulator.java
        RecordMetadata.java
        RecordFuture.java
        WatermarkAwareWriter.java
        WatermarkTracker.java
        AcknowledgableWatermark.java
        BatchAsyncDataWriter.java
        GenericWriteResponse.java
        WriteCallback.java
        FineGrainedWatermarkTracker.java
        WriteResponseFuture.java
        Batch.java
        BufferedAsyncDataWriter.java
        LargeMessagePolicy.java
        WriteResponseMapper.java
        AcknowledgableRecordEnvelope.java
        WatermarkTrackerFactory.java
        BatchAccumulator.java
        RecordTooLargeException.java
        AsyncDataWriter.java
        TrackerBasedWatermarkManager.java
        WriteResponse.java
        partitioner
        WriterPartitioner.java
        LastWatermarkTracker.java
        AsyncWriterManager.java
        PartitionAwareDataWriterBuilder.java
        BytesBoundedBatch.java
        WatermarkAwareWriterWrapper.java
        FutureWrappedWriteCallback.java
        MultiWriterWatermarkTracker.java
        async
        Callback.java
    - jmh
      - java
        org
        apache
        gobblin
        writer
        FineGrainedWatermarkTrackerBenchmark.java
    - test
      - resources
        converter
        recursive_schema_1.avsc
        recursive_schema_2_not_converted.avsc
        recursive_schema_2_converted.avsc
        recursive_schema_2.avsc
        recursive_schema_1_converted.avsc
        avroProjectionConverter
        simpleRecord.avsc
        simpleRecord.json
      - java
        org
        apache
        gobblin
        crypto
        EncryptionConfigParserTest.java
        source
        extractor
        extract
        AbstractSourceTest.java
        instrumented
        extractor
        InstrumentedExtractorTest.java
        qualitychecker
        InstrumentedRowLevelPolicyTest.java
        converter
        InstrumentedConverterTest.java
        writer
        InstrumentedDataWriterTest.java
        fork
        InstrumentedForkOperatorTest.java
        types
        AvroGenericRecordTypeMapperTest.java
        converter
        filter
        GobblinTrackingEventFlattenFilterConverterTest.java
        AvroProjectionConverterTest.java
        AvroSchemaFieldRemoverTest.java
        SingleRecordIterableTest.java
        AsyncConverter1to1Test.java
        SamplingConverterTest.java
        writer
        WatermarkTrackerTest.java
        FineGrainedWatermarkTrackerTest.java
        AsyncWriterManagerTest.java
  - build.gradle
- gobblin-runtime
  - src
    - main
      - avro
        AvroJobSpec.avsc
      - resources
        templates
        incremental-avro.template
        service-azkaban-hello-world.template
        distcp.template
        csv-kafka.template
        hello-world.template
        gobblin-kafka.template
        kafka-hdfs.template
        kafka-to-kafka.template
        org
        apache
        gobblin
        runtime
        api
        GobblinInstanceLauncher.conf
        embedded
        embedded.conf
      - java
        org
        apache
        gobblin
        scheduler
        SchedulerService.java
        BaseGobblinJob.java
        SchedulerDaemon.java
        JobScheduler.java
        PathAlterationListenerAdaptorForMonitor.java
        util
        ReflectivePredicateEvaluator.java
        SchedulerUtils.java
        runtime
        JobLauncher.java
        kafka
        HighLevelConsumer.java
        NonRefillableLimiter.java
        DefaultLimiterFactory.java
        metastore
        filesystem
        FsDatasetStateStoreEntryManager.java
        mysql
        MysqlDatasetStateStoreEntryManager.java
        job_monitor
        KafkaJobMonitor.java
        AvroJobSpecKafkaJobMonitor.java
        KafkaAvroJobMonitor.java
        SLAEventKafkaJobMonitor.java
        StreamModelTaskRunner.java
        NewTaskCompletionEvent.java
        TaskStateCollectorServiceHiveRegHandlerFactory.java
        MysqlDatasetStateStore.java
        job_catalog
        NonObservingFSJobCatalog.java
        InMemoryJobCatalog.java
        StaticJobCatalog.java
        ImmutableFSJobCatalog.java
        PackagedTemplatesJobCatalogDecorator.java
        MutableCachingJobCatalog.java
        CachingJobCatalog.java
        JobCatalogListenersList.java
        FSPathAlterationListenerAdaptor.java
        MutableJobCatalogBase.java
        FSJobCatalog.java
        JobCatalogBase.java
        JobLauncherFactory.java
        crypto
        DecryptCli.java
        services
        JMXReportingService.java
        MetricsReportingService.java
        ForkBranchMismatchException.java
        AbstractJobLauncher.java
        TaskCreationException.java
        LimitingExtractorDecorator.java
        CheckpointableWatermarkState.java
        spec_executorInstance
        LocalFsSpecProducer.java
        BaseServiceNodeImpl.java
        MockedSpecExecutor.java
        AbstractSpecExecutor.java
        InMemorySpecExecutor.java
        InMemorySpecProducer.java
        LocalFsSpecExecutor.java
        spec_catalog
        SpecCatalogListenersList.java
        AddSpecResponse.java
        FlowCatalog.java
        TopologyCatalog.java
        Task.java
        FsDatasetStateStoreFactory.java
        task
        TaskUtils.java
        BaseAbstractTask.java
        FailedTask.java
        TaskIFace.java
        TaskFactory.java
        TaskIFaceWrapper.java
        NoopTask.java
        instance
        StandardGobblinInstanceLauncher.java
        StandardGobblinInstanceDriver.java
        SimpleGobblinInstanceEnvironment.java
        hadoop
        HadoopConfigLoader.java
        plugin
        BaseIdlePluginImpl.java
        DefaultGobblinInstanceDriverImpl.java
        TimeBasedLimiter.java
        JobException.java
        spec_serde
        GsonFlowSpecSerDe.java
        GsonSerDe.java
        FlowSpecSerializer.java
        JavaSpecSerDe.java
        FlowSpecDeserializer.java
        FsDatasetStateStore.java
        SafeDatasetCommit.java
        TaskInstantiationException.java
        MultiConverter.java
        TaskStateTracker.java
        JobState.java
        api
        FlowSpec.java
        JobCatalogListener.java
        JobLifecycleListener.java
        FsSpecConsumer.java
        JobCatalog.java
        TopologySpec.java
        JobExecutionStatus.java
        SpecSerDe.java
        JobTemplate.java
        GobblinInstanceEnvironment.java
        SecureJobTemplate.java
        JobExecutionLauncher.java
        JobExecution.java
        FlowSpecSearchObject.java
        SpecStore.java
        ExecutionResult.java
        JobExecutionMonitor.java
        SpecSearchObject.java
        InstrumentedSpecStore.java
        Configurable.java
        JobLifecycleListenersContainer.java
        JobSpecSchedule.java
        SpecSerDeException.java
        JobSpecNotFoundException.java
        JobSpecSchedulerListenersContainer.java
        FsSpecProducer.java
        package-info.java
        GobblinInstanceDriver.java
        JobExecutionState.java
        MutableSpecCatalog.java
        GobblinInstancePlugin.java
        JobCatalogListenersContainer.java
        JobSpecMonitorFactory.java
        JobSpecMonitor.java
        JobExecutionResult.java
        SpecCatalogListenersContainer.java
        JobExecutionDriver.java
        JobSpecSchedulerListener.java
        JobExecutionStateListenerContainer.java
        EventMetadataGenerator.java
        GobblinInstancePluginFactory.java
        SpecNotFoundException.java
        MonitoredObject.java
        GobblinInstanceLauncher.java
        JobExecutionStateListener.java
        MutableJobCatalog.java
        JobSpec.java
        SpecCatalogListener.java
        SpecCatalog.java
        JobSpecScheduler.java
        JobCatalogWithTemplates.java
        JobExecutionEventSubmitter.java
        cli
        CliEmbeddedGobblin.java
        CliOptions.java
        ConstructorAndPublicMethodsGobblinCliFactory.java
        EmbeddedGobblinCliFactory.java
        PublicMethodsGobblinCliFactory.java
        PasswordManagerCLI.java
        scheduler
        DefaultJobSpecSchedulerListenerImpl.java
        QuartzJobSpecScheduler.java
        AbstractJobSpecScheduler.java
        JobSpecSchedulerListeners.java
        ImmediateJobSpecScheduler.java
        std
        JobLifecycleListenersList.java
        JobSpecFilter.java
        DefaultJobExecutionStateListenerImpl.java
        JobExecutionUpdatable.java
        JobExecutionStateListeners.java
        DefaultJobCatalogListenerImpl.java
        DefaultJobLifecycleListenerImpl.java
        DefaultConfigurableImpl.java
        DefaultJobSpecScheduleImpl.java
        FilteredJobLifecycleListener.java
        JobContext.java
        NoopDatasetStateStore.java
        ForkThrowableHolder.java
        EventMetadataUtils.java
        job_spec
        JobSpecResolver.java
        JobResolutionCallbacks.java
        ResolvedJobSpec.java
        SecureTemplateEnforcer.java
        util
        TaskMetrics.java
        JobMetrics.java
        JobStateToJsonConverter.java
        MultiWorkUnitUnpackingIterator.java
        RuntimeConstructs.java
        ForkMetrics.java
        StateStores.java
        ClustersNames.java
        MetricGroup.java
        job
        JobInterruptionPredicate.java
        JobProgress.java
        TaskProgress.java
        GobblinJobFiniteStateMachine.java
        plugins
        email
        EmailNotificationPlugin.java
        GobblinInstancePluginUtils.java
        PluginStaticKeys.java
        metrics
        GobblinMetricsPlugin.java
        BoundedBlockingRecordQueue.java
        TaskStateCollectorService.java
        RateBasedLimiter.java
        MysqlDatasetStateStoreFactory.java
        listeners
        AbstractCloseableJobListener.java
        CompositeJobListener.java
        AbstractJobListener.java
        CloseableJobListener.java
        JobListeners.java
        RunOnceJobListener.java
        EmailNotificationJobListener.java
        JobListener.java
        JobExecutionEventSubmitterListener.java
        commit
        DatasetStateCommitStep.java
        FsCommitSequenceStore.java
        CombinedWorkUnitAndDatasetStateGenerator.java
        locks
        ZookeeperBasedJobLock.java
        FileBasedJobLock.java
        DistributedHiveLockFactory.java
        JobLockException.java
        FileBasedJobLockFactory.java
        JobLock.java
        ListenableJobLock.java
        JobLockEventListener.java
        FileBasedJobLockFactoryManager.java
        AbstractJobLockFactoryManager.java
        JobLockFactory.java
        JobLockFactoryManager.java
        LegacyJobLockFactoryManager.java
        Limiter.java
        SourceDecorator.java
        CountBasedLimiter.java
        ForkException.java
        template
        StaticJobTemplate.java
        InheritingJobTemplate.java
        HOCONInputStreamJobTemplate.java
        ResourceBasedJobTemplate.java
        PullFileToConfigConverter.java
        TaskConfigurationKeys.java
        spec_store
        MysqlSpecStore.java
        FSSpecStore.java
        StateStoreBasedWatermarkStorageCli.java
        CountUpAndDownLatch.java
        BaseLimiterType.java
        StateStoreBasedWatermarkStorage.java
        StateStoreMigrationCli.java
        ForkThrowableHolderFactory.java
        local
        CliLocalJobLauncher.java
        LocalJobLauncher.java
        LocalTaskStateTracker.java
        NoopEventMetadataGenerator.java
        app
        ServiceBasedAppLauncher.java
        ApplicationException.java
        ApplicationLauncher.java
        ExecutionModel.java
        metrics
        RuntimeMetrics.java
        GobblinMultiTaskAttempt.java
        mapreduce
        CliMRJobLauncher.java
        GobblinOutputFormat.java
        MRJobLauncher.java
        MRTask.java
        CustomizedProgresser.java
        GobblinWorkUnitsInputFormat.java
        MRTaskFactory.java
        MRTaskStateTracker.java
        GobblinOutputCommitter.java
        CustomizedProgresserBase.java
        TaskState.java
        PoolBasedLimiter.java
        AbstractTaskStateTracker.java
        DynamicConfigGeneratorFactory.java
        TaskStateCollectorServiceHandler.java
        job_exec
        package-info.java
        JobLauncherExecutionDriver.java
        TaskExecutor.java
        embedded
        EmbeddedGobblin.java
        TaskContext.java
        HiveRegTaskStateCollectorServiceHandlerImpl.java
        fork
        AsynchronousFork.java
        SynchronousFork.java
        Fork.java
        service
        monitoring
        KillFlowEvent.java
        JobStatus.java
        FlowStatus.java
        JobStatusRetriever.java
        LatestFlowExecutionIdTracker.java
        FlowStatusGenerator.java
        gobblin
        runtime
        CheckpointableWatermarkState.java
        JobState.java
        mapreduce
        GobblinWorkUnitsInputFormat.java
        TaskState.java
    - jmh
      - java
        org
        apache
        gobblin
        runtime
        fork
        MockTaskContext.java
    - test
      - resources
        GobblinClustersNames.properties
        brokerTest
        SimpleHelloWorldJob.jobconf
        templates
        test-overwrite.template
        distcp-ng.template
        test-multitemplate-with-inheritance.template
        distcp-ng-hive.template
        performanceTest.template
        textFileBasedSourceTest.template
        test.template
        store
        TestJob
        current.jst
        log4j.xml
        gobblin.mr-test.properties
        schedulerUtilsTest
        templated.pull
        gobblin
        runtime
        instance
        SimpleHelloWorldJob.jobconf
        SimpleHelloWorldJob.template
        mr-job-conf
        GobblinMRTest.pull
        testJobs
        helloWorld.conf
      - java
        org
        apache
        hadoop
        fs
        FileSystemTestUtils.java
        gobblin
        source
        extractor
        filebased
        TextFileBasedSourceTest.java
        task
        FailsWithExceptionTaskFactory.java
        EventBusPublishingTaskFactory.java
        CustomTaskTest.java
        test
        TestSource.java
        TestConverter.java
        TestConverter2.java
        TestExtractor.java
        TestDataPublisher.java
        scheduler
        JobConfigFileMonitorTest.java
        util
        SchedulerUtilsTest.java
        ReflectivePredicateEvaluatorTest.java
        TemplateTest.java
        runtime
        DatasetStateStoreTest.java
        kafka
        MockedHighLevelConsumer.java
        TaskContextTest.java
        job_monitor
        MockedKafkaJobMonitor.java
        TestWorkUnitStreamSource.java
        job_catalog
        TestJobCatalogListenersList.java
        TestInMemoryJobCatalog.java
        TestImmutableFSJobCatalog.java
        TestNonObservingFSJobCatalog.java
        TestFSJobCatalog.java
        TestMutableCachingJobCatalog.java
        PackagedTemplatesJobCatalogDecoratorTest.java
        FSJobCatalogHelperTest.java
        spec_catalog
        FlowCatalogTest.java
        TopologyCatalogTest.java
        instance
        hadoop
        TestHadoopConfigLoader.java
        TestDefaultGobblinInstanceDriverImpl.java
        TestStandardGobblinInstanceDriver.java
        TestStandardGobblinInstanceLauncher.java
        MysqlDatasetStateStoreTest.java
        spec_serde
        FlowSpecSerializationTest.java
        TaskTest.java
        JobLauncherTestHelper.java
        api
        FsSpecProducerTest.java
        SecureJobTemplateTest.java
        TestJobExecutionState.java
        TestJobSpec.java
        scheduler
        TestQuartzJobSpecScheduler.java
        TestImmediateJobSpecScheduler.java
        std
        TestFilteredJobLifecycleListener.java
        TestDefaultConfigurableImpl.java
        TestJobSpecFilter.java
        TestJobLifecycleListenersList.java
        TestJobExecutionStateListeners.java
        CountUpAndDownLatchTest.java
        JobStateTest.java
        job_spec
        JobSpecResolverTest.java
        util
        TaskMetricsTest.java
        MultiWorkUnitUnpackingIteratorTest.java
        JobMetricsTest.java
        JobStateToJsonConverterTest.java
        job
        JobInterruptionPredicateTest.java
        LocalJobLauncherTest.java
        BoundedBlockingRecordQueueTest.java
        TaskStateTest.java
        commit
        FsCommitSequenceStoreTest.java
        CommitSequenceTest.java
        MultiConverterTest.java
        JobExecutionEventSubmitterTest.java
        locks
        LegacyJobLockFactoryManagerTest.java
        FileBasedJobLockFactoryManagerTest.java
        ZookeeperBasedJobLockTest.java
        FileBasedJobLockTest.java
        JobLockTest.java
        JobListenersTest.java
        LimiterStopEventTest.java
        TaskContinuousTest.java
        TestRecordStream.java
        FsDatasetStateStoreTest.java
        template
        StaticJobTemplateTest.java
        ResourceBasedJobTemplateTest.java
        InheritingJobTemplateTest.java
        spec_store
        MysqlSpecStoreTest.java
        FSSpecStoreTest.java
        JobContextTest.java
        mapreduce
        MRTaskFactoryTest.java
        GobblinOutputCommitterTest.java
        GobblinWorkUnitsInputFormatTest.java
        MRJobLauncherTest.java
        GobblinMultiTaskAttemptTest.java
        TaskStateCollectorServiceTest.java
        job_exec
        TestJobLauncherExecutionDriver.java
        DummyJobContext.java
        JobBrokerInjectionTest.java
        embedded
        EmbeddedGobblinTest.java
        service
        monitoring
        FlowStatusGeneratorTest.java
        performance
        PerformanceTest.java
  - build.gradle
- LICENSE
- gradlew
- travis
  - test-groups.inc
  - junit-xml-format-errors.xsl
  - filter-to-failing-test-results.py
  - test-default.sh
  - test-build.sh
  - test.sh
  - test-group1.sh
  - junit-errors-to-stdout.sh
  - bintrayDeploy.sh
  - test-coverage.sh
- gobblin-test-harness
  - src
    - main
      - java
        org
        apache
        gobblin
        test
        setup
        config
        Step.java
        TestHarnessLauncher.java
        ConfigStepsGenerator.java
        execution
        validator
        ValidationRule.java
        operator
        SetupOperator.java
    - test
      - resources
        runtime_test
        skip_workunits_test.properties
        test.avro
        writer_output_format_test.properties
        task_skip_err_records.properties
      - java
        org
        apache
        gobblin
        TestSkipWorkUnitsSource.java
        GobblinLocalJobLauncherUtils.java
        WriterOutputFormatIntegrationTest.java
        test
        integration
        data
        management
        CopyIntegrationTest.java
        TaskSkipErrRecordsIntegrationTest.java
        SkipWorkUnitsIntegrationTest.java
        TaskErrorIntegrationTest.java
        TestAvroConverter.java
        TestSkipWorkUnitsPublisher.java
        TestAvroSource.java
        TestAvroExtractor.java
  - resource
    - dataManagement
      - copy
        job-props
        copy.properties
        copy.pull
        data
        LogData.tar.gz
  - build.gradle
- .codecov_bash
- gobblin-cluster
  - src
    - main
      - java
        org
        apache
        gobblin
        cluster
        ScheduledJobConfigurationManager.java
        HelixRetriggeringJobCallable.java
        HelixUtils.java
        InMemorySingleTaskRunner.java
        HelixTaskEventMetadataGenerator.java
        GobblinTaskStateModel.java
        HelixTaskFactory.java
        GobblinHelixMetrics.java
        GobblinTaskStateModelFactory.java
        NoopReplyHandler.java
        HelixAssignedParticipantCheck.java
        TaskAttemptBuilder.java
        HelixJobsMapping.java
        ContainerHealthMetrics.java
        GobblinHelixTaskFactory.java
        SingleHelixTask.java
        SingleTaskRunnerBuilder.java
        ContainerMetrics.java
        SingleTaskRunnerMainOptions.java
        GobblinHelixMultiManager.java
        InMemoryWuSingleTask.java
        ContainerHealthCheckException.java
        ClusterEventMetadataGenerator.java
        GobblinHelixMessagingService.java
        GobblinHelixJobLauncherMetrics.java
        HelixMessageSubTypes.java
        FsJobConfigurationManager.java
        GobblinHelixTaskStateTracker.java
        StreamingJobConfigurationManager.java
        GobblinHelixJobTask.java
        SingleTaskRunnerMain.java
        TaskRunnerSuiteThreadModel.java
        GobblinClusterConfigurationKeys.java
        GobblinHelixJob.java
        SingleTaskLauncher.java
        ContainerHealthMetricsService.java
        GobblinHelixJobLauncher.java
        GobblinClusterMetricTagNames.java
        JobConfigurationManager.java
        GobblinHelixConstants.java
        SleepingTask.java
        SingleTask.java
        event
        UpdateJobConfigArrivalEvent.java
        ClusterManagerShutdownRequest.java
        DeleteJobConfigArrivalEvent.java
        NewJobConfigArrivalEvent.java
        SingleTaskRunner.java
        GobblinClusterUtils.java
        GobblinHelixTask.java
        GobblinTaskRunner.java
        GobblinHelixTaskMetrics.java
        GobblinHelixJobFactory.java
        SingleFailInCreationTask.java
        GobblinHelixJobScheduler.java
        TaskRunnerSuiteBase.java
        GobblinHelixDistributeJobExecutionLauncher.java
        LeadershipChangeAwareComponent.java
        GobblinClusterManager.java
        TaskRunnerSuiteProcessModel.java
        GobblinHelixPlanningJobLauncherMetrics.java
        GobblinClusterException.java
        GobblinHelixJobLauncherListener.java
        GobblinHelixJobSchedulerMetrics.java
        InMemoryWuFailedSingleTask.java
    - test
      - resources
        BasicManager.conf
        BasicTaskDriver.conf
        HelixUtilsTest.conf
        GobblinHelixJobLauncherTest.conf
        GobblinClusterKillTestJob.conf
        GobblinTaskRunnerTest.conf
        BasicWorker.conf
        reference.conf
        GobblinClusterKillTest.conf
        HelloWorldJob.conf
        log4j.xml
        GobblinClusterManager.conf
        BasicCluster.conf
      - java
        org
        apache
        gobblin
        cluster
        ClusterEventMetadataGeneratorTest.java
        DummySource.java
        SingleTaskRunnerMainOptionsTest.java
        TestHelper.java
        GobblinHelixJobLauncherTest.java
        FsJobConfigurationManagerTest.java
        HelixTaskEventMetadataGeneratorTest.java
        HelixUtilsTest.java
        GobblinClusterKillTest.java
        JobConfigurationManagerTest.java
        ClusterIntegrationTestUtils.java
        SingleHelixTaskTest.java
        SingleTaskRunnerMainArgumentsDataProvider.java
        suite
        IntegrationJobTagSuite.java
        IntegrationJobCancelSuite.java
        IntegrationSeparateProcessSuite.java
        IntegrationDedicatedManagerClusterSuite.java
        IntegrationJobFactorySuite.java
        IntegrationDedicatedTaskDriverClusterSuite.java
        IntegrationBasicSuite.java
        IntegrationJobRestartViaSpecSuite.java
        SingleTaskRunnerMainTest.java
        HelixMessageTestBase.java
        ContainerHealthMetricsServiceTest.java
        GobblinClusterManagerTest.java
        TaskRunnerSuiteForJobTagTest.java
        TaskRunnerSuiteForJobFactoryTest.java
        GobblinClusterUtilsTest.java
        SingleTaskLauncherTest.java
        GobblinHelixTaskTest.java
        TestShutdownMessageHandlerFactory.java
        GobblinTaskRunnerTest.java
        TestSingleTask.java
        HelixAssignedParticipantCheckTest.java
        SleepingTaskFactory.java
        SleepingCustomTaskSource.java
        ClusterIntegrationTest.java
  - build.gradle
- ligradle
  - findbugs
    - findbugsExclude.xml
- gobblin-restli
  - gobblin-restli-utils
    - src
      - main
        java
        org
        apache
        gobblin
        restli
        EmbeddedRestliServer.java
        SharedRestClientKey.java
        UriRestClientKey.java
        SharedRestClientFactory.java
    - build.gradle
  - server.gradle
  - gobblin-throttling-service
    - gobblin-throttling-service-api
      - src
        main
        idl
        org.apache.gobblin.restli.throttling.permits.restspec.json
        org.apache.gobblin.restli.throttling.policies.restspec.json
        pegasus
        org
        apache
        gobblin
        restli
        throttling
        PermitRequest.pdsc
        Policy.pdsc
        PermitAllocation.pdsc
        snapshot
        org.apache.gobblin.restli.throttling.policies.snapshot.json
        org.apache.gobblin.restli.throttling.permits.snapshot.json
        java
        org
        apache
        gobblin
        restli
        throttling
        ThrottlingProtocolVersion.java
      - config
        checkstyle
        suppressions.xml
      - build.gradle
    - gobblin-throttling-service-server
      - src
        main
        java
        org
        apache
        gobblin
        restli
        throttling
        QPSPolicy.java
        ThrottlingPolicyFactory.java
        LimiterServerResource.java
        NoopPolicy.java
        CountBasedPolicy.java
        URIMetadata.java
        PoliciesResource.java
        ThrottlingPolicy.java
        ThrottlingGuiceServletConfig.java
        DynamicTokenBucket.java
        ThrottlingServerScopes.java
        ConfigClientBasedPolicyFactory.java
        LeaderFinder.java
        TokenBucket.java
        ZookeeperLeaderElection.java
        webapp
        WEB-INF
        log4j.properties
        web.xml
        test
        resources
        log4j.properties
        configStore
        _CONFIG_STORE
        store-metadata.conf
        1
        ConfigBasedPolicyTest
        resource2
        main.conf
        resource1
        main.conf
        java
        org
        apache
        gobblin
        restli
        throttling
        ConfigStoreBasedPolicyTest.java
        TokenBucketTest.java
        TestFailover.java
        PoliciesResourceTest.java
        DynamicTokenBucketTest.java
        LimiterServerResourceTest.java
      - extraDependencies.gradle
      - build.gradle
    - gobblin-throttling-service-client
      - src
        main
        java
        org
        apache
        gobblin
        util
        limiter
        RequestSender.java
        stressTest
        Stressor.java
        MRStressTest.java
        FixedOperationsStressor.java
        RandomDelayStartStressor.java
        RateComputingLimiterContainer.java
        RandomRuntimeStressor.java
        StressTestUtils.java
        RestliServiceBasedLimiter.java
        RestliLimiterFactory.java
        BatchedPermitsRequester.java
        RestClientRequestSender.java
        RedirectAwareRestClientRequestSender.java
        test
        java
        org
        apache
        gobblin
        restli
        throttling
        LocalStressTest.java
        ThrottlingClientTest.java
        util
        limiter
        MockRequester.java
        RestliServiceBasedLimiterTest.java
        RestliLimiterFactoryTest.java
        BatchedPermitsRequesterTest.java
      - extraDependencies.gradle
      - build.gradle
  - gobblin-flow-config-service
    - gobblin-flow-config-service-client
      - src
        main
        java
        org
        apache
        gobblin
        service
        FlowStatusClient.java
        FlowConfigClient.java
        FlowExecutionClient.java
        FlowConfigV2Client.java
        test
        java
        org
        apache
        gobblin
        service
        FlowConfigTest.java
        FlowConfigV2Test.java
        FlowStatusTest.java
      - extraDependencies.gradle
      - build.gradle
    - gobblin-flow-config-service-server
      - src
        main
        java
        org
        apache
        gobblin
        service
        ServiceRequester.java
        FlowConfigsResourceHandler.java
        FlowConfigLoggedException.java
        FlowConfigResourceLocalHandler.java
        FlowConfigV2ResourceLocalHandler.java
        FlowConfigsV2Resource.java
        FlowStatusResource.java
        validator
        TemplateUriValidator.java
        CronValidator.java
        FlowExecutionResource.java
        NoopRequesterService.java
        RequesterService.java
        FlowConfigsResource.java
        test
        java
        org
        apache
        gobblin
        service
        FlowConfigResourceLocalHandlerTest.java
        ServiceRequesterSerDerTest.java
      - extraDependencies.gradle
      - config
        checkstyle
        suppressions.xml
      - build.gradle
    - gobblin-flow-config-service-api
      - src
        main
        idl
        org.apache.gobblin.service.flowconfigs.restspec.json
        org.apache.gobblin.service.flowconfigsV2.restspec.json
        org.apache.gobblin.service.flowstatuses.restspec.json
        org.apache.gobblin.service.flowexecutions.restspec.json
        pegasus
        org
        apache
        gobblin
        service
        FlowStatusId.pdsc
        JobId.pdsc
        ExecutionStatus.pdsc
        FlowStatistics.pdsc
        FlowConfig.pdsc
        Schedule.pdsc
        FlowStatus.pdsc
        FlowExecution.pdsc
        JobStatistics.pdsc
        FlowId.pdsc
        JobState.pdsc
        JobStatus.pdsc
        snapshot
        org.apache.gobblin.service.flowconfigs.snapshot.json
        org.apache.gobblin.service.flowexecutions.snapshot.json
        org.apache.gobblin.service.flowstatuses.snapshot.json
        org.apache.gobblin.service.flowconfigsV2.snapshot.json
      - extraDependencies.gradle
      - config
        checkstyle
        suppressions.xml
      - build.gradle
  - api.gradle
  - README.md
  - client.gradle
- HEADER
- config
  - checkstyle
    - checkstyle.xml
    - suppressions.xml
- gobblin-docker
  - gobblin-wikipedia
    - ubuntu-gobblin-latest
      - Dockerfile
    - ubuntu-gobblin-0.10.0
      - Dockerfile
    - ubuntu-gobblin-0.7.0
      - Dockerfile
    - ubuntu-gobblin-0.8.0
      - Dockerfile
    - ubuntu-gobblin-0.9.0
      - Dockerfile
  - gobblin-base
    - ubuntu
      - Dockerfile
  - gobblin-standalone
    - alpine-gobblin-latest
      - entrypoint.sh
      - Dockerfile
    - ubuntu-gobblin-latest
      - Dockerfile
    - ubuntu-gobblin-0.10.0
      - Dockerfile
    - ubuntu-gobblin-0.7.0
      - Dockerfile
    - ubuntu-gobblin-0.8.0
      - Dockerfile
    - ubuntu-gobblin-0.9.0
      - Dockerfile
  - gobblin-service
    - alpine-gaas-latest
      - entrypoint.sh
      - Dockerfile
      - docker-compose.yml
  - gobblin-distributions
    - ubuntu-gobblin-0.10.0
      - Dockerfile
    - ubuntu-gobblin-0.7.0
      - Dockerfile
    - ubuntu-gobblin-0.8.0
      - Dockerfile
    - ubuntu-gobblin-0.9.0
      - Dockerfile
- CHANGELOG.md
- maven-sonatype
  - upload-to-sonatype.sh
  - maven-sonatype.sh
  - maven-install.sh
  - github-pr-change-log.py
- build.gradle
- buildSrc
  - src
    - main
      - groovy
        org
        apache
        gobblin
        gradle
        BuildProperties.groovy
        BuildProperty.groovy
- dev
  - gobblin-pr
  - gobblin-jira-version
  - README.md
  - sign.sh
  - requirements.txt
- gobblin-runtime-hadoop
  - src
    - main
      - java
        org
        apache
        gobblin
        runtime
        instance
        plugin
        hadoop
        HadoopKerberosKeytabAuthenticationPlugin.java
    - test
      - java
        org
        apache
        gobblin
        runtime
        instance
        plugin
        hadoop
        TestHadoopKerberosKeytabAuthenticationPlugin.java
  - build.gradle
- DISCLAIMER
- gobblin-service
  - src
    - main
      - java
        org
        apache
        gobblin
        service
        monitoring
        KafkaAvroJobStatusMonitor.java
        KafkaJobStatusMonitor.java
        FsJobStatusRetriever.java
        KafkaJobStatusMonitorFactory.java
        LocalFsJobStatusRetriever.java
        MysqlJobStatusRetriever.java
        modules
        utils
        HelixUtils.java
        topology
        TopologySpecFactory.java
        ConfigBasedTopologySpecFactory.java
        dataset
        FSDatasetPartitionConfig.java
        EncryptionConfig.java
        HttpDatasetDescriptor.java
        DatasetDescriptor.java
        FormatConfig.java
        BaseDatasetDescriptor.java
        FSDatasetDescriptor.java
        HiveDatasetDescriptor.java
        DatasetDescriptorUtils.java
        SqlDatasetDescriptor.java
        scheduler
        GobblinServiceJobScheduler.java
        restli
        FlowConfigUtils.java
        GobblinServiceFlowConfigResourceHandler.java
        orchestration
        MysqlDagStateStore.java
        Orchestrator.java
        DagManagerUtils.java
        FSDagStateStore.java
        TimingEventUtils.java
        DagManager.java
        DagStateStore.java
        spec
        JobExecutionPlanListDeserializer.java
        JobExecutionPlan.java
        JobExecutionPlanDagFactory.java
        SerializationConstants.java
        JobExecutionPlanListSerializer.java
        template_catalog
        FSFlowTemplateCatalog.java
        ObservingFSFlowEdgeTemplateCatalog.java
        FlowCatalogWithTemplates.java
        template
        StaticFlowTemplate.java
        HOCONInputStreamFlowTemplate.java
        FlowTemplate.java
        core
        GitFlowGraphMonitor.java
        GobblinServiceManager.java
        GitConfigMonitor.java
        ControllerUserDefinedMessageHandlerFactory.java
        GitMonitoringService.java
        flowgraph
        BaseFlowEdge.java
        datanodes
        SqlDataNode.java
        fs
        AdlsDataNode.java
        FileSystemDataNode.java
        SftpDataNode.java
        HdfsDataNode.java
        LocalFSDataNode.java
        HttpDataNode.java
        hive
        HiveDataNode.java
        BaseDataNode.java
        DatasetDescriptorConfigKeys.java
        pathfinder
        AbstractPathFinder.java
        PathFinder.java
        BFSPathFinder.java
        FlowGraphConfigurationKeys.java
        FlowEdgeFactory.java
        BaseFlowGraph.java
        DataNode.java
        Dag.java
        FlowEdge.java
        FlowGraph.java
        flow
        BaseFlowToJobSpecCompiler.java
        DataMovementAuthorizer.java
        FlowUtils.java
        NoopDataMovementAuthorizer.java
        IdentityFlowToJobSpecCompiler.java
        MultiHopFlowCompiler.java
        SpecCompiler.java
        FlowEdgeContext.java
        MockedSpecCompiler.java
        FlowGraphPath.java
    - test
      - resources
        topologyspec_catalog
        azkaban01.properties
        testExecutor2.properties
        azkaban02.properties
        azkaban03.properties
        azkaban04.properties
        local01.properties
        testExecutor1.properties
        log4j.xml
        template_catalog
        multihop
        jobTemplates
        hdfs-retention.template
        hdfs-convert-to-json-and-encrypt.template
        distcp.template
        distcp-push-hdfs-to-adl.template
        flowEdgeTemplates
        hdfsConvertToJsonAndEncrypt
        flow.conf
        jobs
        hdfs-encrypt-avro-to-json.job
        hdfsToHdfs
        flow.conf
        jobs
        distcp-hdfs-to-hdfs.job
        localToHdfs
        flow.conf
        jobs
        distcp-local-to-hdfs.job
        hdfsToAdl
        flow.conf
        jobs
        distcp-hdfs-to-adl.job
        hdfsSnapshotRetention
        flow.conf
        jobs
        hdfs-snapshot-retention.job
        test-template
        flow.conf
        jobs
        job3.job
        job2.job
        job1.job
        job4.job
        templates
        job1.template
        job4.template
        job2.template
        job3.template
        flowEdgeTemplate
        flow.conf
        jobs
        job3.job
        job2.job
        job1.job
        job4.job
        flowgraph
        datanodes
        HdfsDataNode-3.properties
        HdfsDataNode-1.properties
        HdfsDataNode-4.properties
        HdfsDataNode-2.properties
        AdlsDataNode-1.properties
        LocalFsDataNode-1.properties
        flowedges
        hdfs-2-hdfs-2-retention.properties
        hdfs-2-to-hdfs-2-encrypt.properties
        hdfs-2-to-hdfs-4.properties
        hdfs-4-to-adls-1.properties
        hdfs-4-to-hdfs-4-retention.properties
        adls-1-to-adls-1-retention-1.properties
        hdfs-3-to-hdfs-3-retention.properties
        local-to-local-retention.properties
        hdfs-1-to-hdfs-3.properties
        hdfs-3-to-adls-1.properties
        hdfs-1-to-hdfs-1-retention.properties
        adls-1-to-adls-1-retention-2.properties
        local-to-hdfs-1.properties
        hdfs-1-to-hdfs-1-encrypt.properties
        local-to-hdfs-2.properties
        flow
        flow2.conf
        flow5.conf
        flow3.conf
        flow4.conf
        flow1.conf
      - java
        org
        apache
        gobblin
        service
        monitoring
        JobStatusRetrieverTest.java
        MysqlJobStatusRetrieverTest.java
        FsJobStatusRetrieverTest.java
        GobblinServiceManagerTest.java
        modules
        topology
        ConfigBasedTopologySpecFactoryTest.java
        dataset
        HiveDatasetDescriptorTest.java
        FSDatasetDescriptorTest.java
        HttpDatasetDescriptorTest.java
        SqlDatasetDescriptorTest.java
        scheduler
        GobblinServiceJobSchedulerTest.java
        restli
        FlowConfigUtilsTest.java
        orchestration
        FSDagStateStoreTest.java
        MysqlDagStateStoreTest.java
        DagManagerFlowTest.java
        DagTestUtils.java
        OrchestratorTest.java
        DagManagerTest.java
        spec
        JobExecutionPlanDagFactoryTest.java
        template_catalog
        FSFlowTemplateCatalogTest.java
        ObservingFSFlowEdgeTemplateCatalogTest.java
        core
        GobblinServiceHATest.java
        IdentityFlowToJobSpecCompilerTest.java
        GitConfigMonitorTest.java
        GitFlowGraphMonitorTest.java
        flowgraph
        DagTest.java
        BaseFlowGraphTest.java
        datanodes
        fs
        SftpDataNodeTest.java
        HttpDataNodeTest.java
        hive
        HiveDataNodeTest.java
        BaseFlowEdgeFactoryTest.java
        flow
        MultiHopFlowCompilerTest.java
        FlowGraphPathTest.java
  - build.gradle
- gobblin-oozie
  - src
    - test
      - resources
        local
        gobblin-oozie-example-system.properties
        gobblin-oozie-example-workflow.properties
        gobblin-oozie-example-workflow.xml
        mapreduce
        gobblin-oozie-mr-example-workflow.xml
        gobblin-oozie-mr-example-sysconfig.properties
        gobblin-oozie-mr-example-workflow.properties
- gobblin-salesforce
  - src
    - main
      - resources
        azkaban
        table_append.job
        table_inc.job
        table_full.job
        common.properties
        stand-alone
        table_inc.pull
        table_append.pull
        common.properties
        table_full.pull
      - java
        org
        apache
        gobblin
        salesforce
        SfConfig.java
        SalesforceExtractor.java
        QueryBasedSourceConfig.java
        BulkResultIterator.java
        FileIdVO.java
        QueryResultIterator.java
        ResultChainingIterator.java
        SalesforceSource.java
        SalesforceConnector.java
        SalesforceConfigurationKeys.java
        typedconfig
        ConstraintUtil.java
        Alias.java
        Default.java
        compiletime
        EnumOptions.java
        StringRegex.java
        LongRange.java
        IntRange.java
        TypedConfig.java
        Key.java
    - test
      - java
        org
        apache
        gobblin
        salesforce
        SalesforceSourceTest.java
  - build.gradle
- gobblin-tunnel
  - src
    - main
      - java
        org
        apache
        gobblin
        tunnel
        Config.java
        ProxySetupHandler.java
        ReadWriteHandler.java
        AcceptHandler.java
        HandlerState.java
        Tunnel.java
    - test
      - resources
        example.org.html
      - java
        org
        apache
        gobblin
        tunnel
        TestTunnelWithArbitraryTCPTraffic.java
        EasyThread.java
        ConnectProxyServer.java
        MockServer.java
        TalkPastServer.java
        DoubleEchoServer.java
        TunnelTest.java
        TalkFirstDoubleEchoServer.java
  - build.gradle
- gobblin-metrics-libs
  - gobblin-metrics-base
    - src
      - main
        avro
        FlatGobblinMetric.avsc
        GobblinTrackingEvent.avsc
        MetricReport.avsc
        resources
        META-INF
        services
        org.apache.gobblin.util.filesystem.FileSystemInstrumentationFactory
        java
        org
        apache
        gobblin
        filesystem
        MetricsFileSystemInstrumentation.java
        metrics
        InnerMeter.java
        ContextAwareMetric.java
        ContextAwareMeter.java
        Tagged.java
        ContextAwareCounter.java
        CustomCodahaleReporterFactory.java
        ReporterSinkType.java
        InnerTimer.java
        Measurements.java
        test
        TestConstants.java
        ContextStoreReporter.java
        MetricsAssert.java
        TimestampedValue.java
        MultiReporterException.java
        context
        ReportableContext.java
        ContextWeakReference.java
        filter
        ContextFilterFactory.java
        AllContextFilter.java
        ContextFilter.java
        NameConflictException.java
        broker
        MetricContextFactory.java
        LineageInfoFactory.java
        MetricContextKey.java
        SubTaggedMetricContextKey.java
        ContextAwareHistogram.java
        ReporterType.java
        ConsoleReporterFactory.java
        Taggable.java
        ConsoleEventReporterFactory.java
        InnerCounter.java
        InnerHistogram.java
        ContextAwareGauge.java
        event
        TimingEvent.java
        lineage
        LineageEventBuilder.java
        LineageInfo.java
        TaskEvent.java
        MultiTimingEvent.java
        EntityMissingEventBuilder.java
        CountEventBuilder.java
        sla
        SlaEventSubmitter.java
        SlaEventKeys.java
        GobblinEventBuilder.java
        JobEvent.java
        JobStateEventBuilder.java
        FailureEventBuilder.java
        EventName.java
        MultiPartEvent.java
        EventSubmitter.java
        example
        ReporterExampleBase.java
        Tag.java
        RootMetricContext.java
        metric
        ProxyMetric.java
        InnerMetric.java
        Metrics.java
        filter
        MetricNameRegexFilter.java
        MetricTypeFilter.java
        MetricFilters.java
        notification
        MetricContextCleanupNotification.java
        Notification.java
        EventNotification.java
        NewMetricContextNotification.java
        MetricNames.java
        InnerGauge.java
        MetricReporterException.java
        InnerMetricContext.java
        Counters.java
        MetricContext.java
        ContextAwareTimer.java
        reporter
        RecursiveScheduledReporter.java
        MetricReportReporter.java
        ContextAwareReporter.java
        FileFailureEventReporter.java
        ScheduledReporter.java
        EventReporter.java
        util
        MetricReportUtils.java
        EventUtils.java
        AvroJsonSerializer.java
        FixedSchemaVersionWriter.java
        AvroSerializer.java
        AvroBinarySerializer.java
        NoopSchemaVersionWriter.java
        SchemaVersionWriter.java
        OutputStreamEventReporter.java
        ConfiguredScheduledReporter.java
        OutputStreamReporter.java
        ContextAwareScheduledReporter.java
        RecursiveScheduledMetricReporter.java
        ContextAwareMetricFactoryArgs.java
        ContextAwareMetricFactory.java
        CustomReporterFactory.java
        TagBasedMetricFilter.java
      - test
        resources
        log4j.properties
        performance-testng.xml
        java
        org
        apache
        gobblin
        filesystem
        MetricsFileSystemInstrumentationTest.java
        metrics
        TagTest.java
        MetricContextTest.java
        ContextAwareMetricFactoryTest.java
        OutputStreamReporterTest.java
        broker
        MetricContextFactoryTest.java
        RootMetricContextTest.java
        event
        lineage
        LineageEventTest.java
        TimingEventTest.java
        CountEventBuilderTest.java
        GobblinEventTest.java
        TaggedTest.java
        metric
        filter
        MetricFiltersTest.java
        MetricTypeFilterTest.java
        MetricNameRegexFilterTest.java
        callback
        NotificationStore.java
        reporter
        FileFailureEventReporterTest.java
        performance
        PerformanceUtils.java
        Incrementer.java
        MetricsUpdater.java
        MetricsPerformanceTest.java
    - config
      - checkstyle
        suppressions.xml
    - build.gradle
  - gobblin-metrics
    - src
      - main
        java
        org
        apache
        gobblin
        MetricsHelper.java
        metrics
        ServiceMetricNames.java
        GobblinMetrics.java
        GobblinMetricsRegistry.java
      - test
        java
        org
        apache
        gobblin
        metrics
        GobblinMetricsTest.java
        reporter
        PrefixContextFilter.java
        ScheduledReporterTest.java
    - build.gradle
    - .gitignore
- gobblin-core
  - src
    - main
      - resources
        sqlserver
        sqlserver.properties
        table_inc.pull
        table_full_no_primary_keys_no_delta_columns.pull
        table_append.pull
        table_full.pull
        mysql
        mysql.properties
        table_inc.pull
        table_full_no_primary_keys_no_delta_columns.pull
        table_append.pull
        table_full.pull
        META-INF
        services
        org.apache.gobblin.recordaccess.RecordAccessorProvider
        sftp
        sftp-example.properties
        sftp-example.job
      - java
        org
        apache
        gobblin
        security
        ssl
        SSLContextFactory.java
        source
        RegexPartitionedAvroFileSource.java
        PartitionAwareFileRetrieverUtils.java
        extractor
        DatePartitionedAvroFileExtractor.java
        utils
        Utils.java
        ProxyFsInput.java
        InputStreamCSVReader.java
        DummyExtractor.java
        hadoop
        AvroFileSource.java
        HadoopTextInputSource.java
        OldApiWritableFileSource.java
        HadoopFileInputExtractor.java
        HadoopFileInputSource.java
        OldApiHadoopFileInputSource.java
        OldApiHadoopTextInputSource.java
        OldApiWritableFileExtractor.java
        AvroFileExtractor.java
        HadoopFsHelper.java
        OldApiHadoopFileInputExtractor.java
        AvroFsHelper.java
        SimpleJsonExtractor.java
        partition
        AppendMaxLimitType.java
        Partition.java
        Partitioner.java
        DatePartitionedJsonFileExtractor.java
        exception
        HighWatermarkException.java
        SchemaException.java
        RecordCountException.java
        RestApiClientException.java
        MetadataException.java
        RestApiProcessingException.java
        ExtractPrepareException.java
        RestApiConnectionException.java
        watermark
        Watermark.java
        WatermarkType.java
        TimestampWatermark.java
        WatermarkPredicate.java
        SimpleWatermark.java
        Predicate.java
        HourWatermark.java
        DateWatermark.java
        filebased
        FileByteIterator.java
        GZIPFileDownloader.java
        TokenizedFileDownloader.java
        SingleFileDownloader.java
        SizeAwareFileBasedHelper.java
        SizeAwareFileBasedHelperDecorator.java
        FileDownloader.java
        CsvFileDownloader.java
        FileBasedSource.java
        FileBasedHelperException.java
        FileBasedHelper.java
        TimestampAwareFileBasedHelper.java
        FileBasedExtractor.java
        TextFileBasedSource.java
        TokenBasedFileInputStreamExtractor.java
        extract
        ProtocolSpecificLayer.java
        SourceSpecificLayer.java
        restapi
        RestApiConnector.java
        RestApiExtractor.java
        RestApiSpecificLayer.java
        RestApiCommandOutput.java
        RestApiCommand.java
        Command.java
        ExtractType.java
        sftp
        SftpExtractor.java
        SftpFsHelper.java
        SftpSource.java
        SftpLightWeightFileSystem.java
        CommandType.java
        CommandOutput.java
        QueryBasedExtractor.java
        QueryBasedSource.java
        resultset
        RecordSet.java
        RecordSetList.java
        schema
        DataType.java
        ColumnAttributes.java
        MapDataType.java
        ColumnNameCase.java
        Schema.java
        EnumDataType.java
        ArrayDataType.java
        RegexBasedPartitionedRetriever.java
        DatePartitionedDailyAvroSource.java
        DatePartitionedJsonFileSource.java
        workunit
        MultiWorkUnitWeightedQueue.java
        PartitionedFileSourceBase.java
        DatePartitionedAvroFileSource.java
        DatePartitionedNestedRetriever.java
        PartitionAwareFileRetriever.java
        publisher
        TaskPublisherBuilderFactory.java
        BaseDataPublisherWithHiveRegistration.java
        TaskPublisher.java
        DataPublisherKey.java
        CommitSequencePublisher.java
        HiveRegistrationPublisher.java
        TimestampDataPublisher.java
        TimestampDataPublisherWithHiveRegistration.java
        TaskPublisherBuilder.java
        NoopPublisher.java
        TimePartitionedDataPublisher.java
        DataPublisherFactory.java
        BaseDataPublisher.java
        policies
        avro
        AvroHeaderTimestampPolicy.java
        AvroHeaderGuidPolicy.java
        AvroRecordTimestampLowerBoundPolicy.java
        time
        RecordTimestampLowerBoundPolicy.java
        count
        RowCountRangePolicy.java
        RowCountPolicy.java
        schema
        SchemaCompatibilityPolicy.java
        SchemaRowCheckPolicy.java
        state
        ConstructState.java
        net
        Request.java
        qualitychecker
        task
        TaskLevelPolicyChecker.java
        TaskLevelPolicyCheckerBuilder.java
        TaskLevelPolicyCheckerBuilderFactory.java
        TaskLevelPolicyCheckResults.java
        row
        RowLevelPolicyCheckResults.java
        RowLevelPolicyCheckerBuilder.java
        RowLevelPolicyCheckerBuilderFactory.java
        RowLevelErrFileWriter.java
        RowLevelPolicyChecker.java
        util
        TestUtils.java
        recordaccess
        CoreRecordAccessProvider.java
        RecordAccessorProviderFactory.java
        AvroGenericRecordAccessor.java
        config
        ConfigBuilder.java
        commit
        SpeculativeAttemptAwareConstruct.java
        FsRenameCommitStep.java
        converter
        avro
        JsonRecordAvroSchemaToAvroConverter.java
        AvroToBytesConverter.java
        JsonElementConversionFactory.java
        BytesToAvroConverter.java
        FlattenNestedKeyConverter.java
        AvroFieldRetrieverConverter.java
        AvroRecursionEliminatingConverter.java
        AvroToAvroCopyableConverter.java
        AvroRecordToAvroWritableConverter.java
        UnsupportedDateTypeException.java
        JsonIntermediateToAvroConverter.java
        JsonElementConversionWithAvroSchemaFactory.java
        csv
        CsvToJsonConverterV2.java
        CsvToJsonConverter.java
        EmptyIterable.java
        objectstore
        ObjectStoreConverter.java
        ObjectStoreDeleteConverter.java
        http
        AvroToRestJsonEntryConverter.java
        RestEntry.java
        StringSchemaInjector.java
        json
        JsonSchema.java
        JsonToStringConverter.java
        BytesToJsonConverter.java
        JsonStringToJsonIntermediateConverter.java
        filter
        AvroFilterConverter.java
        AvroFieldsPickConverter.java
        GobblinMetricsPinotFlattenerConverter.java
        serde
        OrcSerDeWrapper.java
        HiveSerDeConverter.java
        initializer
        ConverterInitializerFactory.java
        MultiConverterInitializer.java
        string
        StringToBytesConverter.java
        StringSplitterToListConverter.java
        TextToStringConverter.java
        StringFilterConverter.java
        StringSplitterConverter.java
        ObjectToStringConverter.java
        http
        DefaultHttpClientConfigurator.java
        HttpClientConfiguratorLoader.java
        HttpClientConfigurator.java
        writer
        ConsoleWriterBuilder.java
        DataWriterWrapperBuilder.java
        ThrottleWriter.java
        PartitionedDataWriter.java
        AvroDataWriterBuilder.java
        SchemaBasedPartitionedDataWriterBuilder.java
        HiveWritableHdfsDataWriterBuilder.java
        SimpleDataWriterBuilder.java
        test
        GobblinTestEventBusWriter.java
        TestingEventBuses.java
        TestingEventBusAsserter.java
        MetadataWriterWrapper.java
        SimpleDataWriter.java
        objectstore
        ObjectStoreWriter.java
        ObjectStoreOperationBuilder.java
        response
        GetObjectResponse.java
        DeleteResponse.java
        ObjectStoreDeleteOperation.java
        ObjectStoreOperation.java
        ObjectStoreClient.java
        CloseOnFlushWriterWrapper.java
        AvroHdfsDataWriter.java
        MetadataAwareWriter.java
        HiveWritableHdfsDataWriter.java
        FsDataWriterBuilder.java
        RetryWriter.java
        AbstractAsyncDataWriter.java
        http
        HttpWriterBuilder.java
        UnexpectedResponseException.java
        RestJsonWriterBuilder.java
        HttpWriterDecoration.java
        RestWriterBuilder.java
        SalesForceRestWriterBuilder.java
        DelegatingHttpClientConnectionManager.java
        RestJsonWriter.java
        HttpWriterDecorator.java
        HttpWriter.java
        SalesforceRestWriter.java
        RestWriter.java
        AbstractHttpWriterBuilder.java
        AbstractHttpWriter.java
        partitioner
        SchemaBasedWriterPartitioner.java
        TimeBasedWriterPartitioner.java
        WorkUnitStateWriterPartitioner.java
        TimeBasedAvroWriterPartitioner.java
        Retriable.java
        FsDataWriter.java
        ConsoleWriter.java
        initializer
        WriterInitializerFactory.java
        MultiWriterInitializer.java
        initializer
        MultiInitializer.java
        async
        DispatchException.java
        BufferedRecord.java
        AsyncRequest.java
        AsyncDataDispatcher.java
        AsyncRequestBuilder.java
        fork
        CopyableGenericRecord.java
        IdentityForkOperator.java
        CopyableSchema.java
        gobblin
        state
        ConstructState.java
    - test
      - resources
        source
        simple.tsv
        2018-01
        simplejson2.json
        simplejson.json
        metadata.json
        simple.tsv.gz
        2017-12
        simplejson.json
        metadata.json
        publisher
        sample_metadata.json
        META-INF
        services
        org.apache.gobblin.recordaccess.RecordAccessorProvider
        converter
        converted_pickfields_nested_with_union.avsc
        csv
        11_fields_with_null.json
        schema_with_11_fields.json
        10_fields.json
        schema_with_10_fields.json
        complex2.json
        nested.avro
        user.avsc
        complex1.json
        bytes_to_avro
        test_record_binary.avro
        test_record_schema.avsc
        record_with_arrays.avsc
        record_with_arrays.avro
        complex3.json
        fieldPickExpected.avsc
        jsonToAvroSchema.avsc
        pickfields_nested_with_union.avsc
        converted_pickfields_nested_with_union.avro
        nested_json.json
        fieldPickInput.avro
        nested_schema.json
        pickfields_nested_with_union.avro
        nested.avsc
        record3.json
        fieldPickInput_arrays.avro
        fieldPickInput.avsc
        recursive.avsc
        JsonElementConversionFactoryTest.json
        JsonStringToJsonIntermediateConverter.json
        schema.json
        jsonToAvroRecord.json
        writer
        hive_writer.properties
        serde
        serde.properties
        serde.avsc
        serde.avro
      - java
        org
        apache
        gobblin
        security
        ssl
        SSLContextFactoryTest.java
        configuration
        workunit
        MultiWorkUnitTest.java
        WorkUnitStateTest.java
        StateTest.java
        source
        RegexBasedPartitionedRetrieverTest.java
        extractor
        hadoop
        OldApiHadoopFileInputSourceTest.java
        HadoopFileInputSourceTest.java
        HadoopFsHelperTest.java
        partition
        PartitionerTest.java
        DatePartitionedAvroFileExtractorTest.java
        watermark
        DateWatermarkTest.java
        TimestampWatermarkTest.java
        HourWatermarkTest.java
        SimpleWatermarkTest.java
        filebased
        FileBasedSourceTest.java
        FileBasedExtractorTest.java
        TokenizedFileDownloaderTest.java
        extract
        QueryBasedExtractorTest.java
        QueryBasedSourceTest.java
        workunit
        MultiWorkUnitWeightedQueueTest.java
        publisher
        DataPublisherFactoryTest.java
        BaseDataPublisherTest.java
        policies
        count
        RowCountRangePolicyTest.java
        state
        ConstructStateTest.java
        qualitychecker
        TestConstants.java
        TestRowLevelPolicyFail.java
        TestRowLevelPolicy.java
        TaskLevelQualityCheckerTest.java
        RowCountTaskLevelPolicyTest.java
        row
        FrontLoadedSamplerTest.java
        RowLevelQualityCheckerTest.java
        TestTaskLevelPolicy.java
        recordaccess
        AvroGenericRecordAccessorTest.java
        RecordAccessorProviderFactoryTest.java
        commit
        FsRenameCommitStepTest.java
        instrumented
        InstrumentedTest.java
        converter
        avro
        JsonElementConversionFactoryTest.java
        BytesToAvroConverterTest.java
        JsonIntermediateToAvroConverterTest.java
        JsonRecordAvroSchemaToAvroConverterTest.java
        FlattenNestedKeyConverterTest.java
        AvroToBytesConverterTest.java
        AvroRecursionEliminatingConverterTest.java
        GobblinMetricsPinotFlattenerConverterTest.java
        csv
        CsvToJsonConverterV2Test.java
        objectstore
        ObjectStoreDeleteConverterTest.java
        http
        AvroToRestJsonEntryConverterTest.java
        json
        JsonStringToJsonIntermediateConverterTest.java
        BytesToJsonConverterTest.java
        filter
        AvroFieldsPickConverterTest.java
        string
        StringSplitterToListConverterTest.java
        StringSplitterConverterTest.java
        StringFilterConverterTest.java
        TextToStringConverterTest.java
        ObjectToStringConverterTest.java
        EmptyIterableTest.java
        http
        TestDefaultHttpClientConfiguration.java
        TestHttpClientConfiguratorLoader.java
        writer
        RetryWriterTest.java
        TestConstants.java
        SimpleDataWriterTest.java
        test
        TestingEventBusAsserterTest.java
        TestPartitioner.java
        GobblinTestEventBusWriterTest.java
        TestPartitionAwareWriterBuilder.java
        HiveWritableHdfsDataWriterTest.java
        objectstore
        ObjectStoreWriterTest.java
        PartitionedWriterTest.java
        DestinationTest.java
        ThrottleWriterTest.java
        http
        SalesforceRestWriterTest.java
        partitioner
        SchemaBasedWriterPartitionerTest.java
        TimeBasedAvroWriterPartitionerTest.java
        CloseOnFlushWriterWrapperTest.java
        ConsoleWriterTest.java
        MetadataWriterWrapperTest.java
        AvroHdfsDataWriterTest.java
        serde
        HiveSerDeTest.java
        async
        AsyncDataDispatcherTest.java
        fork
        CopyableGenericRecordTest.java
        CopyableSchemaTest.java
        IdentityForkOperatorTest.java
  - build.gradle
- gobblin-all
  - build.gradle
- .travis.yml
- README.md
- gobblin-aws
  - src
    - main
      - java
        org
        apache
        gobblin
        aws
        GobblinAWSUtils.java
        GobblinAWSConfigurationKeys.java
        AWSSdkClient.java
        AWSShutdownHandler.java
        GobblinAWSClusterLauncher.java
        Log4jConfigHelper.java
        AWSClusterSecurityManager.java
        CloudInitScriptBuilder.java
        GobblinAWSClusterManager.java
        GobblinAWSTaskRunner.java
        AWSJobConfigurationManager.java
    - test
      - resources
        GobblinAWSClusterLauncherTest.conf
        log4j.properties
        workerCloudInit.sh
        masterCloudInit.sh
      - java
        org
        apache
        gobblin
        aws
        AWSJobConfigurationManagerTest.java
        GobblinAWSClusterLauncherTest.java
        CloudInitScriptBuilderTest.java
        BaseAWSJobConfigurationManagerTest.java
        LegacyAWSJobConfigurationManagerTest.java
  - build.gradle
- gobblin-audit
  - src
    - main
      - java
        org
        apache
        gobblin
        audit
        values
        policy
        row
        SelectAllRowSelectionPolicy.java
        DefaultRowSelectionPolicyFactory.java
        RowSelectionPolicy.java
        AbstractRowSelectionPolicy.java
        column
        DefaultColumnProjectionPolicyFactory.java
        ColumnProjectionPolicy.java
        AbstractColumnProjectionPolicy.java
        ProjectAllColumnProjectionPolicy.java
        sink
        DefaultAuditSinkFactory.java
        FsAuditSink.java
        AuditSink.java
        auditor
        ValueAuditGenerator.java
        ValueAuditRuntimeMetadata.java
    - test
      - java
        org
        apache
        gobblin
        audit
        values
        ValueAuditGeneratorTest.java
        FsAuditSinkTest.java
        ValueAuditRuntimeMetadataTest.java
        MockSink.java
  - build.gradle
- bin
  - historystore-manager.sh
  - gobblin.sh
  - statestore-cleaner.sh
  - gobblin-aws.sh
  - gobblin-mapreduce.sh
  - gobblin_password_encryptor.sh
  - gobblin-cluster-master.sh
  - statestore-checker.sh
  - gobblin-service.sh
  - gobblin-yarn.sh
  - gobblin-cluster-worker.sh
  - gobblin-env.sh
  - gobblin-standalone.sh
  - gobblin-admin.sh
  - gobblin-compaction.sh
  - gobblin
- gobblin-yarn
  - src
    - main
      - java
        org
        apache
        gobblin
        yarn
        YarnHelixUtils.java
        GobblinApplicationMaster.java
        GobblinYarnLogSource.java
        HelixMessageSubTypes.java
        GobblinYarnMetricTagNames.java
        GobblinYarnTaskRunner.java
        YarnService.java
        GobblinYarnConfigurationKeys.java
        event
        ApplicationReportArrivalEvent.java
        ContainerReleaseRequest.java
        ContainerShutdownRequest.java
        GetApplicationReportFailureEvent.java
        DelegationTokenUpdatedEvent.java
        NewContainerRequest.java
        YarnAutoScalingManager.java
        AbstractYarnAppSecurityManager.java
        YarnContainerSecurityManager.java
        GobblinYarnAppLauncher.java
        YarnAppMasterSecurityManager.java
        YarnAppSecurityManagerWithKeytabs.java
        GobblinYarnEventConstants.java
    - test
      - resources
        application.conf
        YarnSecurityManagerTest.conf
        YarnServiceTest.conf
        GobblinYarnAppLauncherTest.conf
        log4j.properties
        reference.conf
        log4j-yarn.properties
      - java
        org
        apache
        gobblin
        yarn
        YarnServiceTestWithExpiration.java
        YarnServiceTest.java
        GobblinYarnAppLauncherTest.java
        YarnAutoScalingManagerTest.java
        YarnSecurityManagerTest.java
  - build.gradle
- gobblin-utility
  - src
    - main
      - resources
        META-INF
        services
        org.apache.gobblin.util.filesystem.FileSystemInstrumentationFactory
        org.apache.hadoop.fs.FileSystem
      - bash
        gobblin_password_encryptor.sh
      - java
        org
        apache
        gobblin
        util
        WritableShimSerialization.java
        DatePartitionType.java
        filesystem
        FileSystemLimiterKey.java
        PathAlterationObserver.java
        FileSystemDecorator.java
        FileSystemFactory.java
        ThrottledFileSystem.java
        ModTimeDataFileVersionStrategy.java
        ExceptionCatchingPathAlterationListenerDecorator.java
        InstrumentedFileSystemUtils.java
        FileSystemInstrumentationFactory.java
        InstrumentedWebHDFSFileSystem.java
        FileSystemSupplier.java
        InstrumentedLocalFileSystem.java
        PathAlterationListenerAdaptor.java
        FileSystemInstrumentation.java
        FileSystemKey.java
        PathAlterationObserverScheduler.java
        InstrumentedHDFSFileSystem.java
        PathAlterationListener.java
        FileStatusEntry.java
        InstrumentedFileSystem.java
        DataFileVersionStrategy.java
        callbacks
        CallbacksDispatcher.java
        package-info.java
        Callback.java
        CallbackResult.java
        GobblinProcessBuilder.java
        ImmutableProperties.java
        jdbc
        DataSourceModule.java
        DataSourceBuilder.java
        DataSourceProvider.java
        reflection
        RestrictedFieldAccessingUtils.java
        GobblinConstructorUtils.java
        Sleeper.java
        executors
        ScalingThreadPoolExecutor.java
        ScalingQueue.java
        MDCPropagatingRunnable.java
        MDCPropagatingCallable.java
        IteratorExecutor.java
        MDCPropagatingExecutorService.java
        MDCPropagatingScheduledExecutorService.java
        ForceQueuePolicy.java
        DownloadUtils.java
        iterators
        InterruptibleIterator.java
        PortUtils.java
        binpacking
        WorstFitDecreasingBinPacking.java
        FieldWeighter.java
        ProxiedFileSystemWrapper.java
        NoopCloseable.java
        ConfigUtils.java
        hadoop
        GobblinSequenceFileReader.java
        TokenUtils.java
        AvroUtils.java
        dataset
        DatasetUtils.java
        SystemPropertiesWrapper.java
        guid
        HasGuid.java
        Guid.java
        test
        HelloWorldSource.java
        TestIOUtils.java
        FastSequentialSource.java
        StdoutWriter.java
        StressTestingSource.java
        TestingSource.java
        request_allocation
        GreedyAllocator.java
        HierarchicalPrioritizer.java
        ResourceRequirement.java
        PushDownRequestor.java
        ResourcePool.java
        VectorAlgebra.java
        RequestAllocatorUtils.java
        ConcurrentBoundedPriorityIterable.java
        ResourceEstimator.java
        PreOrderAllocator.java
        RequestAllocator.java
        RequestAllocatorConfig.java
        BruteForceAllocator.java
        HierarchicalAllocator.java
        Request.java
        Requestor.java
        PriorityMultiIterator.java
        AllocatedRequestsIteratorBase.java
        PriorityIterableBasedRequestAllocator.java
        AllocatedRequestsIterator.java
        SimpleHierarchicalPrioritizer.java
        recordcount
        IngestionRecordCountProvider.java
        CompactionRecordCountProvider.java
        LateFileRecordCountProvider.java
        EmptyIterable.java
        PropertiesUtils.java
        ProxiedFileSystemCache.java
        HiveJdbcConnector.java
        LoggingUncaughtExceptionHandler.java
        FileListUtils.java
        deprecation
        DeprecationUtils.java
        JobLauncherUtils.java
        service
        StandardServiceConfig.java
        TimeRangeChecker.java
        PullFileLoader.java
        FileUtils.java
        AutoReturnableObject.java
        SerializationUtils.java
        AvroFlattener.java
        event
        ContainerHealthCheckFailureEvent.java
        JobConfigurationUtils.java
        ProxiedFileSystemUtils.java
        JvmUtils.java
        filters
        AndPathFilter.java
        TarGpgPathFilter.java
        HiddenFilter.java
        RegexPathFilter.java
        ParallelRunner.java
        HadoopUtils.java
        Id.java
        io
        EmptyInputStream.java
        SeekableFSInputStream.java
        ThrottledInputStream.java
        AdditionalCloseableInputStream.java
        CloseableHttpConn.java
        MeteredStream.java
        StreamUtils.java
        StreamCopier.java
        StreamThrottler.java
        FilterStreamUnpacker.java
        StreamCopierSharedLimiterKey.java
        MeteredInputStream.java
        BatchedMeterDecorator.java
        MeteredOutputStream.java
        EmailUtils.java
        HiveAvroTypeConstants.java
        http
        HttpLimiterKey.java
        eventbus
        EventBusFactory.java
        EventBusKey.java
        ClustersNames.java
        AutoCloseableLock.java
        concurrent
        HashedWheelTimerTaskScheduler.java
        ScheduledExecutorServiceTaskScheduler.java
        TaskSchedulerFactory.java
        TaskScheduler.java
        CancellableTask.java
        ScheduledTask.java
        AutoResetEvent.java
        TaskSchedulerType.java
        WriterUtils.java
        DatasetFilterUtils.java
        ExponentialBackoff.java
        CLIPasswordEncryptor.java
        json
        JsonUtils.java
        ForkOperatorUtils.java
        logs
        Log4jConfigurationHelper.java
        LogCopier.java
        AzkabanTags.java
        PublisherUtils.java
        limiter
        NonRefillableLimiter.java
        DefaultLimiterFactory.java
        TimeBasedLimiter.java
        MultiLimiter.java
        broker
        SharedLimiterFactory.java
        SharedLimiterKey.java
        RateBasedLimiter.java
        Limiter.java
        CountBasedLimiter.java
        BaseLimiterType.java
        NotEnoughPermitsException.java
        LimiterFactory.java
        PoolBasedLimiter.java
        NoopLimiter.java
        HeapDumpForTaskUtils.java
        RateControlledFileSystem.java
        PathUtils.java
        retry
        RetryerFactory.java
        Either.java
        HostUtils.java
        ExecutorsUtils.java
        ClusterNameTags.java
        TemplateUtils.java
        StringParsingUtils.java
        ApplicationLauncherUtils.java
        runtime
        cli
        PublicMethodsCliObjectFactory.java
        NotOnCli.java
        GobblinCli.java
        CliObjectFactory.java
        CliApplication.java
        CliObjectSupport.java
        ConstructorAndPublicMethodsCliObjectFactory.java
        CliObjectOption.java
        broker
        ResourceInstance.java
        EmptyKey.java
        ScopeWrapper.java
        SharedResourcesBrokerImpl.java
        SharedResourcesBrokerUtils.java
        BrokerConfigurationKeyGenerator.java
        SharedResourcesBrokerFactory.java
        TTLResourceEntry.java
        DefaultBrokerCache.java
        package-info.java
        ImmediatelyInvalidResourceEntry.java
        KeyedScopedConfigViewImpl.java
        NonExtendableBrokerView.java
        exception
        NonTransientException.java
        data
        management
        copy
        hive
        WhitelistBlacklist.java
        fsm
        StateWithCallbacks.java
        FiniteStateMachine.java
    - test
      - resources
        log4j.properties
        GobblinClustersNames.properties
        test_data.json
        pullFileLoaderTest
        bjob.pull
        root.properties
        dir1
        dir1.configuration
        job.conf
        job.pull
        ajob.pull
        broker
        testBroker.conf
        flattenAvro
        recordWithinArrayWithinArray_original.json
        recordWithinMapWithinMap_flattened.json
        optionWithinOptionWithinRecord_original.json
        recordWithinMapWithinMap_original.json
        recordWithinRecordWithinRecord_original.json
        recordWithinOptionWithinRecord_flattened.json
        recordWithinRecordWithinRecord_flattened.json
        recordWithinUnionWithinRecord_original.json
        recordWithinRecord_original.json
        recordWithinRecord_flattened.json
        arrayWithinRecordWithinArrayWithinRecord_flattened.json
        arrayWithinRecordWithinArrayWithinRecord_original.json
        recordWithinUnionWithinRecord_flattened.json
        recordWithinArrayWithinArray_flattened.json
        optionWithinOptionWithinRecord_flattened.json
        recordWithinOptionWithinRecord_original.json
        avroDirParent
        avroDir
        mockAvro.avro
        avroUtilsTestFile.avro
        test_data.avsc
        recursive_schemas
        recursive_nested_solution.avsc
        recursive_simple.avsc
        recursive_norecursion_solution.avsc
        recursive_array.avsc
        recursive_union.avsc
        recursive_multiple.avsc
        recursive_map_solution.avsc
        recursive_norecursion.avsc
        recursive_simple_solution.avsc
        recursive_nested.avsc
        recursive_union_solution.avsc
        recursive_multiple_solution.avsc
        recursive_map.avsc
        recursive_array_solution.avsc
      - java
        org
        apache
        gobblin
        util
        filesystem
        FileSystemFactoryTest.java
        InstrumentedLocalFileSystemTest.java
        ThrottledFileSystemTest.java
        FileUtilsTest.java
        callbacks
        TestCallbacksDispatcher.java
        HadoopUtilsTest.java
        TestImmutableProperties.java
        ClustersNamesTest.java
        SystemPropertiesWrapperTest.java
        FileListUtilsTest.java
        reflection
        GobblinConstructorUtilsTest.java
        BaseClass.java
        DerivedClass.java
        RestrictedFieldAccessingUtilsTest.java
        EnclosedClass.java
        executors
        IteratorExecutorTest.java
        HiveJdbcConnectorTest.java
        binpacking
        WorstFitDecreasingBinPackingTest.java
        SerializationUtilsTest.java
        PropertiesUtilsTest.java
        dataset
        DatasetUtilsTest.java
        guid
        GuidTest.java
        test
        TestStressTestingSource.java
        TestIOUtilsTest.java
        TestHelloWorldSource.java
        StringParsingUtilsTest.java
        RatedControlledFileSystemTest.java
        request_allocation
        GreedyAllocatorTest.java
        BruteForceAllocatorTest.java
        VectorAlgebraTest.java
        StringRequest.java
        HierarchicalAllocatorTest.java
        ResourcePoolTest.java
        PreOrderAllocatorTest.java
        ConcurrentBoundedPriorityIterableTest.java
        StringRequestor.java
        AvroUtilsTest.java
        recordcount
        IngestionRecordCountProviderTest.java
        CompactionRecordCountProviderTest.java
        JobLauncherUtilsTest.java
        ForkOperatorUtilsTest.java
        LoggingUncaughtExceptionHandlerTest.java
        PortUtilsTest.java
        ConfigUtilsTest.java
        filters
        RegexPathFilterTest.java
        WriterUtilsTest.java
        TimeRangeCheckerTest.java
        io
        StreamCopierTest.java
        StreamUtilsTest.java
        ThrottledInputStreamTest.java
        MeteredOutputStreamTest.java
        MeteredInputStreamTest.java
        DatePartitionTypeTest.java
        eventbus
        EventBusFactoryTest.java
        PullFileLoaderTest.java
        concurrent
        TaskSchedulerFactoryTest.java
        TaskSchedulerTest.java
        HashedWheelTimerTaskSchedulerTest.java
        ScheduledExecutorServiceTaskSchedulerTest.java
        logs
        LogCopierTest.java
        limiter
        TimeBasedLimiterTest.java
        DefaultLimiterFactoryTest.java
        RateBasedLimiterTest.java
        broker
        SharedLimiterFactoryTest.java
        MultiLimiterTest.java
        CountBasedLimiterTest.java
        ParallelRunnerTest.java
        AvroFlattenerTest.java
        HeapDumpForTaskUtilsTest.java
        ExecutorsUtilsTest.java
        runtime
        cli
        PublicMethodsCliObjectFactoryTest.java
        ConstructorAndPublicMethodsCliObjectFactoryTest.java
        broker
        DefaultGobblinBrokerTest.java
        GobblinBrokerCreationTest.java
        KeyedScopedConfigViewImplTest.java
        SharedResourcesBrokerFactoryTest.java
        GobblinBrokerConfTest.java
        TestFactoryWithRedirect.java
        TestFactory.java
        AutoscopedFactoryTest.java
        TestResourceKey.java
        fsm
        FiniteStateMachineTest.java
  - build.gradle
- gobblin-modules
  - gobblin-kafka-09
    - src
      - main
        java
        org
        apache
        gobblin
        kafka
        client
        Kafka09ConsumerClient.java
        writer
        Kafka09DataWriter.java
        Kafka09JsonObjectWriterBuilder.java
        KafkaDataWriterBuilder.java
        serialize
        LiAvroDeserializer.java
        LiAvroSerializer.java
        source
        extractor
        extract
        kafka
        KafkaSimpleStreamingExtractor.java
        KafkaSimpleStreamingSource.java
        Kafka09JsonSource.java
        service
        AvroJobSpecDeserializer.java
        metrics
        kafka
        KafkaKeyValueProducerPusher.java
        KafkaProducerPusher.java
      - test
        java
        org
        apache
        gobblin
        kafka
        KafkaClusterTestBase.java
        source
        extractor
        extract
        kafka
        KafkaSimpleStreamingTest.java
        client
        Kafka09ConsumerClientTest.java
        KafkaTestBase.java
        writer
        ByPassWatcher.java
        Kafka09TopicProvisionTest.java
        Kafka09DataWriterTest.java
        Kafka09JsonIntegrationTest.java
        runtime
        HighLevelConsumerTest.java
        KafkaJobMonitorTest.java
        SLAEventKafkaJobMonitorTest.java
        KafkaAvroJobStatusMonitorTest.java
        KafkaAvroJobMonitorTest.java
        service
        StreamingKafkaSpecExecutorTest.java
        metrics
        reporter
        KafkaProducerPusherTest.java
        KafkaKeyValueProducerPusherTest.java
    - build.gradle
  - gobblin-zuora
    - src
      - main
        resources
        zuora_sample.pull
        java
        org
        apache
        gobblin
        zuora
        ZuoraClientFilesStreamer.java
        ZuoraClient.java
        ZuoraConfigurationKeys.java
        ZuoraSource.java
        ZuoraDeletedColumn.java
        ZuoraParams.java
        ZuoraUtil.java
        ZuoraClientImpl.java
        ZuoraQuery.java
        ZuoraExtractor.java
    - build.gradle
    - .gitignore
  - gobblin-crypto
    - src
      - main
        java
        org
        apache
        gobblin
        crypto
        HexKeyToStringCodec.java
        JsonCredentialStore.java
        KeyToStringCodec.java
        RotatingAESCodec.java
        GPGFileEncryptor.java
        GPGFileDecryptor.java
        Base64KeyToStringCodec.java
        JCEKSKeystoreCredentialStore.java
        GPGCodec.java
        converter
        SerializedRecordToEncryptedSerializedRecordConverterBase.java
        EncryptedSerializedRecordToSerializedRecordConverterBase.java
      - jmh
        java
        org
        apache
        gobblin
        crypto
        EncodingBenchmark.java
      - test
        resources
        crypto
        test_json_keystore.base64.json
        test_json_keystore.hex.json
        gpg
        KeyBasedEncryptionFile.txt.gpg
        PasswordBasedEncryptionFile.txt.gpg
        testPublic.key
        testPrivate.key
        passwordEncrypted.gpg
        keyEncrypted.gpg
        private.key
        java
        org
        apache
        gobblin
        crypto
        RotatingAESCodecTest.java
        JsonCredentialStoreTest.java
        JCEKSKeystoreCredentialStoreTest.java
        KeyToStringCodecTest.java
        GPGFileEncryptorTest.java
        GPGFileDecryptorTest.java
    - build.gradle
  - gobblin-helix
    - src
      - main
        java
        org
        apache
        gobblin
        metastore
        ZkStateStore.java
        ZkStateStoreConfigurationKeys.java
        ZkStateStoreFactory.java
        runtime
        ZkDatasetStateStore.java
        ZkDatasetStateStoreFactory.java
      - test
        java
        org
        apache
        gobblin
        runtime
        StateStoreWatermarkStorageTest.java
        ZkDatasetStateStoreTest.java
    - build.gradle
  - gobblin-compliance
    - src
      - main
        java
        org
        apache
        gobblin
        compliance
        DatasetDescriptor.java
        utils
        DatasetUtils.java
        ProxyUtils.java
        PartitionUtils.java
        retention
        HivePartitionVersionRetentionCleanerPolicy.java
        HivePartitionVersionRetentionRunner.java
        CleanableHivePartitionDataset.java
        ComplianceRetentionJob.java
        HivePartitionVersionRetentionReaperPolicy.java
        CleanableHivePartitionDatasetFinder.java
        HivePartitionVersionRetentionReaper.java
        HivePartitionVersionRetentionCleaner.java
        HivePartitionRetentionVersion.java
        ComplianceConfigurationKeys.java
        azkaban
        ComplianceAzkabanJob.java
        purger
        PurgePolicy.java
        HivePurgerCommitPolicy.java
        HivePurgerSource.java
        PurgeableHivePartitionDatasetSchema.java
        PurgeableDataset.java
        HivePurgerQueryTemplate.java
        HivePurgerWriterBuilder.java
        HivePurgerWriter.java
        HivePurgerExtractor.java
        PurgeableHivePartitionDataset.java
        HivePurgerConverter.java
        HivePurgerPublisher.java
        HivePurgerPolicy.java
        CommitPolicy.java
        HiveProxyQueryExecutor.java
        ComplianceJob.java
        Policy.java
        DatasetDescriptorImpl.java
        HivePartitionVersionPolicy.java
        restore
        RestorableHivePartitionDataset.java
        RestorePolicy.java
        HivePartitionRestorePolicy.java
        RestorableDataset.java
        LKGRestorePolicy.java
        ComplianceRestoreJob.java
        AdhocRestorePolicy.java
        RestorableHivePartitionDatasetFinder.java
        HivePartitionVersionFinder.java
        ComplianceEvents.java
        HivePartitionDatasetPolicy.java
        validation
        ValidatableDataset.java
        ComplianceValidationJob.java
        HivePartitionVersion.java
        HivePartitionDataset.java
        QueryExecutor.java
        HivePartitionFinder.java
      - test
        java
        org
        apache
        gobblin
        compliance
        purger
        HivePurgerConverterTest.java
        HivePurgerExtractorTest.java
        HivePurgerWriterTest.java
    - build.gradle
  - gobblin-azure-datalake
    - src
      - main
        resources
        META-INF
        services
        org.apache.hadoop.fs.FileSystem
    - build.gradle
  - gobblin-codecs
    - src
      - main
        java
        org
        apache
        gobblin
        codec
        Base64Codec.java
        GzipCodec.java
    - build.gradle
  - gobblin-metrics-graphite
    - src
      - main
        java
        org
        apache
        gobblin
        metrics
        graphite
        GraphitePusher.java
        GraphiteConnectionType.java
        GraphiteEventReporter.java
        GraphiteReporter.java
      - test
        java
        org
        apache
        gobblin
        metrics
        graphite
        TestGraphiteSender.java
        GraphiteEventReporterTest.java
        GraphiteReporterTest.java
    - build.gradle
  - gobblin-couchbase
    - src
      - main
        java
        org
        apache
        gobblin
        couchbase
        common
        TupleDocument.java
        converter
        AnyToCouchbaseJsonConverter.java
        AvroToCouchbaseTupleConverter.java
        writer
        CouchbaseWriter.java
        CouchbaseEnvironmentFactory.java
        CouchbaseWriterConfigurationKeys.java
        CouchbaseWriterBuilder.java
      - test
        java
        org
        apache
        gobblin
        couchbase
        CouchbaseTestServer.java
        converter
        AvroToCouchbaseTupleConverterTest.java
        AnyToCouchbaseJsonConverterTest.java
        writer
        CouchbaseWriterTest.java
    - build.gradle
    - scripts
      - install_test_deps.sh
      - uninstall_test.deps.sh
    - .gitignore
  - gobblin-metrics-influxdb
    - src
      - main
        java
        org
        apache
        gobblin
        metrics
        influxdb
        InfluxDBPusher.java
        InfluxDBReporter.java
        InfluxDBEventReporter.java
        InfluxDBConnectionType.java
      - test
        java
        org
        apache
        gobblin
        metrics
        influxdb
        InfluxDBReporterTest.java
        TestInfluxDB.java
        InfluxDBEventReporterTest.java
    - build.gradle
  - gobblin-parquet
    - src
      - main
        java
        org
        apache
        gobblin
        converter
        parquet
        JsonElementConversionFactory.java
        ParquetGroup.java
        JsonIntermediateToParquetGroupConverter.java
        writer
        ParquetDataWriterBuilder.java
      - test
        resources
        converter
        JsonIntermediateToParquetConverter.json
        java
        org
        apache
        gobblin
        converter
        parquet
        JsonIntermediateToParquetGroupConverterTest.java
        writer
        TestConstants.java
        ParquetHdfsDataWriterTest.java
    - build.gradle
  - gobblin-eventhub
    - src
      - main
        java
        org
        apache
        gobblin
        eventhub
        EventhubMetricNames.java
        writer
        EventhubRequest.java
        EventhubBatchAccumulator.java
        EventhubDataWriter.java
        EventhubDataWriterBuilder.java
        BatchedEventhubDataWriter.java
      - test
        java
        org
        apache
        gobblin
        eventhub
        writer
        EventhubBatchTest.java
        EventhubAccumulatorTest.java
        EventhubDataWriterTest.java
        BatchedEventhubDataWriterTest.java
    - build.gradle
  - gobblin-orc-dep
    - build.gradle
  - gobblin-elasticsearch-deps
    - build.gradle
  - gobblin-parquet-apache
    - src
      - main
        java
        org
        apache
        gobblin
        converter
        parquet
        JsonElementConversionFactory.java
        ParquetGroup.java
        JsonIntermediateToParquetGroupConverter.java
        writer
        ParquetDataWriterBuilder.java
      - test
        resources
        converter
        JsonIntermediateToParquetConverter.json
        java
        org
        apache
        gobblin
        converter
        parquet
        JsonIntermediateToParquetGroupConverterTest.java
        writer
        TestConstants.java
        ParquetHdfsDataWriterTest.java
    - build.gradle
  - gobblin-avro-json
    - src
      - main
        java
        org
        apache
        gobblin
        converter
        avro
        AvroToJsonBytesWithMetadataConverter.java
        AvroToJsonBytesConverter.java
        AvroToJsonStringConverter.java
        AvroToJsonRecordWithMetadataConverter.java
        AvroToJsonConverter.java
        AvroToJsonStringConverterBase.java
      - test
        java
        org
        apache
        gobblin
        converter
        avro
        AvroToJsonStringConverterTest.java
        AvroToJsonRecordWithMetadataConverterTest.java
    - build.gradle
  - gobblin-http
    - src
      - main
        avro
        HttpRequestReponse.avsc
        HttpOperation.avsc
        java
        org
        apache
        gobblin
        utils
        HttpUtils.java
        HttpConstants.java
        r2
        R2HttpClientProxy.java
        R2ResponseStatus.java
        D2ClientProxy.java
        R2Request.java
        R2RestResponseHandler.java
        R2ClientFactory.java
        R2Client.java
        R2RestRequestBuilder.java
        converter
        AvroHttpJoinConverter.java
        AvroApacheHttpJoinConverter.java
        HttpJoinConverter.java
        AvroR2JoinConverter.java
        AsyncHttpJoinConverter.java
        http
        HttpClient.java
        ApacheHttpResponseHandler.java
        ResponseStatus.java
        ApacheHttpRequest.java
        StatusType.java
        ResponseHandler.java
        ApacheHttpClient.java
        ApacheHttpAsyncClient.java
        ThrottledHttpClient.java
        ApacheHttpResponseStatus.java
        ApacheHttpRequestBuilder.java
        writer
        R2RestWriterBuilder.java
        AsyncHttpWriter.java
        AsyncHttpWriterBuilder.java
        AvroHttpWriterBuilder.java
      - test
        java
        org
        apache
        gobblin
        HttpTestUtils.java
        r2
        R2ClientFactoryTest.java
        R2RestRequestBuilderTest.java
        util
        HttpUtilsTest.java
        http
        ApacheHttpRequestBuilderTest.java
        MockGenericRecord.java
        writer
        AsyncHttpWriterTest.java
    - build.gradle
  - gobblin-grok
    - src
      - main
        resources
        grok
        grok-base-patterns
        java
        org
        apache
        gobblin
        converter
        grok
        GrokToJsonConverter.java
      - test
        resources
        grok
        grok-patterns
        converter
        grok
        convertedRecord.json
        s3AccessLogSchema.json
        schemaWithNullableFields.json
        schemaWithNonNullableFields.json
        convertedS3AccessLogRecord.json
        java
        org
        apache
        gobblin
        converter
        grok
        GrokToJsonConverterTest.java
    - build.gradle
  - gobblin-crypto-provider
    - src
      - main
        resources
        META-INF
        services
        org.apache.gobblin.crypto.CredentialStoreProvider
        org.apache.gobblin.crypto.EncryptionProvider
        java
        org
        apache
        gobblin
        crypto
        GobblinEncryptionProvider.java
        JCEKSKeystoreCredentialStoreCli.java
        converter
        AvroStringFieldDecryptorConverter.java
        SerializedRecordToEncryptedSerializedRecordConverter.java
        StringFieldEncryptorConverter.java
        EncryptedSerializedRecordToSerializedRecordConverter.java
        AvroStringFieldEncryptorConverter.java
        StringFieldDecryptorConverter.java
      - test
        resources
        testPublic.key
        record_with_arrays.avsc
        record_with_arrays.avro
        testPrivate.key
        encryption_provider_test_keystore
        fieldPickInput_arrays.avro
        java
        org
        apache
        gobblin
        crypto
        GobblinEncryptionProviderTest.java
        converter
        SerializedRecordToEncryptedSerializedRecordConverterTest.java
        AvroStringFieldEncryptorConverterTest.java
        EncryptedSerializedRecordToSerializedRecordConverterTest.java
        AvroStringFieldDecryptorConverterTest.java
    - build.gradle
    - README.md
  - gobblin-sql
    - src
      - main
        java
        org
        apache
        gobblin
        source
        jdbc
        JdbcExtractor.java
        SqlServerExtractor.java
        SqlQueryUtils.java
        JdbcSpecificLayer.java
        JdbcCommand.java
        JdbcCommandFormatException.java
        PostgresqlExtractor.java
        JdbcCommandOutput.java
        OracleExtractor.java
        JdbcProvider.java
        TeradataExtractor.java
        MysqlExtractor.java
        extractor
        extract
        jdbc
        MysqlSource.java
        TeradataSource.java
        SqlServerSource.java
        PostgresqlSource.java
        OracleSource.java
        publisher
        JdbcPublisher.java
        converter
        jdbc
        JdbcEntryData.java
        JdbcEntryMetaDatum.java
        JdbcEntrySchema.java
        AvroToJdbcEntryConverter.java
        JdbcType.java
        JdbcEntryDatum.java
        initializer
        AvroToJdbcEntryConverterInitializer.java
        writer
        JdbcWriterBuilder.java
        commands
        MySqlWriterCommands.java
        GenericJdbcBufferedInserter.java
        JdbcWriterCommands.java
        TeradataWriterCommands.java
        JdbcBufferedInserter.java
        MySqlBufferedInserter.java
        PostgresBufferedInserter.java
        TeradataBufferedInserter.java
        BaseJdbcBufferedInserter.java
        PostgresWriterCommands.java
        JdbcWriterCommandsFactory.java
        JdbcWriter.java
        initializer
        JdbcWriterInitializer.java
      - test
        resources
        converter
        user.avsc
        pickfields_nested_with_union.avsc
        pickfields_nested_with_union.avro
        pickfields_nested_with_union.json
        fieldPickInput.avsc
        java
        org
        apache
        gobblin
        source
        jdbc
        OracleExtractorTest.java
        MockJdbcColumn.java
        SqlQueryUtilsTest.java
        PostgresqlExtractorTest.java
        JdbcExtractorTest.java
        TimestampWatermarkTest.java
        converter
        jdbc
        AvroToJdbcEntryConverterTest.java
        writer
        JdbcPublisherTest.java
        MySqlBufferedInserterTest.java
        JdbcBufferedInserterTestBase.java
        JdbcWriterCommandsTest.java
        TeradataBufferedInserterTest.java
        PostgresWriterCommandsTest.java
        JdbcWriterTest.java
        JdbcWriterInitializerTest.java
    - build.gradle
  - gobblin-azkaban
    - src
      - main
        resources
        default-service-azkaban.conf
        conf
        gobblin_jobs
        kafka-hdfs-streaming-avro.conf
        properties
        common.properties
        local.properties
        gobblin_conf
        log4j-yarn.properties
        app.btm
        jobs
        kafka-streaming-on-yarn.job
        java
        org
        apache
        gobblin
        azkaban
        AzkabanGobblinDaemon.java
        AzkabanGobblinLocalYarnAppLauncher.java
        AzkabanCompactionJobLauncher.java
        AzkabanGobblinYarnAppLauncher.java
        AzkabanJobLauncher.java
        EmbeddedGobblinYarnAppLauncher.java
        AzkabanTags.java
        AzkabanJobRunner.java
        AzkabanIntegrationTestLauncher.java
        AzkabanStateStoreCleanerJob.java
        service
        modules
        orchestration
        AzkabanAjaxAPIClient.java
        AzkabanSessionManager.java
        UnreachableStatementException.java
        AzkabanClientParams.java
        ServiceAzkabanConfigKeys.java
        AzkabanExecuteFlowStatus.java
        SessionHelper.java
        SessionManager.java
        AzkabanGetProxyUsersStatus.java
        AzkabanSuccess.java
        AzkabanClient.java
        AzkabanProjectConfig.java
        AzkabanSpecExecutor.java
        AzkabanMultiCallables.java
        AzkabanFetchExecuteFlowStatus.java
        InvalidSessionException.java
        AzkabanClientException.java
        AzkabanSpecProducer.java
        AzkabanClientStatus.java
        AzkabanJobHelper.java
        data
        management
        retention
        Avro2OrcStaleDatasetCleaner.java
        DatasetCleanerJob.java
        conversion
        hive
        validation
        ValidationJob.java
        trash
        TrashCollectorJob.java
      - test
        resources
        reference.conf
        azkakaban-job-basic.properties
        local-azkaban-service.conf
        java
        org
        apache
        gobblin
        service
        modules
        orchestration
        AzkabanAjaxAPIClientTest.java
        AzkabanClientTest.java
        AzkabanProjectConfigTest.java
    - build.gradle
  - gobblin-parquet-common
    - src
      - main
        java
        org
        apache
        gobblin
        parquet
        writer
        ParquetRecordFormat.java
        test
        ParquetHdfsDataWriterTestBase.java
        TestConstantsBase.java
        AbstractParquetDataWriterBuilder.java
        ParquetHdfsDataWriter.java
        ParquetWriterConfiguration.java
        ParquetWriterShim.java
        converter
        parquet
        JsonSchema.java
    - build.gradle
  - gobblin-service-kafka
    - src
      - main
        java
        org
        apache
        gobblin
        service
        StreamingKafkaSpecConsumer.java
        SimpleKafkaSpecExecutor.java
        SimpleKafkaSpecProducer.java
        SimpleKafkaSpecConsumer.java
    - build.gradle
  - gobblin-metadata
    - src
      - main
        resources
        META-INF
        services
        org.apache.gobblin.util.filesystem.FileSystemInstrumentationFactory
        java
        org
        apache
        gobblin
        metadata
        provider
        DatasetAwareFsMetadataProvider.java
        MetadataAwareFileSystem.java
        SimpleConfigMetadataProvider.java
        PermissionMetadataParser.java
        DatasetAwareMetadataProvider.java
        SimpleMetadataProviderFactory.java
        DatasetAwareMetadataProviderFactory.java
        types
        StaticStringMetadataMerger.java
        GlobalMetadata.java
        Metadata.java
        GlobalMetadataJsonMerger.java
        GlobalMetadataCollector.java
        type
        SerializedRecordWithMetadata.java
        ContentTypeUtils.java
        RecordWithMetadata.java
        converter
        MetadataConverterWrapper.java
        BytesToRecordWithMetadataConverter.java
        RecordWithMetadataToEnvelopedRecordWithMetadata.java
        EnvelopedRecordWithMetadataToRecordWithMetadata.java
        RecordWithMetadataSchemaRegistrationConverter.java
      - test
        java
        org
        apache
        gobblin
        metadata
        GlobalMetadataCollectorTest.java
        types
        GlobalMetadataTest.java
        converter
        EnvelopedRecordWithMetadataToRecordWithMetadataTest.java
        RecordWithMetadataToEnvelopedRecordWithMetadataTest.java
        MetadataConverterWrapperTest.java
    - build.gradle
  - gobblin-kafka-common
    - src
      - main
        java
        org
        apache
        gobblin
        kafka
        client
        ByteArrayBasedKafkaRecord.java
        GobblinConsumerRebalanceListener.java
        BaseKafkaConsumerRecord.java
        DecodeableKafkaRecord.java
        GobblinKafkaConsumerClient.java
        AbstractBaseKafkaConsumerClient.java
        KafkaConsumerRecord.java
        schemareg
        HttpClientFactory.java
        CachingKafkaSchemaRegistry.java
        KafkaSchemaRegistryFactory.java
        KafkaSchemaRegistry.java
        SchemaRegistryException.java
        LiKafkaSchemaRegistry.java
        KafkaSchemaRegistryConfigurationKeys.java
        GobblinHttpMethodRetryHandler.java
        ConfigDrivenMd5SchemaRegistry.java
        writer
        BaseKafkaDataWriterBuilder.java
        AbstractKafkaDataWriterBuilder.java
        KafkaWriterCommonConfig.java
        KafkaWriterHelper.java
        KafkaWriterMetricNames.java
        KafkaDataWriter.java
        KafkaWriterConfigurationKeys.java
        serialize
        LiAvroSerDeHelper.java
        GsonDeserializerBase.java
        SerializationException.java
        LiAvroSerializerBase.java
        LiAvroDeserializerBase.java
        GsonSerializerBase.java
        MD5Digest.java
        source
        extractor
        extract
        kafka
        KafkaExtractorStatsTracker.java
        KafkaAvroExtractor.java
        MultiLongWatermark.java
        KafkaRecord.java
        StartOffsetOutOfRangeException.java
        UniversalKafkaSource.java
        KafkaPartition.java
        workunit
        packer
        KafkaAvgRecordSizeBasedWorkUnitSizeEstimator.java
        KafkaAvgRecordTimeBasedWorkUnitSizeEstimator.java
        KafkaWorkUnitSizeEstimator.java
        KafkaWorkUnitPacker.java
        KafkaSingleLevelWorkUnitPacker.java
        KafkaBiLevelWorkUnitPacker.java
        KafkaSource.java
        ConfluentKafkaSchemaRegistry.java
        KafkaTopic.java
        PreviousOffsetNotFoundException.java
        KafkaSimpleJsonExtractor.java
        KafkaIngestionHealthCheck.java
        KafkaOffsetRetrievalFailureException.java
        SimpleKafkaSchemaRegistry.java
        KafkaSimpleSource.java
        KafkaUtils.java
        ConfigStoreUtils.java
        KafkaExtractor.java
        KafkaSimpleExtractor.java
        FixedSchemaKafkaAvroExtractor.java
        converter
        LiKafkaByteArrayMsgToAvroConverter.java
        BaseEnvelopeSchemaConverter.java
        EnvelopePayloadConverter.java
        EnvelopePayloadExtractingConverter.java
        EnvelopeSchemaConverter.java
        metrics
        kafka
        Pusher.java
        KafkaAvroEventKeyValueReporter.java
        KafkaEventKeyValueReporter.java
        KafkaReporter.java
        KafkaEventReporterFactory.java
        GobblinScopePusherFactory.java
        KafkaSchemaRegistryFactory.java
        LoggingPusher.java
        KafkaSchemaRegistry.java
        KafkaEventReporter.java
        SchemaRegistryException.java
        KafkaAvroEventReporter.java
        NoopPusher.java
        PusherFactory.java
        KafkaAvroSchemaRegistry.java
        KafkaMetricReporterFactory.java
        KafkaAvroReporter.java
        KafkaAvroSchemaRegistryFactory.java
        PusherUtils.java
        KafkaReportingFormats.java
        reporter
        util
        KafkaReporterUtils.java
        SchemaRegistryVersionWriter.java
        KeyValueMetricObjectReporter.java
        KeyValuePusher.java
        KeyValueEventObjectReporter.java
      - jmh
        java
        org
        apache
        gobblin
        source
        extractor
        extract
        kafka
        HdrHistogramPerformanceBenchmark.java
      - test
        resources
        _CONFIG_STORE
        store-metadata.conf
        v1.0
        tags
        blacklist
        main.conf
        random
        main.conf
        whitelist
        main.conf
        data
        tracking
        Topic3
        main.conf
        .DS_Store
        includes.conf
        Topic1
        main.conf
        includes.conf
        Topic2
        includes.conf
        converter
        record.avsc
        envelope.avro
        envelope.avsc
        java
        org
        apache
        gobblin
        kafka
        schemareg
        CachingKafkaSchemaRegistryTest.java
        GobblinHttpMethodRetryHandlerTest.java
        HttpClientFactoryTest.java
        writer
        TestTypeMapper.java
        KafkaWriterCommonConfigTest.java
        KafkaWriterHelperTest.java
        serialize
        MD5DigestTest.java
        source
        extractor
        extract
        kafka
        ZipConfigStoreUtilsTest.java
        KafkaExtractorStatsTrackerTest.java
        ConfigStoreUtilsTest.java
        workunit
        packer
        KafkaWorkUnitPackerTest.java
        KafkaIngestionHealthCheckTest.java
        converter
        EnvelopeSchemaConverterTest.java
        KafkaAvroSchemaRegistryForTest.java
        EnvelopePayloadConverterTest.java
        EnvelopePayloadExtractingConverterTest.java
        metrics
        kafka
        PusherFactoryTest.java
        LoggingPusherTest.java
        reporter
        KeyValueEventObjectReporterTest.java
        KafkaReporterTest.java
        MockKafkaKeyValuePusher.java
        KafkaEventReporterTest.java
        KafkaAvroEventKeyValueReporterTest.java
        KeyValueMetricObjectReporterTest.java
        MockKafkaPusher.java
        KafkaAvroReporterWithSchemaRegistryTest.java
        KafkaAvroEventReporterTest.java
        MockKeyValuePusher.java
        KafkaAvroReporterTest.java
    - build.gradle
  - gobblin-metrics-hadoop
    - src
      - main
        java
        org
        apache
        gobblin
        metrics
        hadoop
        NewAPIHadoopCounterReporter.java
        AbstractHadoopCounterReporter.java
        HadoopCounterReporter.java
      - test
        java
        org
        apache
        gobblin
        metrics
        hadoop
        NewAPIHadoopCounterReporterTest.java
        HadoopCounterReporterTest.java
    - build.gradle
  - gobblin-elasticsearch
    - src
      - main
        java
        org
        apache
        gobblin
        elasticsearch
        typemapping
        TypeMapper.java
        AvroGenericRecordSerializer.java
        AvroGenericRecordTypeMapper.java
        JsonSerializer.java
        JsonTypeMapper.java
        SerializationException.java
        FieldMappingException.java
        GsonJsonSerializer.java
        writer
        ElasticsearchWriterConfigurationKeys.java
        ElasticsearchDataWriterBuilder.java
        MalformedDocPolicy.java
        ElasticsearchRestWriter.java
        ExceptionLogger.java
        ElasticsearchWriterBase.java
        FutureCallbackHolder.java
        ElasticsearchTransportClientWriter.java
      - test
        java
        org
        apache
        gobblin
        elasticsearch
        ElasticsearchTestServerTest.java
        writer
        RestWriterVariant.java
        ElasticsearchTransportClientWriterTest.java
        TransportWriterVariant.java
        TestClient.java
        ElasticsearchWriterIntegrationTest.java
        WriterVariant.java
        ElasticsearchWriterBaseTest.java
        ConfigBuilder.java
        ElasticsearchTestServer.java
        test
        JsonRecordGenerator.java
        RecordTypeGenerator.java
        PayloadType.java
        AvroRecordGenerator.java
    - build.gradle
    - scripts
      - install_test_deps.sh
      - uninstall_test_deps.sh
  - google-ingestion
    - src
      - main
        java
        org
        apache
        gobblin
        source
        extractor
        extract
        google
        GoogleAnalyticsUnsampledSource.java
        GoogleDriveSource.java
        GoogleAnalyticsUnsampledExtractor.java
        GoogleDriveFileSystem.java
        GoogleDriveExtractor.java
        GoogleCommon.java
        GoogleCommonKeys.java
        GoogleDriveFsHelper.java
        ingestion
        google
        webmaster
        SimpleProducerJob.java
        UrlTriePrefixGrouper.java
        UrlTrie.java
        GoogleWebmasterClient.java
        GoogleWebmasterExtractorIterator.java
        GoogleWebmasterDataFetcher.java
        GoogleWebMasterSourceDaily.java
        GoogleWebmasterExtractor.java
        UrlTriePostOrderIterator.java
        WebmasterPerformanceTuningMetrics
        GoogleWebmasterFilter.java
        GoogleWebMasterSource.java
        ProducerJob.java
        GoogleWebmasterDayPartitioner.java
        GoogleWebmasterClientImpl.java
        UrlGrouper.java
        GoogleWebmasterDataFetcherImpl.java
        TrieBasedProducerJob.java
        UrlTrieNode.java
        util
        SchemaUtil.java
        DayPartitioner.java
        AsyncIteratorWithDataSink.java
        GoggleIngestionConfigurationKeys.java
      - test
        java
        org
        apache
        gobblin
        source
        extractor
        filebased
        GoogleDriveSourceTest.java
        extract
        google
        GoogleAnalyticsUnsampledExtractorTest.java
        GoogleDriveFileSystemTest.java
        GoogleDriveFsHelperTest.java
        ingestion
        google
        webmaster
        GoogleWebmasterExtractorIteratorTest.java
        UrlTriePostOrderIteratorTest.java
        ProducerJobTest.java
        UrlTriePrefixGrouperTest.java
        GoogleWebmasterDataFetcherImplTest.java
        GoogleWebmasterExtractorTest.java
        UrlTrieTest.java
        SimpleProducerJobTest.java
        TrieBasedProducerJobTest.java
    - build.gradle
  - gobblin-kafka-08
    - src
      - main
        java
        org
        apache
        gobblin
        kafka
        tool
        SimpleKafkaConsumer.java
        KafkaCheckpoint.java
        client
        Kafka08ConsumerClient.java
        writer
        Kafka08DataWriter.java
        KafkaDataWriterBuilder.java
        serialize
        LiAvroDeserializer.java
        LiAvroSerializer.java
        source
        extractor
        extract
        kafka
        KafkaDeserializerSource.java
        KafkaGsonDeserializer.java
        KafkaWrapper.java
        KafkaDeserializerExtractor.java
        service
        AvroJobSpecDeserializer.java
        metrics
        kafka
        ProducerCloseable.java
        KafkaKeyValueProducerPusher.java
        KafkaPusher.java
        KafkaProducerPusher.java
      - test
        java
        StandaloneTestKafkaServer.java
        org
        apache
        gobblin
        kafka
        KafkaTestBase.java
        FlakyKafkaProducer.java
        writer
        Kafka08DataWriterIntegrationTest.java
        Kafka08DataWriterUnitTest.java
        Kafka08DataWriterTest.java
        source
        extractor
        extract
        kafka
        KafkaWrapperTest.java
        ConfluentKafkaSchemaRegistryTest.java
        KafkaDeserializerExtractorTest.java
        KafkaGsonDeserializerTest.java
        SimpleKafkaSchemaRegistryTest.java
        service
        SimpleKafkaSpecExecutorTest.java
        metrics
        reporter
        KafkaTestBase.java
        KafkaPusherTest.java
        KafkaAvroEventReporterWithSchemaRegistryTest.java
        MockKafkaPusher.java
    - resource
      - job-props
        testKafkaIngest.properties
        testKafkaIngest.pull
    - build.gradle
- settings.gradle
- maven-nexus
  - upload-to-nexus.sh
  - maven-install.sh
  - maven-nexus.sh
- NOTICE
- .gitignore
- gobblin-config-management
  - gobblin-config-core
    - src
      - main
        resources
        reference.conf
        META-INF
        services
        org.apache.gobblin.config.store.api.ConfigStoreFactory
        java
        org
        apache
        gobblin
        config
        client
        api
        VersionStabilityPolicy.java
        ConfigStoreFactoryDoesNotExistsException.java
        common
        impl
        InMemoryValueInspector.java
        InMemoryTopology.java
        SingleLinkedListConfigKeyPath.java
        ConfigStoreValueInspector.java
        ConfigStoreBackedTopology.java
        ImportTraverser.java
        ConfigStoreBackedValueInspector.java
        CircularDependencyException.java
        ConfigStoreTopologyInspector.java
        store
        api
        PhysicalPathNotExistException.java
        ConfigStoreWithBatchFetches.java
        ConfigStore.java
        ConfigKeyPath.java
        ConfigStoreWithImportedByRecursively.java
        ConfigStoreWithStableVersioning.java
        package-info.java
        ConfigStoreFactory.java
        VersionDoesNotExistException.java
        ConfigStoreCreationException.java
        ConfigStoreWithResolution.java
        ConfigStoreWithImportedBy.java
        deploy
        FsDeploymentConfig.java
        Deployable.java
        DeployableConfigSource.java
        ClasspathConfigSource.java
        DeploymentConfig.java
        ConfigStream.java
        StoreDeployer.java
        zip
        SimpleLocalIvyConfigStoreFactory.java
        IvyConfigStoreFactory.java
        ZipFileConfigStore.java
        hdfs
        SimpleHDFSStoreMetadata.java
        SimpleHadoopFilesystemConfigStoreFactory.java
        SimpleLocalHDFSConfigStoreFactory.java
        SimpleHDFSConfigStoreFactory.java
        SimpleHadoopFilesystemConfigStore.java
        DefaultCapableLocalConfigStoreFactory.java
      - test
        resources
        _testDeploy
        dir1
        f1.conf
        java
        org
        apache
        gobblin
        config
        common
        impl
        TestInMemoryTopology.java
        TestSingleLinkedListConfigKeyPath.java
        ImportTraverserTest.java
        TestCircularDependency.java
        TestConfigStoreValueInspector.java
        store
        zip
        ZipFileConfigStoreTest.java
        hdfs
        SimpleHdfsConfigStoreTest.java
        SimpleHdfsConfigureStoreFactoryTest.java
        SimpleHDFSStoreMetadataTest.java
        TestEnvironment.java
    - build.gradle
  - gobblin-config-client
    - src
      - main
        java
        org
        apache
        gobblin
        config
        client
        ConfigClient.java
        package-info.java
        ConfigClientUtils.java
        ConfigStoreFactoryRegister.java
        ConfigClientCache.java
        ConfigClientCLI.java
      - test
        java
        org
        apache
        gobblin
        config
        client
        TestConfigClientUtils.java
        TestConfigClient.java
    - build.gradle
- .dockerignore
- conf
  - gobblin-as-service
    - application.conf
    - log4j.properties
    - quartz.properties
  - compaction
    - log4j-compaction.xml
  - standalone
    - application.conf
    - log4j.properties
    - log4j.xml
    - quartz.properties
  - cli
    - log4j.properties
    - gobblin-cli.properties
  - cluster-master
    - application.conf
    - log4j.properties
    - quartz.properties
  - yarn
    - application.conf
    - log4j.properties
    - quartz.properties
  - cluster-worker
    - application.conf
    - log4j.properties
    - quartz.properties
  - mapreduce
    - application.conf
    - log4j.properties
  - aws
    - application.conf
    - log4j.properties
    - quartz.properties
- gobblin-flavored-build.gradle
- gobblin-docs
  - adaptors
    - Gobblin-Distcp.md
    - Hive-Avro-To-ORC-Converter.md
  - img
    - jdbc
  - sinks
    - CouchbaseWriter.md
    - ParquetHdfsDataWriter.md
    - AvroHdfsDataWriter.md
    - Gobblin-JDBC-Writer.md
    - SimpleBytesWriter.md
    - Kafka.md
    - Http.md
    - ConsoleWriter.md
  - sources
    - AvroFileSource.md
    - QueryBasedSource.md
    - TeradataSource.md
    - CopySource.md
    - GoogleWebmaster.md
    - SftpSource.md
    - GoogleAnalyticsSource.md
    - HiveAvroToOrcSource.md
    - SqlServerSource.md
    - GoogleDriveSource.md
    - WikipediaSource.md
    - KafkaSource.md
    - HiveSource.md
    - SalesforceSource.md
    - RestApiSource.md
    - HivePurgerSource.md
    - HadoopTextInputSource.md
    - SimpleJsonSource.md
    - OracleSource.md
    - MySQLSource.md
    - HelloWorldSource.md
  - user-guide
    - State-Management-and-Watermarks.md
    - Building-Gobblin-as-a-Service.md
    - Config-Management.md
    - Configuration-Properties-Glossary.md
    - Gobblin-Deployment.md
    - Hive-Registration.md
    - Azure-Kubernetes-Deployment.md
    - Gobblin-Schedulers.md
    - Gobblin-as-a-Library.md
    - Source-schema-and-Converters.md
    - FAQs.md
    - Building-Gobblin.md
    - Partitioned-Writers.md
    - Job-Execution-History-Store.md
    - Troubleshooting.md
    - Gobblin-template.md
    - Gobblin-on-Yarn.md
    - Working-with-the-ForkOperator.md
    - Gobblin-genericLoad.md
    - Monitoring.md
    - Gobblin-CLI.md
    - Gobblin-Compliance.md
    - Docker-Integration.md
    - Compaction.md
    - Working-with-Job-Configuration-Files.md
  - data-management
    - Gobblin-Retention.md
    - DistcpNgEvents.md
  - index.md
  - Gobblin-Architecture.md
  - project
    - Talks-and-Tech-Blogs.md
    - Posts.md
    - Feature-List.md
    - Team.md
    - News.md
  - case-studies
    - Publishing-Data-to-S3.md
    - Writing-ORC-Data.md
    - Hive-Distcp.md
    - Kafka-HDFS-Ingestion.md
  - Powered-By.md
  - developer-guide
    - CodingStyle.md
    - Gobblin-Compliance-Design.md
    - GobblinModules.md
    - HighLevelConsumer.md
    - Contributing.md
    - files
      - prefs-eclipse.epf
      - codestyle-eclipse.xml
      - codestyle-intellij-gobblin.xml
    - Monitoring-Design.md
    - Customization-for-Converter-and-Operator.md
    - Customization-for-New-Source.md
    - IDE-setup.md
    - Documentation-Architecture.md
  - js
    - extra.js
  - Getting-Started.md
  - metrics
    - Existing-Reporters.md
    - Metrics-for-Gobblin-ETL.md
    - Gobblin-Metrics-Performance.md
    - Gobblin-Metrics.md
    - Gobblin-Metrics-Architecture.md
    - Gobblin-Metrics-next-generation-instrumentation-for-applications.md
    - Implementing-New-Reporters.md
  - css
    - extra.css
  - miscellaneous
    - Exactly-Once-Support.md
    - Camus-to-Gobblin-Migration.md
- defaultEnvironment.gradle
- gobblin-data-management
  - src
    - main
      - resources
        data-management.properties
      - java
        org
        apache
        gobblin
        time
        TimeIterator.java
        util
        test
        RetentionTestDataGenerator.java
        RetentionTestHelper.java
        request_allocation
        SimpleHiveDatasetTieringPrioritizer.java
        commit
        DeleteFileCommitStep.java
        schema_check
        AvroSchemaCheckDefaultStrategy.java
        AvroSchemaCheckStrategy.java
        runtime
        retention
        DatasetCleanerTask.java
        DatasetCleanerCli.java
        DatasetCleanerTaskFactory.java
        embedded
        EmbeddedGobblinDistcp.java
        data
        management
        source
        DatasetFinderSource.java
        LoopingDatasetFinderSource.java
        retention
        DatasetCleaner.java
        source
        DatasetCleanerSource.java
        version
        finder
        VersionFinder.java
        WatermarkDatasetVersionFinder.java
        DateTimeDatasetVersionFinder.java
        DatasetVersionFinder.java
        SingleVersionFinder.java
        GlobModTimeDatasetVersionFinder.java
        FileLevelTimestampVersionFinder.java
        UnixTimestampVersionFinder.java
        ModDateTimeDatasetVersionFinder.java
        TimestampedDatasetVersion.java
        StringDatasetVersion.java
        VersionCleaner.java
        FileStatusDatasetVersion.java
        HiveDatasetVersionCleaner.java
        DatasetVersion.java
        policy
        DeleteAllRetentionPolicy.java
        DeleteNothingRetentionPolicy.java
        CombineRetentionPolicy.java
        RawDatasetRetentionPolicy.java
        RetentionPolicy.java
        predicates
        WhitelistPredicate.java
        NewestKRetentionPolicy.java
        TimeBasedRetentionPolicy.java
        PredicateRetentionPolicy.java
        dataset
        FsCleanableHelper.java
        CleanableDataset.java
        finder
        DatasetFinder.java
        TimeBasedDatasetStoreDatasetFinder.java
        CleanableHiveDatasetFinder.java
        TrackingDataset.java
        ModificationTimeDataset.java
        SnapshotDataset.java
        CleanableDatasetStoreDataset.java
        ConfigurableCleanableDataset.java
        TimeBasedDatasetStoreDataset.java
        CleanableHiveDataset.java
        CleanableDatasetBase.java
        MultiVersionCleanableDatasetBase.java
        RetentionEvents.java
        action
        AccessControlAction.java
        RetentionAction.java
        MultiAccessControlAction.java
        profile
        ManagedCleanableDatasetFinder.java
        ConfigurableGlobDatasetFinder.java
        ProxyableDatasetProfile.java
        MultiDatasetFinder.java
        SnapshotDatasetProfile.java
        ModificationTimeDatasetProfile.java
        TrackingDatasetProfile.java
        GlobCleanableDatasetFinder.java
        MultiCleanableDatasetFinder.java
        ConfigBasedCleanabledDatasetFinder.java
        version
        finder
        VersionFinder.java
        AbstractHiveDatasetVersionFinder.java
        WatermarkDatasetVersionFinder.java
        DateTimeDatasetVersionFinder.java
        DatasetVersionFinder.java
        TimestampedDatasetStateStoreVersionFinder.java
        DatePartitionHiveVersionFinder.java
        SingleVersionFinder.java
        GlobModTimeDatasetVersionFinder.java
        FileLevelTimestampVersionFinder.java
        UnixTimestampVersionFinder.java
        AbstractDatasetVersionFinder.java
        HdfsModifiedTimeHiveVersionFinder.java
        ModDateTimeDatasetVersionFinder.java
        TimestampedDatasetVersion.java
        TimestampedDatasetStateStoreVersion.java
        DatasetStateStoreVersion.java
        StringDatasetVersion.java
        FileStatusTimestampedDatasetVersion.java
        HiveDatasetVersion.java
        FileStatusDatasetVersion.java
        DatasetVersion.java
        TimestampedHiveDatasetVersion.java
        FileSystemDatasetVersion.java
        FileStatusAware.java
        policy
        SelectNothingPolicy.java
        EmbeddedRetentionSelectionPolicy.java
        SelectBeforeTimeBasedPolicy.java
        VersionSelectionPolicy.java
        SelectAfterTimeBasedPolicy.java
        CombineSelectionPolicy.java
        HiddenFilterSelectionPolicy.java
        SelectAllPolicy.java
        NewestKSelectionPolicy.java
        SelectBetweenTimeBasedPolicy.java
        partition
        FileSetResourceEstimator.java
        StaticFileSet.java
        CopyableDatasetRequestor.java
        File.java
        FileSet.java
        dataset
        Dataset.java
        DatasetUtils.java
        DefaultFileSystemGlobFinder.java
        DummyDataset.java
        TimePartitionGlobFinder.java
        SimpleDatasetRequest.java
        SimpleDatasetHierarchicalPrioritizer.java
        SimpleFileSystemDataset.java
        SimpleDatasetRequestor.java
        conversion
        hive
        avro
        AvroSchemaManager.java
        SchemaNotFoundException.java
        utils
        LineageUtils.java
        source
        BackfillHiveSource.java
        HiveWorkUnit.java
        HiveAvroToOrcSource.java
        HiveSource.java
        extractor
        HiveConvertExtractorFactory.java
        HiveBaseExtractorFactory.java
        HiveBaseExtractor.java
        HiveConvertExtractor.java
        publisher
        HiveConvertPublisher.java
        provider
        HiveMetastoreBasedUpdateProvider.java
        UpdateProviderFactory.java
        UpdateNotFoundException.java
        HdfsBasedUpdateProvider.java
        DatePatternUpdateProvider.java
        HiveUnitUpdateProvider.java
        task
        QueryGenerator.java
        HiveConverterUtils.java
        HiveTask.java
        watermarker
        HiveSourceWatermarker.java
        PartitionLevelWatermarker.java
        MultiKeyValueLongWatermark.java
        HiveSourceWatermarkerFactory.java
        TableLevelWatermarker.java
        materializer
        QueryBasedMaterializerQueryGenerator.java
        HiveMaterializerTaskFactory.java
        HiveMaterializerFromEntityQueryGenerator.java
        HiveMaterializerQueryGenerator.java
        HiveMaterializer.java
        CopyTableQueryGenerator.java
        MaterializeTableQueryGenerator.java
        dataset
        ConvertibleHiveDatasetFinder.java
        ConvertibleHiveDataset.java
        query
        HiveAvroORCQueryGenerator.java
        HiveValidationQueryGenerator.java
        converter
        AbstractAvroToOrcConverter.java
        HiveAvroToFlattenedOrcConverter.java
        HiveAvroToNestedOrcConverter.java
        entities
        HiveProcessingEntity.java
        SchemaAwareHiveTable.java
        TableLikeStageableTableMetadata.java
        ReplaceTableStageableTableMetadata.java
        QueryBasedHiveConversionEntity.java
        QueryBasedHivePublishEntity.java
        StageableTableMetadata.java
        SchemaAwareHivePartition.java
        writer
        HiveQueryExecutionWriter.java
        HiveQueryWriterBuilder.java
        events
        EventWorkunitUtils.java
        EventConstants.java
        trash
        ProxiedTrash.java
        TrashFactory.java
        GobblinProxiedTrash.java
        TimeBasedSnapshotCleanupPolicy.java
        AsyncTrash.java
        MockTrash.java
        NoopSnapshotCleanupPolicy.java
        SnapshotCleanupPolicy.java
        Trash.java
        ImmediateDeletionTrash.java
        TestTrash.java
        GobblinTrash.java
        copy
        UnixTimestampRecursiveCopyableDataset.java
        RecursiveCopyableDataset.java
        CopyableGlobDatasetFinder.java
        UnixTimestampCopyableDatasetFinder.java
        extractor
        EmptyExtractor.java
        CloseableFsFileAwareInputStreamExtractor.java
        FileAwareInputStreamExtractorWithCheckSchema.java
        FileAwareInputStreamExtractor.java
        publisher
        CopyEventSubmitterHelper.java
        DeletingCopyDataPublisher.java
        CopyDataPublisher.java
        TimeAwareRecursiveCopyableDataset.java
        replication
        ReplicationCopyMode.java
        CopyRouteGeneratorOptimizer.java
        ReplicationConfiguration.java
        HadoopFsEndPoint.java
        DataFlowTopologyPickerByHadoopFsSource.java
        ConfigBasedCopyableDatasetFinder.java
        ConfigBasedMultiDatasets.java
        EndPointFactory.java
        ReplicationDataValidPathPicker.java
        EndPoint.java
        CopyRouteGeneratorOptimizedNetworkBandwidthForTest.java
        ConfigBasedDataset.java
        HadoopFsEndPointFactory.java
        HadoopFsReplicaConfig.java
        ReplicaHadoopFsEndPoint.java
        DataFlowTopology.java
        DataFlowTopologyPickerBySource.java
        CopyRouteGenerator.java
        SourceHadoopFsEndPoint.java
        CopyRoute.java
        WatermarkMetadataGenerationCommitStep.java
        CopyRouteGeneratorOptimizedNetworkBandwidth.java
        WatermarkMetadataUtil.java
        ConfigBasedDatasetsFinder.java
        CopyRouteGeneratorBase.java
        CopyRouteGeneratorOptimizedLatency.java
        HadoopFsEndPointDataset.java
        ReplicationMetaData.java
        SubsetFilesCopyableDataset.java
        CopySource.java
        OwnerAndPermission.java
        PreserveAttributes.java
        CopyableDataset.java
        CopyableFileFilter.java
        splitter
        DistcpFileSplitter.java
        CopyContext.java
        CopyableDatasetMetadata.java
        TimeAwareCopyableGlobDatasetFinder.java
        recovery
        RecoveryHelper.java
        predicates
        RegistrationTimeSkipPredicate.java
        AlwaysTrue.java
        TableTypeFilter.java
        NonPartitionTableRegistrationTimeSkipPredicate.java
        RootDirectoryModtimeSkipPredicate.java
        ReadyCopyableFileFilter.java
        IterableCopyableDatasetImpl.java
        CopyResourcePool.java
        CopyableFile.java
        IterableCopyableDataset.java
        watermark
        CopyableFileWatermarkHelper.java
        StringWatermark.java
        FullPathCopyableFileWatermarkGenerator.java
        CopyableFileWatermarkGenerator.java
        FileAwareInputStream.java
        SchemaCheckedCopySource.java
        converter
        DistcpConverter.java
        UnGzipConverter.java
        DecryptConverter.java
        prioritization
        PrioritizedCopyableDataset.java
        FileSetComparator.java
        CopyConfiguration.java
        SubsetFilesCopyableDatasetFinder.java
        CopyEntity.java
        hive
        PathBasedPartitionFilter.java
        avro
        HiveAvroCopyEntityHelper.java
        PartitionFilterGenerator.java
        HiveDataset.java
        HivePartitionExtendedFilter.java
        HiveFileSet.java
        HivePartitionExtendedFilterFactory.java
        HivePartitionsDeregisterFileSet.java
        HiveLocationDescriptor.java
        PathBasedHivePartitionFilterFactory.java
        HiveCopyEntityHelper.java
        HiveDatasetFinder.java
        filter
        DateRangePartitionFilterGenerator.java
        LookbackPartitionFilterGenerator.java
        HiveTargetPathHelper.java
        HiveUtils.java
        HivePartitionFileSet.java
        UnpartitionedTableFileSet.java
        HiveTableLocationNotMatchException.java
        ConcurrentBoundedWorkUnitList.java
        RecursivePathFinder.java
        TimestampBasedCopyableDataset.java
        entities
        CommitStepCopyEntity.java
        PrePublishStep.java
        PostPublishStep.java
        AllEqualComparator.java
        CloseableFsCopySource.java
        writer
        TarArchiveInputStreamDataWriter.java
        FileAwareInputStreamDataWriterBuilder.java
        TarArchiveInputStreamDataWriterBuilder.java
        FileAwareInputStreamDataWriter.java
        CopyableDatasetBase.java
        hive
        HiveConfigClientUtils.java
        HiveRegistrableDataset.java
        gobblin
        data
        management
        conversion
        hive
        source
        HiveWorkUnit.java
        copy
        OwnerAndPermission.java
    - test
      - resources
        copyableDatasetTest
        source
        dir2
        file1
        dir1
        file2
        file1
        destination
        dir1
        file1
        avroToOrcQueryUtilsTest
        recordWithinRecordWithinRecord_nested.json
        recordWithinRecordWithinRecord_nested.ddl
        optionWithinOptionWithinRecord_nested.ddl
        testMultiPartition.ddl
        schemaWithLogicalField.ddl
        schemaWithLogicalField.json
        testMultiPartition.dml
        arrayWithinRecordWithinArrayWithinRecord_nested.json
        recordWithinRecordWithinRecord_flattened.ddl
        recordWithinRecordWithinRecord.dml
        flattenedWithRowLimit.dml
        optionWithinOptionWithinRecord_nested.json
        recordWithinOptionWithinRecord_nested.json
        arrayWithinRecordWithinArrayWithinRecord_nested.ddl
        recordWithinOptionWithinRecord_nested.ddl
        avroSchemaManagerTest
        expectedSchema.avsc
        tarArchiveInputStreamDataWriterTest
        archived.tgz
        archived.tar.gz
        replicationConfigTest
        validCompleteDataset.conf
        validCompleteDataset_PullMode2.conf
        validCompleteDataset_PushMode2.conf
        validCompleteDataset_PushMode.conf
        inputStreamExtractorTest
        first.txt
        second.txt
        unGzipConverterTest
        archived.tgz
        helloworld.txt.gzip
        archived.tar.gz
        helloworld.txt.gz
        convertibleHiveDatasetTest
        flattenedOrc.conf
        flattenedAndNestedOrc.conf
        flattenedAndNestedOrc.properties
        configBasedDatasetTest
        src
        dir2
        file3
        file1
        _dir1
        file2
        file1
        dir1
        file2
        file1
        dest
        dir1
        file1
        decryptConverterTest
        decrypt-test.txt.insecure_shift
        decrypt-test.txt.gpg
        avroSchemaCheckStrategyTest
        toValidateSchema.avsc
        expectedSchema.avsc
        retentionIntegrationTest
        testCombinePolicy
        selection.conf
        retention.job
        setup_validate.conf
        testMultiVersionAccessControl
        daily-retention-with-accessControl.conf
        setup_validate.conf
        testHiveTimeBasedRetention
        selection.conf
        hive-retention.job
        replacement.conf
        jobProps.properties
        testNewestKRetention
        selection.conf
        setup_validate.conf
        retention.conf
        testMultiVersionRetention
        daily-hourly-retention.conf
        setup_validate.conf
        testHourlyPatternRetention
        hourly-retention.job
        setup_validate.conf
        testTimeBasedRetention
        selection.conf
        setup_validate.conf
        retention.conf
        testDailyPatternRetention
        setup_validate.conf
        daily-retention.job
        testTimeBasedAccessControl
        selection.conf
        setup_validate.conf
        avroToOrcSchemaEvolutionTest
        source_schema_evolution_enabled.dml
        source_schema_evolution_disabled.ddl
        source_schema_lineage_missing.ddl
        source_schema.json
        source_schema_evolution_enabled.ddl
        source_schema_evolution_disabled.dml
        source_schema_lineage_missing.dml
        hiveConverterTest
        recordWithinRecordWithinRecord_nested.json
        recordWithinRecordWithinRecord_nested.ddl
        recordWithinRecordWithinRecord_flattened.dml
        recordWithinRecordWithinRecord_flattened.ddl
        recordWithinRecordWithinRecord_nested.dml
        hiveMaterializerTest
        source
        part1
        data.txt
        part2
        data.txt
      - java
        org
        apache
        gobblin
        time
        TimeIteratorTest.java
        util
        request_allocation
        SimpleHiveDatasetTieringPrioritizerTest.java
        runtime
        embedded
        EmbeddedGobblinDistcpTest.java
        data
        management
        source
        LoopingDatasetFinderSourceTest.java
        DatasetFinderSourceTest.java
        retention
        sql
        SqlBasedRetentionPoc.java
        SqlUdfs.java
        UnixTimestampVersionFinderTest.java
        source
        DatasetCleanerSourceTest.java
        NewestKRetentionPolicyTest.java
        version
        HiveDatasetVersionCleanerTest.java
        CleanableDatasetBaseTest.java
        integration
        RetentionIntegrationTest.java
        HiveRetentionTest.java
        test
        ContainsBRetentionPolicy.java
        ContainsARetentionPolicy.java
        ContainsCRetentionPolicy.java
        ContainsStringRetentionPolicy.java
        FsCleanableHelperTest.java
        TimestampedDatasetVersionFinderTest.java
        ConfigurableCleanableDatasetTest.java
        action
        RetentionActionTest.java
        CleanableMysqlDatasetStoreDatasetTest.java
        CombineRetentionPolicyTest.java
        CleanableDatasetStoreDatasetTest.java
        DatasetVersionFinderTest.java
        TimeBasedRetentionPolicyTest.java
        WatermarkDatasetVersionFinderTest.java
        version
        finder
        HdfsModifiedTimeHiveVersionFinderTest.java
        DatePartitionedHiveVersionFinderTest.java
        policy
        NewestKSelectionPolicyTest.java
        HiddenFilterSelectionPolicyTest.java
        TimeBasedSelectionPolicyTest.java
        partition
        FileSetTest.java
        dataset
        TimePartitionedGlobFinderTest.java
        ConversionHiveTestUtils.java
        conversion
        hive
        avro
        AvroSchemaManagerTest.java
        provider
        DatePatternUpdateProviderTest.java
        BackfillHiveSourceTest.java
        task
        HiveConverterUtilsTest.java
        watermarker
        TableLevelWatermarkerTest.java
        PartitionLevelWatermarkerTest.java
        materializer
        HiveMaterializerTest.java
        dataset
        ConvertibleHiveDatasetTest.java
        util
        HiveAvroORCQueryGeneratorTest.java
        LocalHiveMetastoreTestUtils.java
        HiveSourceTest.java
        converter
        HiveSchemaEvolutionTest.java
        HiveAvroToOrcConverterTest.java
        CopyPartitionParametersTest.java
        util
        AvroSchemaCheckDefaultStrategyTest.java
        PathUtilsTest.java
        trash
        TrashTest.java
        TestTrashTest.java
        TrashTestBase.java
        TrashFactoryTest.java
        MockTrashTest.java
        AsyncTrashTest.java
        TestCleanupPolicy.java
        copy
        CopyableFileTest.java
        CopySourceTest.java
        CopySourcePrioritizationTest.java
        extractor
        InputStreamExtractorTest.java
        publisher
        DeletingCopyDataPublisherTest.java
        CopyDataPublisherTest.java
        replication
        ConfigBasedDatasetTest.java
        CopyRouteGeneratorTest.java
        ConfigBasedDatasetsFinderTest.java
        ReplicationConfigurationTest.java
        CopyableDatasetMetadataTest.java
        TestCopyablePartitionableDataset.java
        CopyableFileUtils.java
        splitter
        DistcpFileSplitterTest.java
        TimeAwareRecursiveCopyableDatasetTest.java
        recovery
        RecoveryHelperTest.java
        ReadyCopyableFileFilterTest.java
        PreserveAttributesTest.java
        predicates
        RegistrationTimeSkipPredicateTest.java
        TestCopyableDataset.java
        ConcurrentBoundedWorkUnitListTest.java
        DateRangeIteratorTest.java
        converter
        UnGzipConverterTest.java
        DecryptConverterTest.java
        RecursiveCopyableDatasetTest.java
        hive
        HiveCopyEntityHelperTest.java
        HiveDatasetTest.java
        HiveDatasetFinderTest.java
        WhitelistBlacklistTest.java
        HiveTargetPathHelperTest.java
        filter
        LookbackPartitionFilterGeneratorTest.java
        DateRangePartitionFilterGeneratorTest.java
        TestCopyableDatasetFinder.java
        UnixTimestampRecursiveCopyableDatasetTest.java
        TimestampBasedCopyableDatasetTest.java
        writer
        FileAwareInputStreamDataWriterTest.java
        TarArchiveInputStreamDataWriterTest.java
        TestCopyablePartitionableDatasedFinder.java
  - config-example
    - gobblin-retention-run.sh
    - gobblin-retention.properties
    - hdfs-gobblin-config-store
      - user
        root
        gobblin-config-management
        _CONFIG_STORE
        1.0
        tags
        retention
        timebased
        main.conf
        hive
        main.conf
        hive
        db1
        main.conf
        includes.conf
        db2
        main.conf
        table1
        main.conf
        store-metadata.conf
  - build.gradle
- gobblin-test
  - resource
    - job-conf
      - GobblinTest3.pull
      - GobblinTest1.pull
      - GobblinTest2.pull
    - source
      - test.avro.0
      - test.avro.2
      - test.avro.3
      - test.avro.1
    - gobblin.test.properties
    - gobblin.mr-test.properties
    - quartz.properties
    - mr-job-conf
      - GobblinMRTest.pull

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package org.apache.gobblin.compaction.mapreduce;

import com.google.common.collect.ImmutableList;
import java.io.IOException;
import java.net.URI;
import java.util.Collection;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Future;
import java.util.concurrent.TimeUnit;

import org.apache.commons.io.FilenameUtils;
import org.apache.commons.math3.primes.Primes;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;
import org.apache.hadoop.fs.permission.FsPermission;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.joda.time.DateTime;
import org.joda.time.DateTimeZone;
import org.mortbay.log.Log;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.github.rholder.retry.Retryer;
import com.google.common.base.Optional;
import com.google.common.base.Preconditions;
import com.google.common.base.Throwables;
import com.google.common.cache.Cache;
import com.google.common.cache.CacheBuilder;
import com.google.common.collect.ImmutableMap;
import com.google.common.collect.ImmutableSet;
import com.google.common.collect.Lists;
import com.google.common.primitives.Ints;
import com.typesafe.config.Config;
import com.typesafe.config.ConfigFactory;
import com.typesafe.config.ConfigRenderOptions;

import org.apache.gobblin.compaction.dataset.Dataset;
import org.apache.gobblin.compaction.dataset.DatasetHelper;
import org.apache.gobblin.compaction.event.CompactionSlaEventHelper;
import org.apache.gobblin.config.ConfigBuilder;
import org.apache.gobblin.configuration.ConfigurationKeys;
import org.apache.gobblin.metrics.GobblinMetrics;
import org.apache.gobblin.metrics.event.EventSubmitter;
import org.apache.gobblin.util.ExecutorsUtils;
import org.apache.gobblin.util.FileListUtils;
import org.apache.gobblin.util.HadoopUtils;
import org.apache.gobblin.util.RecordCountProvider;
import org.apache.gobblin.util.WriterUtils;
import org.apache.gobblin.util.executors.ScalingThreadPoolExecutor;
import org.apache.gobblin.util.recordcount.LateFileRecordCountProvider;
import org.apache.gobblin.util.retry.RetryerFactory;

import static org.apache.gobblin.compaction.mapreduce.MRCompactor.COMPACTION_PREFIX;
import static org.apache.gobblin.util.retry.RetryerFactory.*;

/**
 * This class is responsible for configuring and running a single MR job.
 * It should be extended by a subclass that properly configures the mapper and reducer related classes.
 *
 * The properties that control the number of reducers are compaction.target.output.file.size and
 * compaction.max.num.reducers. The number of reducers will be the smaller of
 * [total input size] / [compaction.target.output.file.size] + 1 and [compaction.max.num.reducers].
 *
 * If {@value MRCompactor#COMPACTION_JOB_LATE_DATA_MOVEMENT_TASK} is set to true, does not
 * launch an MR job. Instead, just copies the files present in
 * {@value MRCompactor#COMPACTION_JOB_LATE_DATA_FILES} to a 'late' subdirectory within
 * the output directory.
 *
 * @author Ziyang Liu
 * @deprecated Please use {@link org.apache.gobblin.compaction.mapreduce.MRCompactionTask}
 *  and {@link org.apache.gobblin.compaction.source.CompactionSource} to launch MR instead.
 *  The new way enjoys simpler logic to trigger the compaction flow and more reliable verification criteria,
 *  instead of using timestamp only before.
 */
@SuppressWarnings("deprecation")
public abstract class MRCompactorJobRunner implements Runnable, Comparable<MRCompactorJobRunner> {

  private static final Logger LOG = LoggerFactory.getLogger(MRCompactorJobRunner.class);

  private static final String COMPACTION_JOB_PREFIX = "compaction.job.";

  /**
   * Properties related to the compaction job of a dataset.
   */
  public static final String COMPACTION_JOB_OUTPUT_DIR_PERMISSION = COMPACTION_JOB_PREFIX + "output.dir.permission";
  public static final String COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE =
      COMPACTION_JOB_PREFIX + "target.output.file.size";
  public static final long DEFAULT_COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE = 536870912;
  public static final String COMPACTION_JOB_MAX_NUM_REDUCERS = COMPACTION_JOB_PREFIX + "max.num.reducers";
  public static final int DEFAULT_COMPACTION_JOB_MAX_NUM_REDUCERS = 900;
  private static final String COMPACTION_JOB_OVERWRITE_OUTPUT_DIR = COMPACTION_JOB_PREFIX + "overwrite.output.dir";
  private static final boolean DEFAULT_COMPACTION_JOB_OVERWRITE_OUTPUT_DIR = false;
  private static final String COMPACTION_JOB_ABORT_UPON_NEW_DATA = COMPACTION_JOB_PREFIX + "abort.upon.new.data";
  private static final boolean DEFAULT_COMPACTION_JOB_ABORT_UPON_NEW_DATA = false;
  private static final String COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE =
      COMPACTION_JOB_PREFIX + "copy.latedata.thread.pool.size";
  private static final int DEFAULT_COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE = 5;

  // If true, the MR job will use either 1 reducer or a prime number of reducers.
  public static final String COMPACTION_JOB_USE_PRIME_REDUCERS = COMPACTION_JOB_PREFIX + "use.prime.reducers";
  public static final boolean DEFAULT_COMPACTION_JOB_USE_PRIME_REDUCERS = true;

  public static final String HADOOP_JOB_NAME = "Gobblin MR Compaction";
  private static final long MR_JOB_CHECK_COMPLETE_INTERVAL_MS = 5000;
  private final boolean isRetryEnabled;
  private final String tmpFsUri;

  public enum Policy {

    // The job runner is permitted to publish the data.
    DO_PUBLISH_DATA,

    // The job runner can proceed with the compaction for now but should not publish the data.
    DO_NOT_PUBLISH_DATA,

    // The job runner should abort asap without publishing data.
    ABORT_ASAP
  }

  public enum Status {
    ABORTED,
    COMMITTED,
    RUNNING
  }

  protected final Dataset dataset;
  protected final FileSystem fs;
  protected final FileSystem tmpFs;
  protected final FsPermission perm;
  protected final boolean shouldDeduplicate;
  protected final boolean outputDeduplicated;
  protected final boolean recompactFromDestPaths;
  protected final boolean recompactAllData;
  protected final boolean renameSourceDir;
  protected final boolean usePrimeReducers;
  protected final EventSubmitter eventSubmitter;
  private final RecordCountProvider inputRecordCountProvider;
  private final RecordCountProvider outputRecordCountProvider;
  private final LateFileRecordCountProvider lateInputRecordCountProvider;
  private final LateFileRecordCountProvider lateOutputRecordCountProvider;
  private final DatasetHelper datasetHelper;
  private final int copyLateDataThreadPoolSize;
  private final String outputExtension;

  private volatile Policy policy = Policy.DO_NOT_PUBLISH_DATA;
  private volatile Status status = Status.RUNNING;
  private final Cache<Path, List<Path>> applicablePathCache;

  static final String COMPACTION_RETRY_PREFIX = COMPACTION_JOB_PREFIX + "retry.";
  static final String COMPACTION_RETRY_ENABLED = COMPACTION_RETRY_PREFIX + "enabled";
  static final String COMPACTION_TMP_FS = COMPACTION_PREFIX + "tmp.fs";

  static final Config COMPACTION_RETRY_DEFAULTS;

  static {
    Map<String, Object> configMap =
        ImmutableMap.<String, Object>builder()
            .put(RETRY_TIME_OUT_MS, TimeUnit.MINUTES.toMillis(2L))   //Overall retry for 2 minutes
            .put(RETRY_INTERVAL_MS, TimeUnit.SECONDS.toMillis(5L)) //Try to retry 5 seconds
            .put(RETRY_MULTIPLIER, 2L) // Muliply by 2 every attempt
            .put(RETRY_TYPE, RetryType.EXPONENTIAL.name())
            .build();
    COMPACTION_RETRY_DEFAULTS = ConfigFactory.parseMap(configMap);
  };

  protected final Config retrierConfig;

  protected MRCompactorJobRunner(Dataset dataset, FileSystem fs) {
    this.dataset = dataset;
    this.fs = fs;
    this.perm = HadoopUtils.deserializeFsPermission(this.dataset.jobProps(), COMPACTION_JOB_OUTPUT_DIR_PERMISSION,
        FsPermission.getDefault());
    this.recompactFromDestPaths = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RECOMPACT_FROM_DEST_PATHS, MRCompactor.DEFAULT_COMPACTION_RECOMPACT_FROM_DEST_PATHS);
    this.recompactAllData = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RECOMPACT_ALL_DATA, MRCompactor.DEFAULT_COMPACTION_RECOMPACT_ALL_DATA);
    this.renameSourceDir = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RENAME_SOURCE_DIR_ENABLED, MRCompactor.DEFAULT_COMPACTION_RENAME_SOURCE_DIR_ENABLED);

    Preconditions.checkArgument(this.dataset.jobProps().contains(MRCompactor.COMPACTION_SHOULD_DEDUPLICATE),
        String.format("Missing property %s for dataset %s", MRCompactor.COMPACTION_SHOULD_DEDUPLICATE, this.dataset));
    this.shouldDeduplicate = this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_SHOULD_DEDUPLICATE);

    this.outputDeduplicated = this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_OUTPUT_DEDUPLICATED,
        MRCompactor.DEFAULT_COMPACTION_OUTPUT_DEDUPLICATED);

    this.usePrimeReducers = this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_USE_PRIME_REDUCERS,
        DEFAULT_COMPACTION_JOB_USE_PRIME_REDUCERS);

    this.eventSubmitter = new EventSubmitter.Builder(
        GobblinMetrics.get(this.dataset.jobProps().getProp(ConfigurationKeys.JOB_NAME_KEY)).getMetricContext(),
        MRCompactor.COMPACTION_TRACKING_EVENTS_NAMESPACE).build();

    this.copyLateDataThreadPoolSize = this.dataset.jobProps().getPropAsInt(COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE,
        DEFAULT_COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE);

    this.tmpFsUri = this.dataset.jobProps().getProp(COMPACTION_TMP_FS,
        null);

    try {
      Log.info("Tmp fs uri:"+this.tmpFsUri);
      if (this.tmpFsUri != null) {
        this.tmpFs = FileSystem.get(new URI(this.tmpFsUri), new Configuration());
      } else {
        this.tmpFs = MRCompactorJobRunner.this.fs;
      }
    } catch (Exception e) {
      throw new RuntimeException("Failed get Filesystem from tmp fs uri", e);
    }

    try {
      this.inputRecordCountProvider = (RecordCountProvider) Class
          .forName(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_INPUT_RECORD_COUNT_PROVIDER,
              MRCompactor.DEFAULT_COMPACTION_INPUT_RECORD_COUNT_PROVIDER))
          .newInstance();
      this.outputRecordCountProvider = (RecordCountProvider) Class
          .forName(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_OUTPUT_RECORD_COUNT_PROVIDER,
              MRCompactor.DEFAULT_COMPACTION_OUTPUT_RECORD_COUNT_PROVIDER))
          .newInstance();
      this.lateInputRecordCountProvider = new LateFileRecordCountProvider(this.inputRecordCountProvider);
      this.lateOutputRecordCountProvider = new LateFileRecordCountProvider(this.outputRecordCountProvider);
      this.isRetryEnabled= this.dataset.jobProps().getPropAsBoolean(COMPACTION_RETRY_ENABLED,
          false);
    } catch (Exception e) {
      throw new RuntimeException("Failed to instantiate RecordCountProvider", e);
    }

    this.applicablePathCache = CacheBuilder.newBuilder().maximumSize(2000).build();
    this.datasetHelper = new DatasetHelper(this.dataset, this.fs, this.getApplicableFileExtensions());

    this.outputExtension = this.dataset.jobProps().getProp(MRCompactor.COMPACTION_FILE_EXTENSION, ".avro");

    if (this.isRetryEnabled) {
      this.retrierConfig = ConfigBuilder.create()
          .loadProps(this.dataset.jobProps().getProperties(), COMPACTION_RETRY_PREFIX)
          .build()
          .withFallback(COMPACTION_RETRY_DEFAULTS);

      LOG.info("Retry enabled for compaction publish :"+ retrierConfig.root().render(ConfigRenderOptions.concise()));
    } else {
      this.retrierConfig = WriterUtils.NO_RETRY_CONFIG;
      LOG.info("Retry disabled for compaction");
    }

  }

  @Override
  public void run() {
    Configuration conf = HadoopUtils.getConfFromState(this.dataset.jobProps());

    // Turn on mapreduce output compression by default
    if (conf.get("mapreduce.output.fileoutputformat.compress") == null && conf.get("mapred.output.compress") == null) {
      conf.setBoolean("mapreduce.output.fileoutputformat.compress", true);
    }

    // Disable delegation token cancellation by default
    if (conf.get("mapreduce.job.complete.cancel.delegation.tokens") == null) {
      conf.setBoolean("mapreduce.job.complete.cancel.delegation.tokens", false);
    }

    try {
      DateTime compactionTimestamp = getCompactionTimestamp();
      LOG.info("MR Compaction Job Timestamp " + compactionTimestamp.getMillis());
      if (this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_JOB_LATE_DATA_MOVEMENT_TASK, false)) {
        List<Path> newLateFilePaths = Lists.newArrayList();
        for (String filePathString : this.dataset.jobProps()
            .getPropAsList(MRCompactor.COMPACTION_JOB_LATE_DATA_FILES)) {
          if (FilenameUtils.isExtension(filePathString, getApplicableFileExtensions())) {
            newLateFilePaths.add(new Path(filePathString));
          }
        }

        Path lateDataOutputPath = this.outputDeduplicated ? this.dataset.outputLatePath() : this.dataset.outputPath();
        LOG.info(String.format("Copying %d late data files to %s", newLateFilePaths.size(), lateDataOutputPath));
        if (this.outputDeduplicated) {
          if (!this.fs.exists(lateDataOutputPath)) {
            if (!this.fs.mkdirs(lateDataOutputPath)) {
              throw new RuntimeException(
                  String.format("Failed to create late data output directory: %s.", lateDataOutputPath.toString()));
            }
          }
        }
        this.copyDataFiles(lateDataOutputPath, newLateFilePaths);
        if (this.outputDeduplicated) {
          dataset.checkIfNeedToRecompact (datasetHelper);
        }
        this.status = Status.COMMITTED;
      } else {
        if (this.fs.exists(this.dataset.outputPath()) && !canOverwriteOutputDir()) {
          LOG.warn(String.format("Output paths %s exists. Will not compact %s.", this.dataset.outputPath(),
              this.dataset.inputPaths()));
          this.status = Status.COMMITTED;
          return;
        }
        addJars(conf);
        Job job = Job.getInstance(conf);
        this.configureJob(job);
        this.submitAndWait(job);
        if (shouldPublishData(compactionTimestamp)) {
          // remove all invalid empty files due to speculative task execution
          List<Path> goodPaths = CompactionJobConfigurator.getGoodFiles(job, this.dataset.outputTmpPath(), this.tmpFs,
              ImmutableList.of("avro"));

          if (!this.recompactAllData && this.recompactFromDestPaths) {
            // append new files without deleting output directory
            addGoodFilesToOutputPath(goodPaths);
            // clean up late data from outputLateDirectory, which has been set to inputPath
            deleteFilesByPaths(this.dataset.inputPaths());
          } else {
            moveTmpPathToOutputPath();
            if (this.recompactFromDestPaths) {
              deleteFilesByPaths(this.dataset.additionalInputPaths());
            }
          }
          submitSlaEvent(job);
          LOG.info("Successfully published data for input folder " + this.dataset.inputPaths());
          this.status = Status.COMMITTED;
        } else {
          LOG.info("Data not published for input folder " + this.dataset.inputPaths() + " due to incompleteness");
          this.status = Status.ABORTED;
          return;
        }
      }
      if (renameSourceDir) {
        MRCompactor.renameSourceDirAsCompactionComplete (this.fs, this.dataset);
      } else {
        this.markOutputDirAsCompleted(compactionTimestamp);
      }
      this.submitRecordsCountsEvent();
    } catch (Throwable t) {
      throw Throwables.propagate(t);
    }
  }

  /**
   * For regular compactions, compaction timestamp is the time the compaction job starts.
   *
   * If this is a recompaction from output paths, the compaction timestamp will remain the same as previously
   * persisted compaction time. This is because such a recompaction doesn't consume input data, so next time,
   * whether a file in the input folder is considered late file should still be based on the previous compaction
   * timestamp.
   */
  private DateTime getCompactionTimestamp() throws IOException {
    DateTimeZone timeZone = DateTimeZone.forID(
        this.dataset.jobProps().getProp(MRCompactor.COMPACTION_TIMEZONE, MRCompactor.DEFAULT_COMPACTION_TIMEZONE));

    if (!this.recompactFromDestPaths) {
      return new DateTime(timeZone);
    }

    Set<Path> inputPaths = getInputPaths();
    long maxTimestamp = Long.MIN_VALUE;
    for (FileStatus status : FileListUtils.listFilesRecursively(this.fs, inputPaths)) {
      maxTimestamp = Math.max(maxTimestamp, status.getModificationTime());
    }
    return maxTimestamp == Long.MIN_VALUE ? new DateTime(timeZone) : new DateTime(maxTimestamp, timeZone);
  }

  private void copyDataFiles(final Path outputDirectory, List<Path> inputFilePaths) throws IOException {
    ExecutorService executor = ScalingThreadPoolExecutor.newScalingThreadPool(0, this.copyLateDataThreadPoolSize, 100,
        ExecutorsUtils.newThreadFactory(Optional.of(LOG), Optional.of(this.dataset.getName() + "-copy-data")));

    List<Future<?>> futures = Lists.newArrayList();
    for (final Path filePath : inputFilePaths) {
      Future<Void> future = executor.submit(new Callable<Void>() {
        @Override
        public Void call() throws Exception {
          Path convertedFilePath = MRCompactorJobRunner.this.outputRecordCountProvider.convertPath(
              LateFileRecordCountProvider.restoreFilePath(filePath),
              MRCompactorJobRunner.this.outputExtension,
              MRCompactorJobRunner.this.inputRecordCountProvider);
          String targetFileName = convertedFilePath.getName();
          Path outPath = MRCompactorJobRunner.this.lateOutputRecordCountProvider.constructLateFilePath(targetFileName,
              MRCompactorJobRunner.this.fs, outputDirectory);
          HadoopUtils.copyPath (MRCompactorJobRunner.this.fs, filePath, MRCompactorJobRunner.this.fs, outPath, true,
              MRCompactorJobRunner.this.fs.getConf());
          LOG.debug(String.format("Copied %s to %s.", filePath, outPath));
          return null;
        }
      });
      futures.add(future);
    }
    try {
      for (Future<?> future : futures) {
        future.get();
      }
    } catch (ExecutionException | InterruptedException e) {
      throw new IOException("Failed to copy file.", e);
    } finally {
      ExecutorsUtils.shutdownExecutorService(executor, Optional.of(LOG));
    }
  }

  private boolean canOverwriteOutputDir() {
    return this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_OVERWRITE_OUTPUT_DIR,
        DEFAULT_COMPACTION_JOB_OVERWRITE_OUTPUT_DIR) || this.recompactFromDestPaths;
  }

  private void addJars(Configuration conf) throws IOException {
    if (!this.dataset.jobProps().contains(MRCompactor.COMPACTION_JARS)) {
      return;
    }
    Path jarFileDir = new Path(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_JARS));
    for (FileStatus status : this.fs.listStatus(jarFileDir)) {
      DistributedCache.addFileToClassPath(status.getPath(), conf, this.fs);
    }
  }

  protected void configureJob(Job job) throws IOException {
    job.setJobName(HADOOP_JOB_NAME + " (" + this.dataset.getDatasetName() + ")");
    configureInputAndOutputPaths(job);
    configureMapper(job);
    configureReducer(job);
    if (!this.shouldDeduplicate) {
      job.setNumReduceTasks(0);
    }
  }

  private void configureInputAndOutputPaths(Job job) throws IOException {
    for (Path inputPath : getInputPaths()) {
      FileInputFormat.addInputPath(job, inputPath);
    }

    //MR output path must not exist when MR job starts, so delete if exists.
    this.tmpFs.delete(this.dataset.outputTmpPath(), true);
    FileOutputFormat.setOutputPath(job, this.dataset.outputTmpPath());
  }

  private Set<Path> getInputPaths() {
    return ImmutableSet.<Path> builder().addAll(this.dataset.inputPaths()).addAll(this.dataset.additionalInputPaths())
        .build();
  }

  public Dataset getDataset() {
    return this.dataset;
  }

  protected void configureMapper(Job job) {
    setInputFormatClass(job);
    setMapperClass(job);
    setMapOutputKeyClass(job);
    setMapOutputValueClass(job);
  }

  protected void configureReducer(Job job) throws IOException {
    setOutputFormatClass(job);
    setReducerClass(job);
    setOutputKeyClass(job);
    setOutputValueClass(job);
    setNumberOfReducers(job);
  }

  protected abstract void setInputFormatClass(Job job);

  protected abstract void setMapperClass(Job job);

  protected abstract void setMapOutputKeyClass(Job job);

  protected abstract void setMapOutputValueClass(Job job);

  protected abstract void setOutputFormatClass(Job job);

  protected abstract void setReducerClass(Job job);

  protected abstract void setOutputKeyClass(Job job);

  protected abstract void setOutputValueClass(Job job);

  protected abstract Collection<String> getApplicableFileExtensions();

  protected void setNumberOfReducers(Job job) throws IOException {
    long inputSize = getInputSize();
    long targetFileSize = getTargetFileSize();
    int numReducers = Math.min(Ints.checkedCast(inputSize / targetFileSize) + 1, getMaxNumReducers());
    if (this.usePrimeReducers && numReducers != 1) {
      numReducers = Primes.nextPrime(numReducers);
    }
    job.setNumReduceTasks(numReducers);
  }

  private long getInputSize() throws IOException {
    long inputSize = 0;
    for (Path inputPath : this.getInputPaths()) {
      inputSize += this.fs.getContentSummary(inputPath).getLength();
    }
    return inputSize;
  }

  private long getTargetFileSize() {
    return this.dataset.jobProps().getPropAsLong(COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE,
        DEFAULT_COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE);
  }

  private int getMaxNumReducers() {
    return this.dataset.jobProps().getPropAsInt(COMPACTION_JOB_MAX_NUM_REDUCERS,
        DEFAULT_COMPACTION_JOB_MAX_NUM_REDUCERS);
  }

  private void submitAndWait(Job job) throws ClassNotFoundException, IOException, InterruptedException {
    job.submit();
    MRCompactor.addRunningHadoopJob(this.dataset, job);
    LOG.info(String.format("MR job submitted for dataset %s, input %s, url: %s", this.dataset, getInputPaths(),
        job.getTrackingURL()));
    while (!job.isComplete()) {
      if (this.policy == Policy.ABORT_ASAP) {
        LOG.info(String.format(
            "MR job for dataset %s, input %s killed due to input data incompleteness." + " Will try again later",
            this.dataset, getInputPaths()));
        job.killJob();
        return;
      }
      Thread.sleep(MR_JOB_CHECK_COMPLETE_INTERVAL_MS);
    }
    if (!job.isSuccessful()) {
      throw new RuntimeException(String.format("MR job failed for topic %s, input %s, url: %s", this.dataset,
          getInputPaths(), job.getTrackingURL()));
    }
  }

  /**
   * Data should be published if: (1) this.policy == {@link Policy#DO_PUBLISH_DATA}; (2) either
   * compaction.abort.upon.new.data=false, or no new data is found in the input folder since jobStartTime.
   */
  private boolean shouldPublishData(DateTime jobStartTime) throws IOException {
    if (this.policy != Policy.DO_PUBLISH_DATA) {
      return false;
    }
    if (!this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_ABORT_UPON_NEW_DATA,
        DEFAULT_COMPACTION_JOB_ABORT_UPON_NEW_DATA)) {
      return true;
    }
    for (Path inputPath : getInputPaths()) {
      if (findNewDataSinceCompactionStarted(inputPath, jobStartTime)) {
        return false;
      }
    }
    return true;
  }

  private boolean findNewDataSinceCompactionStarted(Path inputPath, DateTime jobStartTime) throws IOException {
    for (FileStatus fstat : FileListUtils.listFilesRecursively(this.fs, inputPath)) {
      DateTime fileModificationTime = new DateTime(fstat.getModificationTime());
      if (fileModificationTime.isAfter(jobStartTime)) {
        LOG.info(String.format("Found new file %s in input folder %s after compaction started. Will abort compaction.",
            fstat.getPath(), inputPath));
        return true;
      }
    }
    return false;
  }

  private void markOutputDirAsCompleted(DateTime jobStartTime) throws IOException {
    Path completionFilePath = new Path(this.dataset.outputPath(), MRCompactor.COMPACTION_COMPLETE_FILE_NAME);
    try (FSDataOutputStream completionFileStream = this.fs.create(completionFilePath)) {
      completionFileStream.writeLong(jobStartTime.getMillis());
    }
  }

  private void moveTmpPathToOutputPath() throws IOException {
    Retryer<Void> retryer = RetryerFactory.newInstance(this.retrierConfig);

    LOG.info(String.format("Moving %s to %s", this.dataset.outputTmpPath(), this.dataset.outputPath()));

    this.fs.delete(this.dataset.outputPath(), true);

    if (this.isRetryEnabled) {
      try {
        retryer.call(() -> {
          if (fs.exists(this.dataset.outputPath())) {
            throw new IOException("Path " + this.dataset.outputPath() + " exists however it should not. Will wait more.");
          }
          return null;
        });
      } catch (Exception e) {
        throw new IOException(e);
      }
    }

    WriterUtils.mkdirsWithRecursivePermissionWithRetry(MRCompactorJobRunner.this.fs, this.dataset.outputPath().getParent(), this.perm, this.retrierConfig);

    Log.info("Moving from fs: ("+MRCompactorJobRunner.this.tmpFs.getUri()+") path: "+ this.dataset.outputTmpPath() + " to "+ "fs: ("+ FileSystem.get(this.dataset.outputPath().getParent().toUri(), this.fs.getConf()).getUri()+") output path: " + this.dataset.outputPath());
    HadoopUtils.movePath (MRCompactorJobRunner.this.tmpFs, this.dataset.outputTmpPath(), FileSystem.get(this.dataset.outputPath().getParent().toUri(), this.fs.getConf()), this.dataset.outputPath(), false, this.fs.getConf()) ;
  }

  private void addGoodFilesToOutputPath (List<Path> goodPaths) throws IOException {
    for (Path path: goodPaths) {
      String fileName = path.getName();
      LOG.info(String.format("Adding %s to %s", path.toString(), this.dataset.outputPath()));
      Path outPath = MRCompactorJobRunner.this.lateOutputRecordCountProvider.constructLateFilePath(fileName,
          MRCompactorJobRunner.this.fs, this.dataset.outputPath());

      HadoopUtils.movePath(MRCompactorJobRunner.this.tmpFs, path,
            FileSystem.get(this.dataset.outputPath().getParent().toUri(), this.fs.getConf()), outPath, false, this.fs.getConf());
    }
  }


  private void deleteFilesByPaths(Set<Path> paths) throws IOException {
    for (Path path : paths) {
      HadoopUtils.deletePathAndEmptyAncestors(this.fs, path, true);
    }
  }

  /**
   * Tell the {@link MRCompactorJobRunner} that it can go ahead and publish the data.
   */
  public void proceed() {
    this.policy = Policy.DO_PUBLISH_DATA;
  }

  public void abort() {
    this.policy = Policy.ABORT_ASAP;
  }

  /**
   * The status of the MRCompactorJobRunner.
   * @return RUNNING, COMMITTED or ABORTED.
   */
  public Status status() {
    return this.status;
  }

  @Override
  public int compareTo(MRCompactorJobRunner o) {
    return Double.compare(o.dataset.priority(), this.dataset.priority());
  }

  /**
   * Get the list of file {@link Path}s in the given dataDir, which satisfy the extension requirements
   *  of {@link #getApplicableFileExtensions()}.
   */
  private List<Path> getApplicableFilePaths(final Path dataDir, final FileSystem fs) throws IOException {
    try {
      return applicablePathCache.get(dataDir, new Callable<List<Path>>() {

        @Override
        public List<Path> call() throws Exception {
          if (!MRCompactorJobRunner.this.fs.exists(dataDir)) {
            return Lists.newArrayList();
          }
          List<Path> paths = Lists.newArrayList();
          for (FileStatus fileStatus : FileListUtils.listFilesRecursively(fs, dataDir,
              new PathFilter() {
            @Override
            public boolean accept(Path path) {
              for (String validExtention : getApplicableFileExtensions()) {
                if (path.getName().endsWith(validExtention)) {
                  return true;
                }
              }
              return false;
            }
          })) {
            paths.add(fileStatus.getPath());
          }
          return paths;
        }
      });
    } catch (ExecutionException e) {
      throw new IOException(e);
    }
  }

  /**
   * Submit an event when compaction MR job completes
   */
  private void submitSlaEvent(Job job) {
    try {
      CompactionSlaEventHelper
          .getEventSubmitterBuilder(this.dataset, Optional.of(job), this.fs)
          .eventSubmitter(this.eventSubmitter)
          .eventName(CompactionSlaEventHelper.COMPACTION_COMPLETED_EVENT_NAME)
          .additionalMetadata(
              CompactionSlaEventHelper.LATE_RECORD_COUNT,
              Long.toString(this.lateOutputRecordCountProvider.getRecordCount(this.getApplicableFilePaths(this.dataset
                  .outputLatePath(), this.fs))))
          .additionalMetadata(
              CompactionSlaEventHelper.REGULAR_RECORD_COUNT,
              Long.toString(this.outputRecordCountProvider.getRecordCount(this.getApplicableFilePaths(this.dataset
                  .outputPath(), this.fs))))
          .additionalMetadata(CompactionSlaEventHelper.RECOMPATED_METADATA_NAME,
              Boolean.toString(this.dataset.needToRecompact())).build().submit();
    } catch (Throwable e) {
      LOG.warn("Failed to submit compaction completed event:" + e, e);
    }
  }

  /**
   * Submit an event reporting late record counts and non-late record counts.
   */
  private void submitRecordsCountsEvent() {
    long lateOutputRecordCount = this.datasetHelper.getLateOutputRecordCount();
    long outputRecordCount = this.datasetHelper.getOutputRecordCount();

    try {
      CompactionSlaEventHelper
          .getEventSubmitterBuilder(this.dataset, Optional.<Job> absent(), this.fs)
          .eventSubmitter(this.eventSubmitter)
          .eventName(CompactionSlaEventHelper.COMPACTION_RECORD_COUNT_EVENT)
          .additionalMetadata(CompactionSlaEventHelper.DATASET_OUTPUT_PATH, this.dataset.outputPath().toString())
          .additionalMetadata(
              CompactionSlaEventHelper.LATE_RECORD_COUNT,
              Long.toString(lateOutputRecordCount))
          .additionalMetadata(
              CompactionSlaEventHelper.REGULAR_RECORD_COUNT,
              Long.toString(outputRecordCount))
          .additionalMetadata(CompactionSlaEventHelper.NEED_RECOMPACT, Boolean.toString(this.dataset.needToRecompact()))
          .build().submit();
    } catch (Throwable e) {
      LOG.warn("Failed to submit late event count:" + e, e);
    }
  }
}