java source code of MergeCommand

Project: parquet-mr (GitHub Link)

parquet-mr-master
- .github
  - PULL_REQUEST_TEMPLATE.md
- parquet-hive
  - parquet-hive-binding
    - parquet-hive-0.12-binding
      - src
        main
        java
        org
        apache
        parquet
        hive
        internal
        Hive012Binding.java
      - pom.xml
    - parquet-hive-binding-bundle
      - src
        main
        resources
        org
        apache
        parquet
        bundle
        assemble
        uberjar.xml
      - pom.xml
    - pom.xml
    - parquet-hive-0.10-binding
      - src
        main
        java
        org
        apache
        parquet
        hive
        internal
        Hive010Binding.java
      - pom.xml
    - parquet-hive-binding-interface
      - src
        main
        java
        org
        apache
        parquet
        hive
        internal
        AbstractHiveBinding.java
        HiveBinding.java
      - pom.xml
    - parquet-hive-binding-factory
      - src
        main
        java
        org
        apache
        parquet
        hive
        HiveBindingFactory.java
        test
        java
        org
        apache
        parquet
        hive
        TestHiveBindingFactory.java
      - pom.xml
  - pom.xml
  - parquet-hive-storage-handler
    - src
      - main
        java
        org
        apache
        hadoop
        hive
        serde2
        objectinspector
        primitive
        ParquetStringInspector.java
        ql
        io
        IOConstants.java
        parquet
        writable
        BinaryWritable.java
        BigDecimalWritable.java
        MapredParquetOutputFormat.java
        convert
        DataWritableGroupConverter.java
        ETypeConverter.java
        DataWritableRecordConverter.java
        HiveSchemaConverter.java
        HiveGroupConverter.java
        ArrayWritableGroupConverter.java
        write
        DataWritableWriter.java
        ParquetRecordWriterWrapper.java
        DataWritableWriteSupport.java
        MapredParquetInputFormat.java
        serde
        ParquetHiveArrayInspector.java
        AbstractParquetMapInspector.java
        ArrayWritableObjectInspector.java
        primitive
        ParquetShortInspector.java
        ParquetByteInspector.java
        ParquetPrimitiveInspectorFactory.java
        StandardParquetHiveMapInspector.java
        ParquetHiveSerDe.java
        DeepParquetHiveMapInspector.java
        read
        DataWritableReadSupport.java
        ParquetRecordReaderWrapper.java
        parquet
        hive
        DeprecatedParquetOutputFormat.java
        MapredParquetOutputFormat.java
        DeprecatedParquetInputFormat.java
        MapredParquetInputFormat.java
        serde
        ParquetHiveSerDe.java
      - test
        java
        org
        apache
        hadoop
        hive
        ql
        io
        parquet
        TestMapredParquetInputFormat.java
        TestMapredParquetOutputFormat.java
        TestHiveSchemaConverter.java
        serde
        TestAbstractParquetMapInspector.java
        TestDeepParquetHiveMapInspector.java
        TestParquetHiveArrayInspector.java
        TestStandardParquetHiveMapInspector.java
        TestParquetSerDe.java
    - pom.xml
  - REVIEWERS.md
- src
  - license.txt
- parquet-benchmarks
  - src
    - main
      - resources
        log4j.properties
      - java
        org
        apache
        parquet
        benchmarks
        PageChecksumDataGenerator.java
        BenchmarkUtils.java
        PageChecksumReadBenchmarks.java
        BenchmarkFiles.java
        NestedNullWritingBenchmarks.java
        FilteringBenchmarks.java
        WriteBenchmarks.java
        ReadBenchmarks.java
        BenchmarkConstants.java
        PageChecksumWriteBenchmarks.java
        DataGenerator.java
  - pom.xml
  - run.sh
  - README.md
- parquet-hadoop
  - src
    - main
      - resources
        META-INF
        LICENSE
      - java
        org
        apache
        parquet
        filter2
        bloomfilterlevel
        BloomFilterImpl.java
        compat
        RowGroupFilter.java
        dictionarylevel
        DictionaryFilter.java
        statisticslevel
        StatisticsFilter.java
        hadoop
        InternalParquetRecordReader.java
        ColumnConfigParser.java
        ParquetRecordWriter.java
        BloomFilterReader.java
        ColumnChunkPageReadStore.java
        ColumnIndexFilterUtils.java
        Footer.java
        codec
        CodecConfig.java
        ZstdDecompressorStream.java
        SnappyUtil.java
        ZstandardCodec.java
        NonBlockedCompressorStream.java
        SnappyCompressor.java
        ZstdCompressorStream.java
        SnappyDecompressor.java
        CleanUtil.java
        SnappyCodec.java
        NonBlockedDecompressorStream.java
        BadConfigurationException.java
        LruCache.java
        metadata
        EncodingList.java
        ColumnChunkProperties.java
        ParquetMetadata.java
        GlobalMetaData.java
        BlockMetaData.java
        ColumnChunkMetaData.java
        FileMetaData.java
        MemoryManager.java
        CodecFactory.java
        api
        InitContext.java
        DelegatingReadSupport.java
        WriteSupport.java
        package-info.java
        ReadSupport.java
        DelegatingWriteSupport.java
        ParquetWriter.java
        util
        ContextUtil.java
        HadoopInputFile.java
        CompressionConverter.java
        HiddenFileFilter.java
        HadoopPositionOutputStream.java
        SerializationUtil.java
        counters
        BenchmarkCounter.java
        ICounter.java
        mapred
        MapRedCounterAdapter.java
        MapRedCounterLoader.java
        CounterLoader.java
        mapreduce
        MapReduceCounterLoader.java
        MapReduceCounterAdapter.java
        H2SeekableInputStream.java
        HadoopOutputFile.java
        HadoopCodecs.java
        ConfigurationUtil.java
        HadoopStreams.java
        H1SeekableInputStream.java
        UnmaterializableRecordCounter.java
        mapred
        MapredParquetOutputCommitter.java
        DeprecatedParquetOutputFormat.java
        DeprecatedParquetInputFormat.java
        Container.java
        ParquetOutputFormat.java
        ParquetFileWriter.java
        ParquetOutputCommitter.java
        package-info.java
        example
        ExampleParquetWriter.java
        ExampleInputFormat.java
        GroupWriteSupport.java
        GroupReadSupport.java
        ExampleOutputFormat.java
        ParquetReader.java
        PrintFooter.java
        DirectCodecFactory.java
        ColumnIndexValidator.java
        ColumnIndexStoreImpl.java
        ParquetInputFormat.java
        ParquetInputSplit.java
        ParquetFileReader.java
        ColumnChunkPageWriteStore.java
        DictionaryPageReader.java
        InternalParquetRecordWriter.java
        ParquetRecordReader.java
        ParquetReadOptions.java
        HadoopReadOptions.java
        format
        converter
        ParquetMetadataConverter.java
        internal
        hadoop
        metadata
        IndexReference.java
    - test
      - resources
        log4j.properties
      - java
        org
        apache
        parquet
        encodings
        FileEncodingsIT.java
        statistics
        RandomValues.java
        TestStatistics.java
        TestColumnIndexes.java
        DirectWriterTest.java
        filter2
        recordlevel
        PhoneBookWriter.java
        TestRecordLevelFilters.java
        compat
        TestRowGroupFilter.java
        dictionarylevel
        DictionaryFilterTest.java
        statisticslevel
        TestStatisticsFilter.java
        TestFiltersWithMissingColumns.java
        hadoop
        DeprecatedInputFormatTest.java
        TestReadWriteEncodingStats.java
        TestBloomFiltering.java
        TestDirectCodecFactory.java
        TestParquetWriter.java
        TestParquetFileWriter.java
        TestParquetWriterNewPage.java
        TestMemoryManager.java
        codec
        CodecConfigTest.java
        TestDataPageV1Checksums.java
        TestLruCache.java
        metadata
        TestColumnChunkMetaData.java
        TestSnappyCodec.java
        TestUtils.java
        util
        TestSerializationUtil.java
        CompressionConveterTest.java
        TestHadoop2ByteBufferReads.java
        MockHadoopInputStream.java
        DeprecatedOutputFormatTest.java
        TestParquetOutputFormatJobSummaryLevel.java
        TestZstandardCodec.java
        TestColumnIndexFiltering.java
        example
        TestInputOutputFormat.java
        GroupReadSupportTest.java
        TestColumnChunkPageWriteStore.java
        TestParquetWriterAppendBlocks.java
        TestInputOutputFormatWithPadding.java
        TestInputFormatColumnProjection.java
        TestMergeMetadataFiles.java
        TestMultipleWriteRead.java
        TestInputFormat.java
        format
        converter
        TestParquetMetadataConverter.java
  - pom.xml
  - README.md
  - REVIEWERS.md
- parquet-cascading
  - src
    - main
      - java
        org
        apache
        parquet
        cascading
        ParquetValueScheme.java
        ParquetTupleScheme.java
        ParquetTBaseScheme.java
    - test
      - java
        org
        apache
        parquet
        cascading
        TestParquetTBaseScheme.java
  - pom.xml
  - .cache
  - REVIEWERS.md
- parquet-common
  - src
    - main
      - java
        org
        apache
        parquet
        Preconditions.java
        IOExceptionUtils.java
        VersionParser.java
        bytes
        LittleEndianDataOutputStream.java
        BytesInput.java
        CapacityByteArrayOutputStream.java
        SingleBufferInputStream.java
        BytesUtils.java
        DirectByteBufferAllocator.java
        ByteBufferInputStream.java
        ByteBufferAllocator.java
        ConcatenatingByteArrayCollector.java
        HeapByteBufferAllocator.java
        MultiBufferInputStream.java
        LittleEndianDataInputStream.java
        hadoop
        codec
        CompressionCodecNotSupportedException.java
        metadata
        Canonicalizer.java
        CompressionCodecName.java
        ColumnPath.java
        Closeables.java
        SemanticVersion.java
        Log.java
        util
        DynConstructors.java
        DynMethods.java
        Exceptions.java
        Files.java
        ParquetRuntimeException.java
        OutputStreamCloseException.java
        compression
        CompressionCodecFactory.java
        io
        PositionOutputStream.java
        DelegatingSeekableInputStream.java
        SeekableInputStream.java
        InputFile.java
        OutputFile.java
        DelegatingPositionOutputStream.java
        ShouldNeverHappenException.java
        glob
        GlobNode.java
        WildcardPath.java
        GlobParser.java
        GlobExpander.java
        Ints.java
        Strings.java
    - test
      - java
        org
        apache
        parquet
        TestPreconditions.java
        VersionTest.java
        bytes
        TestMultiBufferInputStream.java
        TestSingleBufferInputStream.java
        TestByteBufferInputStreams.java
        TestDeprecatedBufferInputStream.java
        TestBytesUtil.java
        SemanticVersionTest.java
        TestUtils.java
        util
        Concatenator.java
        TestDynConstructors.java
        TestDynMethods.java
        io
        TestDelegatingSeekableInputStream.java
        MockInputStream.java
        glob
        TestWildcardPath.java
        TestGlob.java
  - pom.xml
  - REVIEWERS.md
- parquet-encoding
  - src
    - main
      - resources
        META-INF
        LICENSE
      - java
        org
        apache
        parquet
        column
        values
        bitpacking
        BitPacking.java
        IntPackerFactory.java
        BytePackerForLongFactory.java
        ByteBasedBitPackingEncoder.java
        BytePacker.java
        IntPacker.java
        BytePackerFactory.java
        BytePackerForLong.java
        Packer.java
    - test
      - java
        org
        apache
        parquet
        bytes
        TestBytesInput.java
        TestCapacityByteArrayOutputStream.java
        column
        values
        bitpacking
        TestLemireBitPacking.java
        TestBitPacking.java
        TestByteBitPacking.java
        TestByteBasedBitPackingEncoder.java
  - pom.xml
  - REVIEWERS.md
- parquet-hadoop-bundle
  - src
    - main
      - resources
        META-INF
        LICENSE
        org
        apache
        parquet
        bundle
  - pom.xml
  - README
- PoweredBy.md
- pom.xml
- parquet_cascading.md
- parquet-scala
  - src
    - main
      - scala
        org
        apache
        parquet
        filter2
        dsl
        Dsl.scala
    - test
      - scala
        org
        apache
        parquet
        filter2
        dsl
        DslTest.scala
  - pom.xml
- LICENSE
- parquet-pig-bundle
  - src
    - main
      - resources
        META-INF
        LICENSE
        org
        apache
        parquet
        bundle
  - pom.xml
- CHANGES.md
- parquet-generator
  - src
    - main
      - resources
        parquet-version.properties
        META-INF
        LICENSE
      - java
        org
        apache
        parquet
        version
        VersionGenerator.java
        Generator.java
        filter2
        IncrementallyUpdatedFilterPredicateGenerator.java
        Generator.java
        encoding
        bitpacking
        IntBasedBitPackingGenerator.java
        ByteBasedBitPackingGenerator.java
        Generator.java
  - pom.xml
  - REVIEWERS.md
- .editorconfig
- parquet-protobuf
  - src
    - main
      - resources
        META-INF
        NOTICE
      - java
        org
        apache
        parquet
        proto
        ProtoParquetOutputFormat.java
        ProtoParquetWriter.java
        ProtoReadSupport.java
        ProtoRecordConverter.java
        ProtoParquetReader.java
        ProtoMessageConverter.java
        ProtoSchemaConverter.java
        ProtoParquetInputFormat.java
        ProtoWriteSupport.java
        ProtoRecordMaterializer.java
    - test
      - resources
        log4j.properties
        TestProtobuf.proto
        TestProto3.proto
      - java
        org
        apache
        parquet
        proto
        utils
        WriteUsingMR.java
        ReadUsingMR.java
        ProtoInputOutputFormatTest.java
        ProtoRecordConverterTest.java
        TestUtils.java
        ProtoSchemaConverterTest.java
        ProtoWriteSupportTest.java
  - pom.xml
  - README.md
  - REVIEWERS.md
- parquet-cascading-common23
  - src
    - main
      - java
        org
        apache
        parquet
        cascading
        TupleReadSupport.java
        SchemaIntersection.java
        convert
        TupleRecordMaterializer.java
        TupleConverter.java
        TupleWriteSupport.java
    - test
      - resources
        names.txt
      - java
        org
        apache
        parquet
        cascading
        TestParquetTupleScheme.java
      - thrift
        test.thrift
- dev
  - source-release.sh
  - travis-before_install-master.sh
  - merge_parquet_pr.py
  - COMMITTERS.md
  - travis-before_install.sh
  - prepare-release.sh
  - README.md
  - finalize-release
- parquet-cascading3
  - src
    - main
      - java
        org
        apache
        parquet
        cascading
        ParquetValueScheme.java
        ParquetTupleScheme.java
        ParquetTBaseScheme.java
    - test
      - java
        org
        apache
        parquet
        cascading
        TestParquetTBaseScheme.java
  - pom.xml
  - REVIEWERS.md
- parquet-tools
  - src
    - main
      - resources
        META-INF
        LICENSE
        NOTICE
      - java
        org
        apache
        parquet
        tools
        util
        MetadataUtils.java
        PrettyPrintWriter.java
        Main.java
        json
        JsonRecordFormatter.java
        command
        PruneColumnsCommand.java
        ArgsOnlyCommand.java
        RowCountCommand.java
        ColumnIndexCommand.java
        MergeCommand.java
        ShowMetaCommand.java
        ShowSchemaCommand.java
        Command.java
        HeadCommand.java
        SizeCommand.java
        MetadataUtils.java
        TransCompressionCommand.java
        DumpCommand.java
        Registry.java
        ColumnSizeCommand.java
        CatCommand.java
        read
        SimpleMapRecord.java
        SimpleListRecordConverter.java
        SimpleListRecord.java
        SimpleReadSupport.java
        SimpleMapRecordConverter.java
        SimpleRecord.java
        SimpleRecordMaterializer.java
        SimpleRecordConverter.java
      - scripts
        parquet-size
        parquet-cat
        parquet-schema
        parquet-meta
        parquet-tools
        parquet-merge
        parquet-rowcount
        parquet-head
        parquet-dump
      - assembly
        assembly.xml
    - test
      - java
        org
        apache
        parquet
        tools
        command
        TestPruneColumnsCommand.java
        TestColumnSizeCommand.java
        read
        TestSimpleRecordConverter.java
        TestSimpleMapRecord.java
        TestJsonRecordFormatter.java
        TestSimplePrimitiveRecord.java
  - pom.xml
  - README.md
  - REVIEWERS.md
- parquet-cli
  - src
    - main
      - resources
        META-INF
        LICENSE
        NOTICE
        cli-logging.properties
      - java
        org
        apache
        parquet
        cli
        HadoopFileSystemURLStreamHandler.java
        csv
        RecordBuilder.java
        CSVProperties.java
        AvroCSVReader.java
        AvroCSV.java
        Help.java
        commands
        ShowColumnIndexCommand.java
        ParquetMetadataCommand.java
        CSVSchemaCommand.java
        ShowDictionaryCommand.java
        ShowPagesCommand.java
        SchemaCommand.java
        ConvertCSVCommand.java
        TransCompressionCommand.java
        ConvertCommand.java
        ToAvroCommand.java
        CheckParquet251Command.java
        ColumnSizeCommand.java
        CatCommand.java
        util
        Expressions.java
        RuntimeIOException.java
        RecordException.java
        SeekableFSDataInputStream.java
        GetClassLoader.java
        Formats.java
        Schemas.java
        Codecs.java
        Main.java
        Command.java
        Util.java
        BaseCommand.java
        json
        AvroJsonReader.java
        AvroJson.java
    - test
      - java
        org
        apache
        parquet
        cli
        BaseCommandTest.java
        commands
        SchemaCommandTest.java
        ColumnSizeCommandTest.java
        CSVSchemaCommandTest.java
        ParquetFileTest.java
        ShowDictionaryCommandTest.java
        CatCommandTest.java
        CSVFileTest.java
        ToAvroCommandTest.java
        ParquetMetadataCommandTest.java
        ShowColumnIndexTest.java
        ConvertCommandTest.java
        CheckParquet251CommandTest.java
        ShowPagesCommandTest.java
        FileTest.java
        ConvertCSVCommandTest.java
        AvroFileTest.java
  - pom.xml
  - README.md
- parquet-avro
  - src
    - main
      - resources
        META-INF
        LICENSE
        NOTICE
      - java
        org
        apache
        parquet
        avro
        ReflectDataSupplier.java
        AvroParquetWriter.java
        GenericDataSupplier.java
        AvroParquetOutputFormat.java
        AvroSchemaConverter.java
        AvroParquetInputFormat.java
        ParentValueContainer.java
        AvroParquetReader.java
        package-info.java
        AvroWriteSupport.java
        AvroRecordConverter.java
        AvroConverters.java
        AvroCompatRecordMaterializer.java
        AvroDataSupplier.java
        AvroIndexedRecordConverter.java
        AvroReadSupport.java
        AvroRecordMaterializer.java
        SpecificDataSupplier.java
    - test
      - avro
        stringBehavior.avsc
      - resources
        car.avdl
        nested_array.avsc
        allFromParquetOldBehavior.avsc
        map.avsc
        strings-2.parquet
        map_with_nulls.avsc
        allFromParquetNewBehavior.avsc
        all.avsc
        array.avsc
      - java
        org
        apache
        parquet
        avro
        TestAvroSchemaConverter.java
        TestReadWrite.java
        TestInputOutputFormat.java
        TestCircularReferences.java
        AvroTestUtil.java
        TestSpecificInputOutputFormat.java
        TestSpecificReadWrite.java
        TestGenericLogicalTypes.java
        TestAvroDataSupplier.java
        TestArrayCompatibility.java
        TestReflectInputOutputFormat.java
        TestReflectLogicalTypes.java
        TestStringBehavior.java
        TestReflectReadWrite.java
        TestReadWriteOldListBehavior.java
        TestBackwardCompatibility.java
  - pom.xml
  - README.md
  - REVIEWERS.md
- parquet-column
  - src
    - main
      - resources
        META-INF
        LICENSE
      - java
        org
        apache
        parquet
        filter2
        recordlevel
        IncrementallyUpdatedFilterPredicate.java
        FilteringPrimitiveConverter.java
        IncrementallyUpdatedFilterPredicateResetter.java
        FilteringGroupConverter.java
        FilteringRecordMaterializer.java
        IncrementallyUpdatedFilterPredicateEvaluator.java
        IncrementallyUpdatedFilterPredicateBuilderBase.java
        compat
        FilterCompat.java
        predicate
        FilterPredicate.java
        Operators.java
        FilterApi.java
        PrimitiveToBoxedClass.java
        SchemaCompatibilityValidator.java
        UserDefinedPredicate.java
        LogicalInverter.java
        Statistics.java
        LogicalInverseRewriter.java
        ValidTypeMap.java
        internal
        filter2
        columnindex
        ColumnIndexFilter.java
        RowRanges.java
        ColumnIndexStore.java
        column
        columnindex
        OffsetIndex.java
        LongColumnIndexBuilder.java
        BinaryColumnIndexBuilder.java
        BoundaryOrder.java
        ColumnIndex.java
        DoubleColumnIndexBuilder.java
        BinaryTruncator.java
        IndexIterator.java
        IntColumnIndexBuilder.java
        ColumnIndexBuilder.java
        OffsetIndexBuilder.java
        BooleanColumnIndexBuilder.java
        FloatColumnIndexBuilder.java
        example
        DummyRecordConverter.java
        data
        simple
        DoubleValue.java
        SimpleGroup.java
        BooleanValue.java
        NanoTime.java
        BinaryValue.java
        convert
        SimpleGroupConverter.java
        GroupRecordConverter.java
        SimplePrimitiveConverter.java
        IntegerValue.java
        Int96Value.java
        FloatValue.java
        SimpleGroupFactory.java
        LongValue.java
        Primitive.java
        GroupValueSource.java
        GroupFactory.java
        GroupWriter.java
        Group.java
        Paper.java
        io
        PrimitiveColumnIO.java
        ParquetEncodingException.java
        ParquetDecodingException.java
        ColumnIOFactory.java
        BaseRecordReader.java
        MessageColumnIO.java
        api
        PrimitiveConverter.java
        Binary.java
        Converter.java
        GroupConverter.java
        RecordConsumer.java
        RecordMaterializer.java
        EmptyRecordReader.java
        GroupColumnIO.java
        RecordReader.java
        CompilationException.java
        FilteredRecordReader.java
        ColumnIO.java
        InvalidRecordException.java
        RecordConsumerLoggingWrapper.java
        ValidatingRecordConsumer.java
        RecordReaderImplementation.java
        column
        impl
        ColumnWriterBase.java
        ColumnWriterV1.java
        SynchronizingColumnReader.java
        ColumnReaderImpl.java
        ColumnReaderBase.java
        ColumnWriteStoreBase.java
        ColumnWriterV2.java
        ColumnWriteStoreV2.java
        ColumnWriteStoreV1.java
        ColumnReadStoreImpl.java
        page
        PageWriteStore.java
        PageReadStore.java
        PageReader.java
        DataPageV2.java
        PageWriter.java
        DataPageV1.java
        DictionaryPage.java
        DataPage.java
        DictionaryPageReadStore.java
        Page.java
        statistics
        StatisticsClassException.java
        DoubleStatistics.java
        LongStatistics.java
        BooleanStatistics.java
        IntStatistics.java
        FloatStatistics.java
        BinaryStatistics.java
        Statistics.java
        Encoding.java
        Dictionary.java
        EncodingStats.java
        ColumnProperty.java
        UnknownColumnException.java
        ParquetProperties.java
        ColumnReader.java
        ColumnDescriptor.java
        ValuesType.java
        UnknownColumnTypeException.java
        ColumnWriter.java
        ColumnReadStore.java
        ColumnWriteStore.java
        values
        RequiresPreviousReader.java
        dictionary
        DictionaryValuesWriter.java
        IntList.java
        PlainValuesDictionary.java
        DictionaryValuesReader.java
        RequiresFallback.java
        deltastrings
        DeltaByteArrayReader.java
        DeltaByteArrayWriter.java
        plain
        FixedLenByteArrayPlainValuesWriter.java
        BooleanPlainValuesWriter.java
        BooleanPlainValuesReader.java
        FixedLenByteArrayPlainValuesReader.java
        BinaryPlainValuesReader.java
        PlainValuesWriter.java
        PlainValuesReader.java
        ValuesReader.java
        fallback
        FallbackValuesWriter.java
        ValuesWriter.java
        bloomfilter
        BloomFilterWriteStore.java
        BloomFilter.java
        BloomFilterWriter.java
        BlockSplitBloomFilter.java
        HashFunction.java
        XxHash.java
        delta
        DeltaBinaryPackingValuesReader.java
        DeltaBinaryPackingValuesWriter.java
        DeltaBinaryPackingValuesWriterForInteger.java
        DeltaBinaryPackingValuesWriterForLong.java
        DeltaBinaryPackingConfig.java
        factory
        DefaultValuesWriterFactory.java
        DefaultV2ValuesWriterFactory.java
        DefaultV1ValuesWriterFactory.java
        ValuesWriterFactory.java
        deltalengthbytearray
        DeltaLengthByteArrayValuesWriter.java
        DeltaLengthByteArrayValuesReader.java
        bitpacking
        ByteBitPackingValuesWriter.java
        ByteBitPackingValuesReader.java
        BitPackingValuesWriter.java
        BitPackingValuesReader.java
        DevNullValuesWriter.java
        bytestreamsplit
        ByteStreamSplitValuesReaderForFloat.java
        ByteStreamSplitValuesReader.java
        ByteStreamSplitValuesReaderForDouble.java
        ByteStreamSplitValuesWriter.java
        rle
        RunLengthBitPackingHybridValuesWriter.java
        ZeroIntegerValuesReader.java
        RunLengthBitPackingHybridValuesReader.java
        RunLengthBitPackingHybridEncoder.java
        RunLengthBitPackingHybridDecoder.java
        filter
        ColumnPredicates.java
        ColumnRecordFilter.java
        UnboundRecordFilter.java
        NotRecordFilter.java
        RecordFilter.java
        OrRecordFilter.java
        AndRecordFilter.java
        PagedRecordFilter.java
        schema
        OriginalType.java
        TypeConverter.java
        ColumnOrder.java
        TypeVisitor.java
        Types.java
        InvalidSchemaException.java
        PrimitiveComparator.java
        TypeUtil.java
        DecimalMetadata.java
        MessageTypeParser.java
        PrimitiveStringifier.java
        ConversionPatterns.java
        IncompatibleSchemaModificationException.java
        Type.java
        MessageType.java
        LogicalTypeAnnotation.java
        PrimitiveType.java
        GroupType.java
        CorruptDeltaByteArrays.java
        CorruptStatistics.java
    - test
      - java
        org
        apache
        parquet
        filter2
        recordlevel
        TestIncrementallyUpdatedFilterPredicateResetter.java
        TestValueInspector.java
        TestIncrementallyUpdatedFilterPredicateEvaluator.java
        predicate
        DummyUdp.java
        TestSchemaCompatibilityValidator.java
        TestLogicalInverter.java
        TestValidTypeMap.java
        TestFilterApiMethods.java
        TestLogicalInverseRewriter.java
        CorruptStatisticsTest.java
        FixedBinaryTestUtils.java
        internal
        filter2
        columnindex
        TestRowRanges.java
        TestColumnIndexFilter.java
        column
        columnindex
        TestColumnIndexBuilder.java
        TestOffsetIndexBuilder.java
        TestBoundaryOrder.java
        TestBinaryTruncator.java
        TestIndexIterator.java
        io
        ConverterConsumer.java
        ExpectationValidatingRecordConsumer.java
        api
        TestBinary.java
        TestColumnIO.java
        TestFiltered.java
        ExpectationValidatingConverter.java
        PerfTest.java
        column
        impl
        TestColumnReaderImpl.java
        TestCorruptDeltaByteArrays.java
        page
        mem
        MemPageWriter.java
        MemPageStore.java
        MemPageReader.java
        statistics
        TestStatistics.java
        TestColumnDescriptor.java
        mem
        TestMemPageStore.java
        TestMemColumn.java
        TestEncodingStats.java
        values
        dictionary
        IntListTest.java
        TestDictionary.java
        Utils.java
        deltastrings
        TestDeltaByteArray.java
        benchmark
        BenchmarkDeltaByteArray.java
        bloomfilter
        TestBlockSplitBloomFilter.java
        delta
        DeltaBinaryPackingValuesWriterForLongTest.java
        DeltaBinaryPackingValuesWriterForIntegerTest.java
        benchmark
        SmallRangeWritingBenchmarkTest.java
        BenchMarkTest.java
        BenchmarkIntegerOutputSize.java
        RandomWritingBenchmarkTest.java
        BenchmarkReadingRandomIntegers.java
        factory
        DefaultValuesWriterFactoryTest.java
        deltalengthbytearray
        TestDeltaLengthByteArray.java
        benchmark
        BenchmarkDeltaLengthByteArray.java
        bitpacking
        BitPackingPerfTest.java
        TestBitPackingColumn.java
        TestValuesReaderImpl.java
        bytestreamsplit
        ByteStreamSplitValuesReaderTest.java
        ByteStreamSplitValuesWriterTest.java
        ByteStreamSplitValuesEndToEndTest.java
        rle
        TestRunLengthBitPackingHybridEncoder.java
        RunLengthBitPackingHybridIntegrationTest.java
        schema
        TestMessageType.java
        TestTypeBuildersWithLogicalTypes.java
        TestRepetitionType.java
        TestTypeUtil.java
        TestTypeBuilders.java
        TestPrimitiveComparator.java
        TestPrimitiveStringifier.java
        parser
        TestParquetParser.java
  - pom.xml
  - REVIEWERS.md
- .travis.yml
- parquet-scrooge
  - src
    - main
      - java
        org
        apache
        parquet
        scrooge
        ScroogeSchemaConversionException.java
        ScroogeRecordConverter.java
        ScroogeStructConverter.java
        ParquetScroogeScheme.java
        ScroogeReadSupport.java
        ParquetScroogeInputFormat.java
        ParquetScroogeOutputFormat.java
        ScroogeWriteSupport.java
    - test
      - resources
        names.txt
      - java
        org
        apache
        parquet
        scrooge
        ParquetScroogeSchemeTest.java
        ScroogeBinaryTest.java
        ScroogeStructConverterTest.java
        TestCorruptScroogeRecords.java
      - thrift
        test.thrift
  - pom.xml
  - REVIEWERS.md
- README.md
- parquet-jackson
  - src
    - main
      - resources
        META-INF
        LICENSE
  - pom.xml
  - README.md
- KEYS
- changelog.sh
- parquet-thrift
  - src
    - main
      - java
        org
        apache
        parquet
        hadoop
        thrift
        TBaseWriteSupport.java
        AbstractThriftWriteSupport.java
        ThriftToParquetFileWriter.java
        ParquetThriftOutputFormat.java
        ParquetThriftBytesOutputFormat.java
        ThriftBytesWriteSupport.java
        ThriftReadSupport.java
        ThriftWriteSupport.java
        ParquetThriftInputFormat.java
        thrift
        ProtocolReadToWrite.java
        ThriftParquetWriter.java
        ThriftReader.java
        ThriftParquetReader.java
        KeepOnlyFirstPrimitiveFilter.java
        ThriftMetaData.java
        DecodingSchemaMismatchException.java
        ParquetWriteProtocol.java
        FieldIgnoredHandler.java
        ThriftSchemaConverter.java
        struct
        ThriftType.java
        ThriftField.java
        JSON.java
        CompatibilityChecker.java
        CompatibilityRunner.java
        ThriftTypeID.java
        TBaseRecordConverter.java
        pig
        ParquetThriftStorer.java
        TupleToThriftWriteSupport.java
        ParquetProtocol.java
        projection
        FieldsPath.java
        amend
        DefaultEventsVisitor.java
        DefaultProtocolEventsGenerator.java
        ProtocolEventsAmender.java
        ReadFieldBeginProtocol.java
        deprecated
        DeprecatedFieldProjectionFilter.java
        PathGlobPattern.java
        ThriftProjectionException.java
        FieldProjectionFilter.java
        StrictFieldProjectionFilter.java
        BufferedProtocolReadToWrite.java
        ThriftRecordConverter.java
        ParquetReadProtocol.java
        ConvertedField.java
        SkippableException.java
        ThriftSchemaConvertVisitor.java
        ProtocolPipe.java
    - test
      - resources
        org
        apache
        parquet
        hadoop
        thrift
        AddressBook.json
        thrift
        StructWithUnionV1NoStructOrUnionMeta.json
      - java
        org
        apache
        parquet
        hadoop
        thrift
        TestThriftToParquetFileWriter.java
        TestInputOutputFormat.java
        TestCorruptThriftRecords.java
        TestParquetToThriftReadWriteAndProjection.java
        TestBinary.java
        TestArrayCompatibility.java
        thrift
        TestThriftSchemaConverterProjectUnion.java
        TestThriftRecordConverter.java
        TestThriftToPigCompatibility.java
        TestThriftMetaData.java
        struct
        CompatibilityCheckerTest.java
        TestThriftType.java
        TestParquetWriteProtocol.java
        pig
        TestParquetThriftStorer.java
        projection
        deprecated
        PathGlobPatternTest.java
        TestStrictFieldProjectionFilter.java
        TestFieldsPath.java
        TestParquetReadProtocol.java
        TestThriftSchemaConverter.java
        TestThriftParquetReaderWriter.java
        TestProtocolReadToWrite.java
      - thrift
        compat.thrift
        array_compat.thrift
        binary.thrift
        test.thrift
  - pom.xml
  - REVIEWERS.md
- NOTICE
- .gitignore
- parquet-pig
  - src
    - main
      - java
        org
        apache
        parquet
        pig
        ParquetLoader.java
        PigMetaData.java
        TupleReadSupport.java
        PigSchemaConverter.java
        convert
        TupleRecordMaterializer.java
        DecimalUtils.java
        MapConverter.java
        ParentValueContainer.java
        TupleConverter.java
        ParquetStorer.java
        TupleWriteSupport.java
        TupleConversionException.java
        SchemaConversionException.java
        summary
        SummaryData.java
        FieldSummaryData.java
        StringSummaryData.java
        ValueStat.java
        MapSummaryData.java
        BagSummaryData.java
        EnumStat.java
        Summary.java
        TupleSummaryData.java
        NumberSummaryData.java
    - test
      - resources
        log4j.properties
      - java
        org
        apache
        parquet
        pig
        PerfTestReadAllCols.java
        PerfTest2.java
        TestParquetStorer.java
        TestParquetLoader.java
        TestDecimalUtils.java
        TestTupleRecordConsumer.java
        PerfTest.java
        TupleConsumerPerfTest.java
        summary
        TestSummary.java
        TestPigSchemaConverter.java
  - pom.xml
  - REVIEWERS.md
- parquet-arrow
  - src
    - main
      - java
        org
        apache
        parquet
        arrow
        schema
        List3Levels.java
        SchemaConverter.java
        SchemaMapping.java
    - test
      - java
        org
        apache
        parquet
        arrow
        schema
        TestSchemaConverter.java
  - pom.xml
- doc
  - dremel_paper
- parquet-format-structures
  - src
    - main
      - java
        org
        apache
        parquet
        format
        InterningProtocol.java
        event
        FieldConsumer.java
        TypedConsumer.java
        Consumers.java
        EventBasedThriftReader.java
        Util.java
        LogicalTypes.java
    - test
      - java
        org
        apache
        parquet
        format
        TestUtil.java
  - pom.xml
- parquet-hive-bundle
  - src
    - main
      - resources
        META-INF
        LICENSE
        org
        apache
        parquet
        bundle
  - pom.xml

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package org.apache.parquet.tools.command;

import org.apache.commons.cli.CommandLine;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.hadoop.util.HadoopInputFile;
import org.apache.parquet.hadoop.util.HiddenFileFilter;
import org.apache.parquet.hadoop.ParquetFileWriter;
import org.apache.parquet.hadoop.metadata.FileMetaData;
import org.apache.parquet.tools.Main;

import java.io.IOException;
import java.io.PrintWriter;
import java.util.ArrayList;
import java.util.List;

public class MergeCommand extends ArgsOnlyCommand {
  public static final String[] USAGE = new String[] {
          "<input> [<input> ...] <output>",
          "where <input> is the source parquet files/directory to be merged",
          "   <output> is the destination parquet file"
  };

  /**
   * Biggest number of input files we can merge.
   */
  private static final int MAX_FILE_NUM = 100;
  private static final long TOO_SMALL_FILE_THRESHOLD = 64 * 1024 * 1024;

  private Configuration conf;

  public MergeCommand() {
    super(2, MAX_FILE_NUM + 1);

    conf = new Configuration();
  }

  @Override
  public String[] getUsageDescription() {
    return USAGE;
  }

  @Override
  public String getCommandDescription() {
    return "Merges multiple Parquet files into one. " +
      "The command doesn't merge row groups, just places one after the other. " +
      "When used to merge many small files, the resulting file will still contain small row groups, " +
      "which usually leads to bad query performance.";
  }

  @Override
  public void execute(CommandLine options) throws Exception {
    // Prepare arguments
    List<String> args = options.getArgList();
    List<Path> inputFiles = getInputFiles(args.subList(0, args.size() - 1));
    Path outputFile = new Path(args.get(args.size() - 1));

    // Merge schema and extraMeta
    FileMetaData mergedMeta = mergedMetadata(inputFiles);
    PrintWriter out = new PrintWriter(Main.out, true);

    // Merge data
    ParquetFileWriter writer = new ParquetFileWriter(conf,
            mergedMeta.getSchema(), outputFile, ParquetFileWriter.Mode.CREATE);
    writer.start();
    boolean tooSmallFilesMerged = false;
    for (Path input: inputFiles) {
      if (input.getFileSystem(conf).getFileStatus(input).getLen() < TOO_SMALL_FILE_THRESHOLD) {
        out.format("Warning: file %s is too small, length: %d\n",
          input,
          input.getFileSystem(conf).getFileStatus(input).getLen());
        tooSmallFilesMerged = true;
      }

      writer.appendFile(HadoopInputFile.fromPath(input, conf));
    }

    if (tooSmallFilesMerged) {
      out.println("Warning: you merged too small files. " +
        "Although the size of the merged file is bigger, it STILL contains small row groups, thus you don't have the advantage of big row groups, " +
        "which usually leads to bad query performance!");
    }
    writer.end(mergedMeta.getKeyValueMetaData());
  }

  private FileMetaData mergedMetadata(List<Path> inputFiles) throws IOException {
    return ParquetFileWriter.mergeMetadataFiles(inputFiles, conf).getFileMetaData();
  }

  /**
   * Get all input files.
   * @param input input files or directory.
   * @return ordered input files.
   */
  private List<Path> getInputFiles(List<String> input) throws IOException {
    List<Path> inputFiles = null;

    if (input.size() == 1) {
      Path p = new Path(input.get(0));
      FileSystem fs = p.getFileSystem(conf);
      FileStatus status = fs.getFileStatus(p);

      if (status.isDir()) {
        inputFiles = getInputFilesFromDirectory(status);
      }
    } else {
      inputFiles = parseInputFiles(input);
    }

    checkParquetFiles(inputFiles);

    return inputFiles;
  }

  /**
   * Check input files basically.
   * ParquetFileReader will throw exception when reading an illegal parquet file.
   *
   * @param inputFiles files to be merged.
   * @throws IOException
   */
  private void checkParquetFiles(List<Path> inputFiles) throws IOException {
    if (inputFiles == null || inputFiles.size() <= 1) {
      throw new IllegalArgumentException("Not enough files to merge");
    }

    for (Path inputFile: inputFiles) {
      FileSystem fs = inputFile.getFileSystem(conf);
      FileStatus status = fs.getFileStatus(inputFile);

      if (status.isDir()) {
        throw new IllegalArgumentException("Illegal parquet file: " + inputFile.toUri());
      }
    }
  }

  /**
   * Get all parquet files under partition directory.
   * @param partitionDir partition directory.
   * @return parquet files to be merged.
   */
  private List<Path> getInputFilesFromDirectory(FileStatus partitionDir) throws IOException {
    FileSystem fs = partitionDir.getPath().getFileSystem(conf);
    FileStatus[] inputFiles = fs.listStatus(partitionDir.getPath(), HiddenFileFilter.INSTANCE);

    List<Path> input = new ArrayList<Path>();
    for (FileStatus f: inputFiles) {
      input.add(f.getPath());
    }
    return input;
  }

  private List<Path> parseInputFiles(List<String> input) {
    List<Path> inputFiles = new ArrayList<Path>();

    for (String name: input) {
      inputFiles.add(new Path(name));
    }

    return inputFiles;
  }
}