java source code of TestCombineFileInputFormat

RDFS-master
- NOTICE.txt
- src
  - saveVersion.sh
  - c++
    - utils
      - impl
        StringUtils.cc
        SerialUtils.cc
        config.h.in
      - m4
        hadoop_utils.m4
      - config.sub
      - Makefile.in
      - config.guess
      - api
        hadoop
        SerialUtils.hh
        StringUtils.hh
      - configure.ac
      - missing
      - Makefile.am
      - .autom4te.cfg
      - install-sh
      - ltmain.sh
      - depcomp
    - pipes
      - compile
      - impl
        HadoopPipes.cc
        config.h.in
      - config.sub
      - Makefile.in
      - config.guess
      - api
        hadoop
        TemplateFactory.hh
        Pipes.hh
      - configure.ac
      - missing
      - Makefile.am
      - .autom4te.cfg
      - install-sh
      - debug
        pipes-default-script
        pipes-default-gdb-commands.txt
      - ltmain.sh
      - depcomp
    - libhdfs
      - m4
        apfunctions.m4
        apjava.m4
        ltoptions.m4
        ltversion.m4
        lt~obsolete.m4
        apsupport.m4
        ltsugar.m4
      - hdfsJniHelper.h
      - hdfs_direct.h
      - config.sub
      - Makefile.in
      - hdfs.c
      - config.guess
      - hdfs_test.c
      - hdfsJniHelper.c
      - hdfs.h
      - hdfs_write.c
      - configure.ac
      - aclocal.m4
      - missing
      - hdfs_read.c
      - Makefile.am
      - tests
        test-libhdfs.sh
        conf
        hdfs-site.xml
        slaves
        hadoop-site.xml
        mapred-site.xml
        core-site.xml
      - install-sh
      - docs
        Doxyfile
        libhdfs_footer.html
      - depcomp
    - librecordio
      - csvarchive.cc
      - Makefile
      - binarchive.cc
      - typeInfo.cc
      - typeIDs.hh
      - xmlarchive.cc
      - exception.hh
      - fieldTypeInfo.hh
      - recordTypeInfo.cc
      - test
        test.hh
        Makefile
        testFromJava.cc
        test.jr
        testFromJava.hh
        test.cc
      - fieldTypeInfo.cc
      - typeInfo.hh
      - utils.hh
      - utils.cc
      - binarchive.hh
      - archive.hh
      - recordio.cc
      - filestream.cc
      - filestream.hh
      - xmlarchive.hh
      - recordTypeInfo.hh
      - exception.cc
      - csvarchive.hh
      - typeIDs.cc
      - recordio.hh
    - task-controller
      - configuration.h.in
      - configuration.c
      - task-controller.c
      - Makefile.in
      - configure
      - configure.ac
      - task-controller.h
      - main.c
  - examples
    - pipes
      - impl
        sort.cc
        wordcount-simple.cc
        wordcount-nopipe.cc
        config.h.in
        wordcount-part.cc
      - config.sub
      - Makefile.in
      - config.guess
      - README.txt
      - configure.ac
      - missing
      - Makefile.am
      - .autom4te.cfg
      - install-sh
      - conf
        word-part.xml
        word.xml
      - ltmain.sh
      - depcomp
    - python
      - compile
      - pyAbacus
        compile
        wordcountaggregator.spec
        JyAbacusWCPlugIN.py
        JythonAbacus.py
      - WordCount.py
    - org
      - apache
        hadoop
        examples
        SleepJob.java
        WordCount.java
        SecondarySort.java
        AggregateWordHistogram.java
        Sort.java
        dancing
        Pentomino.java
        OneSidedPentomino.java
        puzzle1.dta
        DistributedPentomino.java
        Sudoku.java
        DancingLinks.java
        package.html
        AggregateWordCount.java
        MultiFileWordCount.java
        RandomTextWriter.java
        Grep.java
        Join.java
        DBCountPageView.java
        terasort
        TeraSort.java
        job_history_summary.py
        TeraInputFormat.java
        TeraGen.java
        TeraOutputFormat.java
        TeraValidate.java
        package.html
        RandomWriter.java
        package.html
        ExampleDriver.java
        PiEstimator.java
  - test
    - hdfs-site.xml
    - ddl
      - int.jr
      - test.jr
      - buffer.jr
      - string.jr
    - testjar
      - CustomOutputCommitter.java
      - ExternalMapperReducer.java
      - ExternalWritable.java
      - ClassWordCount.java
    - log4j.properties
    - checkstyle.xml
    - checkstyle-noframes-sorted.xsl
    - lib
      - ftplet-api-1.0.0-SNAPSHOT.jar
      - ftpserver-server-1.0.0-SNAPSHOT.jar
    - findbugsExcludeFile.xml
    - hadoop-site.xml
    - hadoop-policy.xml
    - mapred-site.xml
    - testshell
      - ExternalMapReduce.java
    - bin
      - test-patch.sh
    - tools
      - data
        rumen
        zombie
        input-topology.json
        small-trace-test
        truncated-topology-output
        sample-job-tracker-logs.gz
        job-tracker-logs-trace-output.gz
        job-tracker-logs-topology-output
        truncated-trace-output
        truncated-job-tracker-log
        histogram-tests
        gold-three-values.json
        gold-one-value-many-repeats.json
        input-minimal.json
        input-only-one-value.json
        input-one-value-many-repeats.json
        gold-minimal.json
        gold-only-one-value.json
        input-three-values.json
    - org
      - apache
        hadoop
        security
        TestAccessControlList.java
        TestPermission.java
        TestUnixUserGroupInformation.java
        authorize
        TestServiceLevelAuthorization.java
        TestConfiguredPolicy.java
        HadoopPolicyProvider.java
        fs
        TestFilterFileSystem.java
        TestDFSIO.java
        s3
        TestInMemoryS3FileSystemContract.java
        Jets3tS3FileSystemContractTest.java
        InMemoryFileSystemStore.java
        TestINode.java
        TestS3FileSystem.java
        S3FileSystemContractBaseTest.java
        TestS3Credentials.java
        TestPath.java
        FileSystemContractBaseTest.java
        TestFileSystem.java
        TestChecksumFileSystem.java
        TestGetFileBlockLocations.java
        TestUrlStreamHandler.java
        TestDU.java
        s3native
        InMemoryNativeFileSystemStore.java
        NativeS3FileSystemContractBaseTest.java
        Jets3tNativeS3FileSystemContractTest.java
        TestInMemoryNativeS3FileSystemContract.java
        TestGlobPaths.java
        TestLocatedStatus.java
        TestLocalFileSystemPermission.java
        ftp
        TestFTPFileSystem.java
        TestLocalDirAllocator.java
        loadGenerator
        LoadGenerator.java
        DataGenerator.java
        StructureGenerator.java
        TestLoadGenerator.java
        TestGlobExpander.java
        TestTruncatedInputBug.java
        kfs
        KFSEmulationImpl.java
        TestKosmosFileSystem.java
        TestHarFileSystem.java
        permission
        TestFsPermission.java
        TestCopyFiles.java
        TestTrash.java
        AccumulatingReducer.java
        DistributedFSCheck.java
        DFSCIOTest.java
        IOMapperBase.java
        TestLocalFileSystem.java
        ipc
        TestIPC.java
        ClientAdapter.java
        TestSocketFactory.java
        TestIPCServerResponder.java
        TestRPC.java
        TestMethodRPCCompatibility.java
        net
        TestSockOpt.java
        TestNetworkTopology.java
        TestSocketIOWithTimeout.java
        TestIPv4AddressTruncationMapping.java
        TestScriptBasedMapping.java
        TestNetUtils.java
        TestInetSocketAddressFactory.java
        StaticMapping.java
        test
        AllTestDriver.java
        cli
        testConf.xsl
        TestCLI.java
        util
        CommandExecutor.java
        TokenComparator.java
        CLITestData.java
        SubstringComparator.java
        ComparatorData.java
        RegexpComparator.java
        ComparatorBase.java
        ExactComparator.java
        clitest_data
        data30bytes
        data15bytes
        data60bytes
        data120bytes
        testConf.xml
        record
        ToCpp.java
        TestRecordMR.java
        RecordBench.java
        TestRecordWritable.java
        TestBuffer.java
        TestRecordIO.java
        TestRecordVersioning.java
        FromCpp.java
        log
        TestLogLevel.java
        filecache
        TestDistributedCache.java
        util
        TestHostsFileReader.java
        TestDataChecksum.java
        TestIndexedSort.java
        TestCyclicIteration.java
        TestStringUtils.java
        TestAsyncDiskService.java
        TestPureJavaCrc32.java
        TestPulseChecker.java
        TestGenericsUtil.java
        TestReflectionUtils.java
        TestProcfsBasedProcessTree.java
        SerializableUtilsTest.java
        TestShell.java
        mapred
        TestJobClient.java
        ControlledMapReduceJob.java
        TestCompressedEmptyMapOutputs.java
        TestLocalMRNotification.java
        ReliabilityTest.java
        TestKeyValueTextInputFormat.java
        TestClusterMapReduceTestCase.java
        TestMiniMRDFSSort.java
        TestMapredSystemDir.java
        TestFieldSelection.java
        TestMiniMRTaskTempDir.java
        TestSequenceFileInputFormat.java
        TestSortedRanges.java
        TestControlledMapReduceJob.java
        TestLostTracker.java
        TestTaskLimits.java
        TestLimitTasksPerJobTaskScheduler.java
        TestIndexCache.java
        pipes
        WordCountInputFormat.java
        TestPipes.java
        TestPipesAsDifferentUser.java
        TestComparators.java
        TestSequenceFileAsBinaryOutputFormat.java
        TestMiniMRBringup.java
        TestMapCollection.java
        WordCount.java
        UtilsForTests.java
        TestFileOutputFormat.java
        test.jar
        TestClusterMRNotification.java
        GenericMRLoadGenerator.java
        TestParallelInitialization.java
        TestClusterStatus.java
        TestMapRed.java
        TestJobCleanup.java
        test.tar
        TestKillSubProcesses.java
        TestKillCompletedJob.java
        TestFileOutputCommitter.java
        TestGetSplitHosts.java
        TestCompositeTaskTrackerInstrumentation.java
        TestJobName.java
        TestInputPath.java
        TestTTCpuToTaskSlots.java
        TestJobCounters.java
        testscript.txt
        TestMapOutputType.java
        TestResourceEstimation.java
        BigMapOutput.java
        MiniMRCluster.java
        TestNodeHealthService.java
        TestEmptyJob.java
        lib
        db
        TestConstructQuery.java
        TestDBJob.java
        TestMultithreadedMapRunner.java
        TestDelegatingInputFormat.java
        TestMultipleInputs.java
        aggregate
        TestAggregates.java
        AggregatorTests.java
        TestCombineFileInputFormat.java
        TestLineInputFormat.java
        TestHarWithCombineFileInputFormat.java
        TestKeyFieldBasedPartitioner.java
        TestMultipleOutputs.java
        TestKeyFieldHelper.java
        TestKeyFieldBasedComparator.java
        TestTotalOrderPartitioner.java
        TestChainMapReduce.java
        TestJobExecutionAsDifferentUser.java
        TestJobRetire.java
        TestReduceFetch.java
        TestMRServerPorts.java
        TestJobTrackerXmlJsp.java
        TestSubmitJob.java
        test.txt
        TestJobHistoryParsing.java
        TestSetupAndCleanupFailure.java
        TestJobSysDirWithDFS.java
        TestTextOutputFormat.java
        TestSequenceFileInputFilter.java
        TestTaskFail.java
        TestJobHistoryVersion.java
        TestReduceTaskFetchFail.java
        TestSequenceFileAsBinaryInputFormat.java
        TestMultiFileInputFormat.java
        TestMultipleTextOutputFormat.java
        TestMiniMRDFSSharedCaching.java
        sharedTest2
        sharedTest.txt
        TestTaskCommit.java
        DummyResourceCalculatorPlugin.java
        SortValidator.java
        TestJobTrackerStart.java
        ClusterMapReduceTestCase.java
        NotificationTestCase.java
        TestFileInputFormatPathFilter.java
        TestUserDefinedCounters.java
        ClusterWithLinuxTaskController.java
        TestTaskLogsMonitor.java
        TestJobDirCleanup.java
        TestMiniMRDFSCaching.java
        TestMiniMRClasspath.java
        TestTTResourceReporting.java
        TestCollect.java
        TestQueueManager.java
        TestMiniMRWithDFS.java
        EmptyInputFormat.java
        TestMiniMRMapRedDebugScript.java
        test.tgz
        TestBadRecords.java
        TestMultipleLevelCaching.java
        TestCommandLineJobSubmission.java
        FakeObjectUtilities.java
        MRSharedCaching.java
        TestJobInProgressListener.java
        TestWritableJobConf.java
        TestIFileStreams.java
        TestReduceTaskNoMapOutput.java
        TestFileInputFormat.java
        TestRackAwareTaskPlacement.java
        TestTaskTrackerMemoryManager.java
        TestJobStatusPersistency.java
        TestChildTaskDirs.java
        TestNewCollector.java
        TestTrackerBlacklistAcrossJobs.java
        TestSpecialCharactersInOutputPath.java
        TestMiniMRWithDFSWithDistinctUsers.java
        TestMiniMRLocalFS.java
        TestReduceTask.java
        TestMiniMRChildTask.java
        join
        TestDatamerge.java
        IncomparableKey.java
        TestTupleWritable.java
        TestJobHistory.java
        ThreadedMapBenchmark.java
        test.tar.gz
        TestSetupWorkDir.java
        TestMultiFileSplit.java
        TestStatisticsCollector.java
        TestJobInProgress.java
        TestJavaSerialization.java
        sharedTest1
        sharedTest.txt
        TestCustomOutputCommitter.java
        DummyTaskTrackerInstrumentation.java
        TestJobKillAndFail.java
        TestSequenceFileAsTextInputFormat.java
        TestNodeRefresh.java
        TestJobQueueInformation.java
        TestTaskTrackerInstrumentation.java
        TestCounters.java
        HadoopTestCase.java
        TestSpeculativeExecution.java
        TestTextInputFormat.java
        TestQueueAclsForCurrentUser.java
        jobcontrol
        TestLocalJobControl.java
        TestJobControl.java
        JobControlTestUtils.java
        TestNodeBlacklisting.java
        MRCaching.java
        MRBench.java
        TestJobQueueTaskScheduler.java
        hdfs
        TestFileStatusExtended.java
        TestLargeBlock.java
        TestFastCopyDeadDataNodes.java
        FastCopySetupUtil.java
        TestDFSStartupVersions.java
        TestHDFSConcat.java
        hadoop-dfs-dir.txt
        TestAvailableForUnderConstruction.java
        TestDFSLocatedBlocks.java
        NNBenchWithoutMR.java
        TestHDFSTrash.java
        TestMissingBlocksAlert.java
        TestMultiThreadedSync.java
        TestFastCopyWithHardLink.java
        TestRbwReportSafeMode.java
        TestLocatedStatusInDFS.java
        ManualSyncTester.java
        TestFileAppend4.java
        TestDatanodeDeath.java
        TestDFSClientFavoredNodes.java
        TestFileCreationClient.java
        DFSTestUtil.java
        TestFastCopyCLI.java
        TestRenameWhileOpen.java
        TestAbandonBlock.java
        TestDFSUpgradeFromImage.java
        TestCheckDisk.java
        TestDFSUtil.java
        TestFileConcurrentReader.java
        TestFileAppend3.java
        TestDatanodeDeath2.java
        TestReplication.java
        TestDFSFinalize.java
        TestAbandonBlockEditLog.java
        TestModTime.java
        TestPread.java
        TestLease.java
        TestSeekBug.java
        TestDataTransferProtocol.java
        TestFileAppend.java
        UpgradeUtilities.java
        TestInjectionForSimulatedStorage.java
        DFSClientAdapter.java
        TestFastCopyCleanShutdown.java
        TestFSInputChecker.java
        TestFastCopyWithoutHardLink.java
        TestLeaseRecovery2.java
        TestSyncingWriterInterrupted.java
        TestBlockIncrementalReport.java
        TestFileCreationDelete.java
        NNBench.java
        TestReadShortCircuit.java
        TestBlockReportProcessingTime.java
        BenchmarkThroughput.java
        TestRestartDFS.java
        TestDefaultNameNodePort.java
        TestNameNodeIdempotence.java
        TestDFSMkdirs.java
        util
        TestLightWeightBitSet.java
        TestPosixPathNameChecker.java
        TestPathValidator.java
        TestHashSet.java
        TestDefaultPathNameChecker.java
        TestLinkedHashSet.java
        TestLeaseRecovery.java
        TestBlocksScheduledCounter.java
        hadoop-26-dfs-dir.tgz
        TestBlockReport.java
        TestDFSClientMetrics.java
        TestFileCreationNamenodeRestart.java
        TestDFSUpgrade.java
        TestSmallBlock.java
        TestParallelRBW.java
        TestSetrepDecreasing.java
        TestNameNodeUpgrade.java
        TestFileLocalRead.java
        TestFileCreation.java
        TestFileAppend2.java
        DataNodeCluster.java
        TestLookasideCache.java
        TestDFSClientExcludedNodes.java
        TestDFSPermission.java
        MiniDFSCluster.java
        TestDFSShellGenericOptions.java
        TestTotalFiles.java
        TestHDFSServerPorts.java
        TestDatanodeUpgrade.java
        TestDFSClientRetries.java
        TestDFSStorageStateRecovery.java
        TestFastCopyBadDatanode.java
        TestCrcCorruption.java
        TestDFSRollback.java
        TestGetOpenFiles.java
        TestLeaseRecovery4.java
        TestDFSRename.java
        TestReadSlowDataNode.java
        TestFileCreationEmpty.java
        Hoopla.java
        TestDFSRemove.java
        TestDecommission.java
        protocol
        TestCorruptFileBlocks.java
        TestDFSClientMultipleClose.java
        server
        common
        TestThreadLocalDateFormat.java
        TestDistributedUpgrade.java
        namenode
        TestNameEditsConfigs.java
        TestFastCopyDeletedBlocks.java
        NNThroughputBenchmark.java
        TestPendingReplication.java
        TestOverReplicatedBlocks.java
        TestPathComponents.java
        TestNNThroughputBenchmark.java
        TestNameNodePorts.java
        TestConfigurableBlockPlacement.java
        TestBlockInfo.java
        TestDeadDatanode.java
        TestHost2NodesMap.java
        TestNameNodeReconfigure.java
        TestAllowFormat.java
        TestStartup.java
        TestSafeModeDFSHealth.java
        TestFileDeleteWhitelist.java
        NameNodeAdapter.java
        TestUnderReplicatedBlocks.java
        TestParallelImageWrite.java
        TestEditLogFileOutputStream.java
        TestFileLimit.java
        TestSaveNamespace.java
        TestCheckpoint.java
        TestDualRPCServerStartup.java
        TestNameNodeValidPosixPath.java
        TestLeaseManager.java
        TestComputeInvalidateWork.java
        HttpServletResponseStub.java
        TestReplicationPolicy.java
        TestDecommissioningStatus.java
        TestNamenodeCapacityReport.java
        TestEditLog.java
        TestPersistTxId.java
        TestPartialOpenForWrite.java
        TestNameNodeMXBean.java
        OfflineEditsViewerHelper.java
        CreateEditsLog.java
        TestDatanodeDescriptor.java
        TestBlockReplicationQueue.java
        TestLargeDirectoryDelete.java
        TestEditLog2.java
        TestStartupDefaultRack.java
        TestWebUIMissingBlocks.java
        TestHeartbeatHandling.java
        TestRecount.java
        TestGetBlockInfo.java
        TestFsck.java
        TestListCorruptFileBlocks.java
        TestDFSIsUnderConstruction.java
        TestEmptyAbandonBlock.java
        TestDFSConcurrentFileOperations.java
        TestSafeModeDuplicateReports.java
        metrics
        TestNameNodeMetrics.java
        TestINodeFile.java
        TestFavoredNodes.java
        FSNamesystemAdapter.java
        TestNameCache.java
        FileNameGenerator.java
        FSImageAdapter.java
        TestStorageRestore.java
        TestNodeCount.java
        TestCorruptFilesJsp.java
        datanode
        TestBlockReplacement.java
        TestDataNodeVolumeFailureToleration.java
        SimulatedFSDataset.java
        TestDataBlockScanner.java
        TestMetricsTimeVaryingClasses.java
        TestStuckDataNode.java
        TestDataNodeMetrics.java
        TestRefreshNamenodes.java
        TestDataNodeVolumeRefresh.java
        TestMergeNamespaces.java
        TestCopyBlockAPI.java
        FSDatasetTestUtil.java
        TestInterDatanodeProtocol.java
        TestSimulatedFSDataset.java
        TestDatanodeRestart.java
        TestParallelBlockScan.java
        TestDiskError.java
        TestDataNodeMultipleRegistrations.java
        balancer
        TestBalancer.java
        TestDatanodeBlockScanner.java
        TestCloseFile.java
        TestLeaseRecovery3.java
        tools
        offlineEditsViewer
        TestOfflineEditsViewer.java
        offlineImageViewer
        fsimageV19
        fsimageV18
        TestOIVCanReadOldVersions.java
        TestOfflineImageViewer.java
        TestDelimitedImageVisitor.java
        SpotCheckImageVisitor.java
        TestSafeMode.java
        TestFileStatus.java
        TestOpenFilesInfo.java
        TestListPathServlet.java
        TestDFSClientUpdateNameNodeSignature.java
        TestDFSShell.java
        TestChecksumFile.java
        TestFileSync.java
        TestDatanodeReport.java
        TestSetrepIncreasing.java
        TestBlockRecovery.java
        TestHDFSFileSystemContract.java
        TestScatterGather.java
        TestSetTimes.java
        TestFileHardLink.java
        TestFSOutputSummer.java
        TestDFSClientMetricsSync.java
        TestLocalDFS.java
        TestQuota.java
        AppendTestUtil.java
        TestBlockMissingException.java
        TestFileCorruption.java
        TestHftpFileSystem.java
        TestGetBlocks.java
        TestNameNodeRestart.java
        TestDistributedFileSystem.java
        io
        nativeio
        TestNativeIO.java
        TestWritable.java
        RandomDatum.java
        TestTextNonUTF8.java
        compress
        TestCodec.java
        TestCodecFactory.java
        snappy
        TestSnappyCodec.java
        TestGzipCodec.java
        TestArrayFile.java
        FileBench.java
        TestSequenceFile.java
        TestBloomMapFile.java
        TestSortedMapWritable.java
        file
        tfile
        TestTFileNoneCodecsByteArrays.java
        NanoTimer.java
        TestTFileStreams.java
        TestVLong.java
        TestTFileSeek.java
        TestTFileComparators.java
        TestTFileSeqFileComparison.java
        TestTFileNoneCodecsStreams.java
        TestTFileNoneCodecsJClassComparatorByteArrays.java
        RandomDistribution.java
        TestTFile.java
        Timer.java
        KVGenerator.java
        TestTFileLzoCodecsByteArrays.java
        TestTFileUnsortedByteArrays.java
        TestTFileLzoCodecsStreams.java
        TestTFileByteArrays.java
        TestTFileSplit.java
        KeySampler.java
        TestTFileJClassComparatorByteArrays.java
        TestGenericWritable.java
        TestVersionedWritable.java
        TestWritableName.java
        TestText.java
        TestArrayWritable.java
        TestMD5Hash.java
        TestSequenceFileMergeProgress.java
        TestMapFile.java
        TestSetFile.java
        TestWritableUtils.java
        TestSequenceFileSerialization.java
        retry
        TestRetryProxy.java
        UnreliableInterface.java
        UnreliableImplementation.java
        TestMapWritable.java
        TestBytesWritable.java
        TestUTF8.java
        serializer
        TestWritableSerialization.java
        TestDefaultStringifier.java
        http
        TestServletFilter.java
        TestGlobalFilter.java
        TestHtmlQuoting.java
        TestHttpServer.java
        tools
        TestGetConf.java
        TestDistCh.java
        TestJMXGet.java
        rumen
        TestRumenJobTraces.java
        TestPiecewiseLinearInterpolation.java
        TestHistograms.java
        TestZombieJob.java
        HistogramRawTestData.java
        metrics
        TestContextFactory.java
        TestMetricsServlet.java
        spi
        TestOutputRecord.java
        mapreduce
        TestMapReduceLocal.java
        TestLocalRunner.java
        lib
        map
        TestMultithreadedMapper.java
        util
        TestMRAsyncDiskService.java
        TestNoJobSetupCleanup.java
        MapReduceTestUtil.java
        TestChild.java
        conf
        TestNoDefaultsJobConf.java
        TestJobConf.java
        TestReconfiguration.java
        TestConfiguration.java
    - core-site.xml
  - webapps
    - task
      - taskcompletionevents.jsp
      - index.html
      - tasktracker.jsp
    - job
      - jobtracker.jsp
      - gc.jsp
      - taskdetails.jsp
      - jobtrackersdetailsjson.jsp
      - locality.jsp
      - jobconf.jsp
      - jobdetails.jsp
      - jobtasks.jsp
      - jobtracker_hmon.jsp
      - analysejobhistory.jsp
      - joblogs.jsp
      - jobdetailshistory.jsp
      - jobqueue_details.jsp
      - taskstats.jsp
      - jobconf_history.jsp
      - jobblacklistedtrackers.jsp
      - machines.jsp
      - tasktrackerfaultstatus.jsp
      - jobtracker.jspx
      - jobfailures.jsp
      - loadhistory.jsp
      - jobcompletionevents.jsp
      - index.html
      - taskdetailshistory.jsp
      - jobhistory.jsp
      - jobtaskshistory.jsp
      - jobdetailsjson.jsp
    - hdfs
      - dfshealth.jsp
      - decommission.jsp
      - dfsclusterhealth.jsp
      - dfsnodelist.jsp
      - corrupt_files.jsp
      - index.html
      - nn_browsedfscontent.jsp
    - static
      - hadoop.css
      - tablesorter
        style.css
        asc.gif
        jobtablesorter.js
        desc.gif
        jquery.tablesorter.js
        bg.gif
      - hadoop-logo.jpg
      - cm.js
      - jobconf.xsl
      - jobtracker.js
      - cm_old.js
      - jqueryThemeRoller.js
      - jquery-1.7.1.min.js
      - jquery
        js
        jquery.dataTables.min.js
        jquery-1.7.2.min.js
        css
        smoothness
        images
        jquery-ui-1.8.20.custom.css
        ui-lightness
        images
        jquery-ui-1.8.20.custom.css
      - multiselect
        jquery.multiselect.css
        jquery.multiselect.min.js
      - dataTables
        images
        Sorting icons.psd
        favicon.ico
        js
        jquery.js
        jquery.dataTables.min.js
        css
        jquery.dataTables_themeroller.css
        jquery.dataTables.css
        demo_table.css
        demo_page.css
        demo_table_jui.css
    - datanode
      - tail.jsp
      - browseDirectory.jsp
      - browseBlock.jsp
  - mapred
    - mapred-default.xml
    - org
      - apache
        hadoop
        mapred
        ReduceTask.java
        TaskLogServlet.java
        TaskAttemptID.java
        SequenceFileInputFormat.java
        MemoryBlockTooSmallException.java
        SpillRecord.java
        LineRecordReader.java
        JobInProgress.java
        MapOutputFile.java
        Mapper.java
        TaskAttemptContext.java
        KeyValueTextInputFormat.java
        MemoryBlockIndex.java
        JSPUtil.java
        SkipBadRecords.java
        JobInProgress_Counter.properties
        SequenceFileOutputFormat.java
        TaskLog.java
        TaskStatus.java
        JobStatus.java
        DefaultJobHistoryParser.java
        TaskTrackerManager.java
        TextOutputFormat.java
        MapFileOutputFormat.java
        MapTaskCompletionEventsUpdate.java
        JobTrackerTraits.java
        NodeHealthCheckerService.java
        Task.java
        FileOutputCommitter.java
        MapReduceBase.java
        CleanupQueue.java
        pipes
        DownwardProtocol.java
        UpwardProtocol.java
        PipesMapRunner.java
        OutputHandler.java
        BinaryProtocol.java
        Submitter.java
        PipesNonJavaInputFormat.java
        PipesReducer.java
        PipesPartitioner.java
        package.html
        Application.java
        RamManager.java
        QueueAclsInfo.java
        SequenceFileInputFilter.java
        JobConfigurable.java
        MultiFileSplit.java
        RecordWriter.java
        SequenceFileAsBinaryInputFormat.java
        DisallowedTaskTrackerException.java
        JobQueueTaskScheduler.java
        InterTrackerProtocol.java
        TaskTracker.java
        DirectTaskUmbilical.java
        Utils.java
        DataStatistics.java
        ExpireUnusedFilesInCache.java
        SimulatedTaskRunner.java
        JobProfile.java
        JvmManager.java
        MapTask.java
        ChildMemoryBlock.java
        JvmTask.java
        HeartbeatResponse.java
        BufferSorter.java
        MultiFileInputFormat.java
        JobTrackerStatistics.java
        FileOutputFormat.java
        JobSubmissionProtocol.java
        MapRunner.java
        KeyValueLineRecordReader.java
        IFileOutputStream.java
        JobEndNotifier.java
        IsolationRunner.java
        Reducer.java
        TaskLogsMonitor.java
        OutputFormat.java
        BlockMapOutputBuffer.java
        LimitTasksPerJobTaskScheduler.java
        TaskID.java
        OutputLogFilter.java
        TaskTrackerAction.java
        TIPStatus.java
        Reporter.java
        QueueManager.java
        JobClient.java
        LexicographicalComparerHolder.java
        JobConf.java
        JobContext.java
        DefaultTaskController.java
        ResourceEstimator.java
        MapperWaitThread.java
        lib
        FieldSelectionMapReduce.java
        CombineFileSplit.java
        CombineFileInputFormat.java
        db
        DBWritable.java
        DBOutputFormat.java
        DBInputFormat.java
        DBConfiguration.java
        package.html
        DelegatingInputFormat.java
        KeyFieldHelper.java
        CombineFileRecordReader.java
        MultipleOutputFormat.java
        InverseMapper.java
        KeyFieldBasedPartitioner.java
        aggregate
        ValueAggregatorDescriptor.java
        UserDefinedValueAggregatorDescriptor.java
        StringValueMax.java
        LongValueMin.java
        StringValueMin.java
        ValueAggregator.java
        ValueAggregatorBaseDescriptor.java
        ValueHistogram.java
        DoubleValueSum.java
        ValueAggregatorJob.java
        UniqValueCount.java
        LongValueSum.java
        ValueAggregatorCombiner.java
        ValueAggregatorMapper.java
        package.html
        ValueAggregatorJobBase.java
        ValueAggregatorReducer.java
        LongValueMax.java
        HashPartitioner.java
        IdentityReducer.java
        InputSampler.java
        KeyFieldBasedComparator.java
        TokenCountMapper.java
        MultipleInputs.java
        NullOutputFormat.java
        ChainMapper.java
        MultithreadedMapRunner.java
        LongSumReducer.java
        MultipleOutputs.java
        Chain.java
        DelegatingMapper.java
        IdentityMapper.java
        MultipleTextOutputFormat.java
        NLineInputFormat.java
        TotalOrderPartitioner.java
        TaggedInputSplit.java
        package.html
        RegexMapper.java
        MultipleSequenceFileOutputFormat.java
        ChainReducer.java
        TaskTrackerInstrumentation.java
        OutputCommitter.java
        JobHistoryObserver.java
        TaskScheduler.java
        MemoryBlockAllocator.java
        JobQueueClient.java
        MergeSorter.java
        FileSplit.java
        LaunchTaskAction.java
        IndexCache.java
        MemoryBlockHolder.java
        OutputCollector.java
        SequenceFileAsTextInputFormat.java
        SequenceFileRecordReader.java
        JobTracker.java
        BasicTypeSorterBase.java
        SortedRanges.java
        KillJobAction.java
        MapSpillSortCounters.java
        RunningJob.java
        BlockMapOutputCollector.java
        TaskGraphServlet.java
        RawKeyValueIterator.java
        RecordReader.java
        ClusterStatus.java
        TaskLogAppender.java
        ResourceMetadata.java
        JobTrackerReconfigurable.java
        LocalJobRunner.java
        TaskUmbilicalProtocol.java
        JvmContext.java
        JobTrackerMetricsInst.java
        KeyValueSpillIterator.java
        JobHistory.java
        PoolMetadata.java
        JVMId.java
        CommitTaskAction.java
        StatisticsCollector.java
        TaskTrackerMetricsInst.java
        NettyMapOutputAttributes.java
        MapTaskStatus.java
        TaskReport.java
        InputFormat.java
        ResourceReporter.java
        ReinitTrackerAction.java
        JobInProgressListener.java
        SequenceFileAsBinaryOutputFormat.java
        MRConstants.java
        TaskInProgress.java
        BasicReducePartition.java
        PoolFairnessCalculator.java
        JobID.java
        InvalidJobConfException.java
        HistoryViewer.java
        ReducePartition.java
        LinuxTaskController.java
        ShuffleHandler.java
        IFile.java
        AdminOperationsProtocol.java
        EagerTaskInitializationListener.java
        KillTaskAction.java
        FileInputFormat.java
        JobInProgressTraits.java
        TaskTrackerStatus.java
        MapReducePolicyProvider.java
        tools
        MRAdmin.java
        CompositeTaskTrackerInstrumentation.java
        join
        Parser.java
        ResetableIterator.java
        CompositeInputFormat.java
        WrappedRecordReader.java
        OverrideRecordReader.java
        JoinRecordReader.java
        OuterJoinRecordReader.java
        ComposableInputFormat.java
        StreamBackedIterator.java
        ArrayListBackedIterator.java
        TupleWritable.java
        CompositeInputSplit.java
        CompositeRecordReader.java
        MultiFilterRecordReader.java
        package.html
        ComposableRecordReader.java
        InnerJoinRecordReader.java
        InvalidInputException.java
        TaskController.java
        MemoryBlock.java
        ReduceTaskStatus.java
        Counters.java
        JobStats.java
        JobQueueJobInProgressListener.java
        Task_Counter.properties
        MapRunnable.java
        TaskMemoryManagerThread.java
        Partitioner.java
        ReduceTaskRunner.java
        JobPriority.java
        MapTaskRunner.java
        JobQueueInfo.java
        TaskRunner.java
        Merger.java
        JobTrackerInstrumentation.java
        CompletedJobStatusStore.java
        package.html
        TextInputFormat.java
        IFileInputStream.java
        Clock.java
        TaskCompletionEvent.java
        JobStatusChangeEvent.java
        Child.java
        SequenceFileAsTextRecordReader.java
        jobcontrol
        JobControl.java
        package.html
        Job.java
        TaskErrorCollector.java
        JobChangeEvent.java
        InvalidFileTypeException.java
        ID.java
        InputSplit.java
        mapreduce
        TaskAttemptID.java
        CounterNames.java
        Mapper.java
        TaskAttemptContext.java
        TaskType.java
        ClusterMetrics.java
        JobStatus.java
        RecordWriter.java
        Reducer.java
        OutputFormat.java
        TaskID.java
        JobContext.java
        lib
        partition
        HashPartitioner.java
        output
        SequenceFileOutputFormat.java
        TextOutputFormat.java
        FileOutputCommitter.java
        FileOutputFormat.java
        NullOutputFormat.java
        reduce
        LongSumReducer.java
        IntSumReducer.java
        map
        InverseMapper.java
        MultithreadedMapper.java
        TokenCounterMapper.java
        input
        SequenceFileInputFormat.java
        LineRecordReader.java
        FileSplit.java
        SequenceFileRecordReader.java
        ShuffleRecordReader.java
        FileInputFormat.java
        InvalidInputException.java
        TextInputFormat.java
        OutputCommitter.java
        StatusReporter.java
        CounterGroup.java
        MapContext.java
        TaskInputOutputContext.java
        RecordReader.java
        InputFormat.java
        JobID.java
        server
        jobtracker
        TaskTracker.java
        JobTrackerJspHelper.java
        ReduceContext.java
        Counters.java
        Partitioner.java
        Counter.java
        Job.java
        ID.java
        InputSplit.java
  - hdfs
    - org
      - apache
        hadoop
        hdfs
        ChecksumDistributedFileSystem.java
        FileStatusExtended.java
        DataTransferPacket.java
        RecoverTreeNode.java
        Replicable.java
        BlockReader.java
        DFSOutputStream.java
        GaloisField.java
        CorruptFileBlockIterator.java
        HsftpFileSystem.java
        HighTideShell.java
        DFSLocatedBlocks.java
        HDFSPolicyProvider.java
        util
        DefaultPathNameChecker.java
        LightWeightHashSet.java
        LightWeightBitSet.java
        InjectionEvent.java
        LightWeightGSet.java
        InjectionHandler.java
        ByteArray.java
        PathNameChecker.java
        LightWeightLinkedSet.java
        PathValidator.java
        Holder.java
        GSet.java
        DataTransferThrottler.java
        PosixPathNameChecker.java
        GSetByHashMap.java
        HftpFileSystem.java
        BlockReaderLocal.java
        RecoverTreeNodeElement.java
        DFSClient.java
        DFSUtil.java
        LookasideCache.java
        MinimumSpanningTree.java
        LeaseRenewal.java
        protocol
        ReadMetadataHeader.java
        ReadBlockHeader.java
        CopyBlockHeader.java
        VersionedLocatedBlock.java
        ClientDatanodeProtocol.java
        LocatedBlockWithFileName.java
        HighTideProtocol.java
        LocatedBlocks.java
        AlreadyBeingCreatedException.java
        DataTransferProtocol.java
        VersionAndOpcode.java
        FSConstants.java
        DatanodeID.java
        LocatedBlock.java
        Block.java
        LocatedDirectoryListing.java
        VersionedLocatedBlocks.java
        LocatedBlockWithMetaInfo.java
        DSQuotaExceededException.java
        BlockChecksumHeader.java
        WriteBlockHeader.java
        BlockPathInfo.java
        PolicyInfo.java
        MergeBlockHeader.java
        DataTransferHeader.java
        NSQuotaExceededException.java
        LocatedBlocksWithMetaInfo.java
        ProtocolCompatible.java
        LayoutVersion.java
        ClientProtocol.java
        ReplaceBlockHeader.java
        CorruptFileBlocks.java
        UnregisteredDatanodeException.java
        QuotaExceededException.java
        HdfsFileStatus.java
        BlockListAsLongs.java
        ReadBlockAccelaratorHeader.java
        DirectoryListing.java
        DatanodeInfo.java
        DFSInputStream.java
        server
        hightidenode
        HighTideConfigurationException.java
        ConfigManager.java
        DirectoryTraversal.java
        README
        PendingReplication.java
        HighTideNode.java
        FileFixer.java
        metrics
        HighTideNodeActivityMBean.java
        HighTideNodeMetrics.java
        hightide.xml
        common
        InconsistentFSStateException.java
        HdfsConstants.java
        UpgradeObjectCollection.java
        UpgradeStatusReport.java
        GenerationStamp.java
        Upgradeable.java
        Storage.java
        StorageInfo.java
        Util.java
        ThreadLocalDateFormat.java
        UpgradeManager.java
        UpgradeObject.java
        IncorrectVersionException.java
        namenode
        LeaseExpiredException.java
        SafeModeInfo.java
        EditLogInputStream.java
        SecondaryNameNode.java
        TransferFsImage.java
        SerialNumberManager.java
        FSInodeInfo.java
        EditLogFileInputStream.java
        NameCache.java
        SaveNamespaceContext.java
        BlockPlacementPolicyDefault.java
        UnsupportedActionException.java
        FileDataServlet.java
        FSDirectory.java
        SafeModeUtil.java
        ConfigManager.java
        NameNodeSafeModeInfo.java
        INodeFileUnderConstruction.java
        CheckpointSignature.java
        ListPathsServlet.java
        DecommissionManager.java
        FSPermissionChecker.java
        UpgradeManagerNamenode.java
        FsckServlet.java
        StreamFile.java
        FSImage.java
        HardLinkFileInfo.java
        NameNode.java
        FSClusterStats.java
        Host2NodesMap.java
        EditsDoubleBuffer.java
        DefaultRackException.java
        FSEditLogOpCodes.java
        INode.java
        UnderReplicatedBlocks.java
        SafeModeException.java
        INodeDirectoryWithQuota.java
        CorruptReplicasMap.java
        JspHelper.java
        NotReplicatedYetException.java
        EditLogOutputStream.java
        PermissionChecker.java
        DfsServlet.java
        UpgradeObjectNamenode.java
        LeaseManager.java
        PendingReplicationBlocks.java
        FSEditLogLoader.java
        FSImageFormat.java
        SafeModeMonitor.java
        ClusterJspHelper.java
        BlocksMap.java
        BlockPlacementPolicy.java
        BlockPlacementPolicyConfigurable.java
        FSEditLog.java
        NameNodeMXBeanServlet.java
        EditLogFileOutputStream.java
        metrics
        NameNodeActivtyMBean.java
        FSNamesystemMetrics.java
        FSNamesystemMBean.java
        NameNodeMetrics.java
        INodeDirectory.java
        SaveNamespaceCancelledException.java
        FileChecksumServlets.java
        INodeFile.java
        FSImageSerialization.java
        DatanodeDescriptor.java
        FSEditLogOp.java
        NameNodeMXBean.java
        GetImageServlet.java
        FSImageCompression.java
        NamenodeFsck.java
        INodeHardLinkFile.java
        protocol
        DatanodeRegistration.java
        ReceivedDeletedBlockInfo.java
        BlockAlreadyCommittedException.java
        DatanodeCommand.java
        IncrementalBlockReport.java
        ReceivedBlockInfo.java
        BlocksWithLocations.java
        DatanodeProtocol.java
        BlockReport.java
        BlockRecoveryInfo.java
        NamenodeProtocol.java
        BlockCommand.java
        NamespaceInfo.java
        BlockFlags.java
        InterDatanodeProtocol.java
        DisallowedDatanodeException.java
        BlockMetaDataInfo.java
        UpgradeCommand.java
        datanode
        DataBlockScanner.java
        BlockSender.java
        UpgradeManagerDatanode.java
        FSDatasetInterface.java
        BlockReceiver.java
        VolumeMap.java
        BlockTransferThrottler.java
        ReplicaBeingWritten.java
        NamespaceService.java
        DataXceiverServer.java
        UpgradeObjectDatanode.java
        DataBlockScannerSet.java
        DataXceiver.java
        DatanodeBlockInfo.java
        NameSpaceSliceStorage.java
        DataNode.java
        BlockAlreadyExistsException.java
        FSDatasetAsyncDiskService.java
        DataStorage.java
        BlockXCodingSender.java
        DataNodeMXBean.java
        metrics
        FSDatasetMBean.java
        DataNodeMetrics.java
        DataNodeActivityMBean.java
        FSDataset.java
        BlockMetadataHeader.java
        BlockXCodingMerger.java
        balancer
        Balancer.java
        tools
        DFSck.java
        FastCopy.java
        DFSAdmin.java
        offlineEditsViewer
        XmlTokenizer.java
        EditsLoaderCurrent.java
        Tokenizer.java
        EditsVisitorFactory.java
        OfflineEditsViewer.java
        EditsVisitor.java
        BinaryTokenizer.java
        EditsElement.java
        TextEditsVisitor.java
        StatisticsEditsVisitor.java
        EditsLoader.java
        TokenizerFactory.java
        XmlEditsVisitor.java
        BinaryEditsVisitor.java
        DepthCounter.java
        offlineImageViewer
        FileDistributionVisitor.java
        LsImageVisitor.java
        OfflineImageViewer.java
        TextWriterImageVisitor.java
        XmlImageVisitor.java
        NameDistributionVisitor.java
        ImageVisitor.java
        DelimitedImageVisitor.java
        ImageLoaderCurrent.java
        IndentedImageVisitor.java
        DepthCounter.java
        ImageLoader.java
        JMXGet.java
        HDFSConcat.java
        DistributedFileSystem.java
        BlockReaderAccelerator.java
        metrics
        DFSClientMetrics.java
        LookasideMetrics.java
        package.html
        OpenFilesInfo.java
        LookasideCacheFileSystem.java
    - hdfs-default.xml
  - benchmarks
    - gridmix
      - gridmix-env
      - webdatascan
        webdata_scan.medium
        webdata_scan.small
        webdata_scan.large
      - javasort
        text-sort.small
        text-sort.large
        text-sort.medium
      - generateData.sh
      - submissionScripts
        sleep_if_too_busy
        webdataSortToSameCluster
        webdataSortHod
        textSortHod
        webdataScanToSameCluster
        textSortToSameCluster
        allToSameCluster
        monsterQueriesToSameCluster
        maxentToSameCluster
        webdataScanHod
        monsterQueriesHod
        allThroughHod
        maxentHod
      - monsterQuery
        monster_query.large
        monster_query.medium
        monster_query.small
      - README
      - webdatasort
        webdata_sort.medium
        webdata_sort.large
        webdata_sort.small
      - streamsort
        text-sort.small
        text-sort.large
        text-sort.medium
      - maxent
        maxent.large
      - pipesort
        text-sort.small
        text-sort.large
        text-sort.medium
    - gridmix2
      - src
        java
        org
        apache
        hadoop
        mapred
        GenericMRLoadJobCreator.java
        GridMixRunner.java
        CombinerJobCreator.java
      - build.xml
      - rungridmix_2
      - generateGridmix2data.sh
      - README.gridmix2
      - gridmix_config.xml
      - gridmix-env-2
  - ant
    - org
      - apache
        hadoop
        ant
        DfsTask.java
        antlib.xml
        condition
        DfsZeroLen.java
        DfsExists.java
        DfsIsDir.java
        DfsBaseConditional.java
  - native
    - src
      - org_apache_hadoop.h
      - org
        apache
        hadoop
        syscall
        Makefile.in
        Makefile.am
        LinuxSystemCall.c
        util
        bulk_crc32.h
        gcc_optimizations.h
        crc32_zlib_polynomial_tables.h
        bulk_crc32.c
        NativeCrc32.c
        crc32c_tables.h
        io
        nativeio
        file_descriptor.h
        NativeIO.c
        errno_enum.c
        errno_enum.h
        file_descriptor.c
        compress
        lzma
        Makefile.in
        org_apache_hadoop_io_compress_lzma.h
        Makefile.am
        LzmaCompressor.c
        LzmaDecompressor.c
        zlib
        Makefile.in
        ZlibCompressor.c
        org_apache_hadoop_io_compress_zlib.h
        Makefile.am
        ZlibDecompressor.c
        snappy
        org_apache_hadoop_io_compress_snappy_SnappyCompressor.h
        Makefile.in
        org_apache_hadoop_io_compress_snappy.h
        Makefile.am
        SnappyCompressor.c
        SnappyDecompressor.c
    - ChangeLog
    - AUTHORS
    - NEWS
    - Makefile.in
    - acinclude.m4
    - INSTALL
    - README
    - lib
      - Makefile.in
      - snappy
        include
        snappy-sinksource.h
        snappy-stubs-public.h
        snappy.h
        snappy-c.h
        lib
        libsnappy.so
        libsnappy.la
        libsnappy.so.1
        libsnappy.so.1.1.3
      - Makefile.am
    - config
      - config.sub
      - config.guess
      - missing
      - install-sh
      - ltmain.sh
      - depcomp
    - COPYING
    - configure.ac
    - Makefile.am
    - config.h.in
    - .autom4te.cfg
    - packageNativeHadoop.sh
  - tools
    - org
      - apache
        hadoop
        tools
        DistTool.java
        DistCp.java
        DistCp_Counter.properties
        rumen
        LoggedTaskAttempt.java
        TaskInfo.java
        AbstractClusterStory.java
        ZombieJob.java
        RackNode.java
        ClusterStory.java
        ClusterTopologyReader.java
        JobTraceReader.java
        ReduceTaskAttemptInfo.java
        ZombieCluster.java
        Node.java
        JsonObjectMapperParser.java
        ParsedHost.java
        LoggedDiscreteCDF.java
        MachineNode.java
        Histogram.java
        ZombieJobProducer.java
        ParsedLine.java
        CDFRandomGenerator.java
        HadoopLogsAnalyzer.java
        LoggedNetworkTopology.java
        LoggedTask.java
        LoggedJob.java
        MapTaskAttemptInfo.java
        ParsedConfigFile.java
        DeepInequalityException.java
        DeepCompare.java
        CDFPiecewiseLinearRandomGenerator.java
        JobStoryProducer.java
        TaskAttemptInfo.java
        TreePath.java
        Pair.java
        JobStory.java
        LoggedLocation.java
        LogRecordType.java
        Pre21JobHistoryConstants.java
        LoggedSingleRelativeRanking.java
        DistCh.java
        GetConf.java
        HadoopArchives.java
        Logalyzer.java
  - core
    - core-default.xml
    - overview.html
    - org
      - apache
        hadoop
        security
        UserGroupInformation.java
        UnixUserGroupInformation.java
        PermissionChecker.java
        authorize
        ConfiguredPolicy.java
        Service.java
        ConnectionPermission.java
        AuthorizationException.java
        RefreshAuthorizationPolicyProtocol.java
        ServiceAuthorizationManager.java
        PolicyProvider.java
        User.java
        AccessControlException.java
        Group.java
        SecurityUtil.java
        fs
        s3
        MigrationTool.java
        Jets3tFileSystemStore.java
        S3OutputStream.java
        S3FileSystemException.java
        Block.java
        INode.java
        S3Credentials.java
        S3Exception.java
        S3InputStream.java
        VersionMismatchException.java
        S3FileSystem.java
        package.html
        FileSystemStore.java
        shell
        Count.java
        CommandFormat.java
        Command.java
        CommandUtils.java
        FsShell.java
        HarFileSystem.java
        BlockLocation.java
        FsShellPermissions.java
        FSInputChecker.java
        PathFilter.java
        FileAlreadyExistsException.java
        FsUrlConnection.java
        MD5MD5CRC32FileChecksum.java
        FreightStreamer.java
        FilterFileSystem.java
        RawLocalFileSystem.java
        HardLink.java
        FileChecksum.java
        FSOutputSummer.java
        s3native
        NativeS3FileSystem.java
        Jets3tNativeFileSystemStore.java
        FileMetadata.java
        PartialListing.java
        package.html
        NativeFileSystemStore.java
        Syncable.java
        Trash.java
        FileStatus.java
        PositionedReadable.java
        RemoteIterator.java
        DU.java
        FileSystem.java
        ftp
        FTPInputStream.java
        FTPException.java
        FTPFileSystem.java
        BlockMissingException.java
        TrashPolicyBase.java
        FSError.java
        TrashPolicyPattern.java
        FileUtil.java
        LocalFileSystem.java
        InMemoryFileSystem.java
        TrashPolicy.java
        ContentSummary.java
        FSDataOutputStream.java
        kfs
        KFSInputStream.java
        KosmosFileSystem.java
        IFSImpl.java
        KFSImpl.java
        package.html
        KFSOutputStream.java
        FSDataInputStream.java
        FSInputStream.java
        LocatedFileStatus.java
        ChecksumException.java
        TrashPolicyDefault.java
        Seekable.java
        permission
        FsPermission.java
        UmaskParser.java
        PermissionParser.java
        ChmodParser.java
        PermissionStatus.java
        AccessControlException.java
        FsAction.java
        FsShellTouch.java
        LocalDirAllocator.java
        ChecksumFileSystem.java
        BufferedFSInputStream.java
        OpenFileInfo.java
        FsUrlStreamHandler.java
        Path.java
        package.html
        FsUrlStreamHandlerFactory.java
        DF.java
        GlobExpander.java
        syscall
        LinuxSystemCall.java
        ipc
        Server.java
        Client.java
        ConnectionHeader.java
        Status.java
        RemoteException.java
        ProtocolProxy.java
        metrics
        RpcActivityMBean.java
        RpcMetrics.java
        RpcMgt.java
        RpcMgtMBean.java
        ProtocolSignature.java
        VersionedProtocol.java
        RPC.java
        package.html
        net
        SocketInputStream.java
        SocketIOWithTimeout.java
        NodeBase.java
        NetUtils.java
        SocksSocketFactory.java
        Node.java
        CachedDNSToSwitchMapping.java
        DNS.java
        ScriptBasedMapping.java
        SocketOutputStream.java
        NetworkTopology.java
        IPv4AddressTruncationMapping.java
        StandardSocketFactory.java
        package.html
        DNSToSwitchMapping.java
        InetSocketAddressFactory.java
        HadoopVersionAnnotation.java
        classification
        InterfaceStability.java
        InterfaceAudience.java
        record
        XmlRecordInput.java
        Index.java
        Utils.java
        Buffer.java
        XmlRecordOutput.java
        compiler
        CodeGenerator.java
        JDouble.java
        JFile.java
        JString.java
        JCompType.java
        CodeBuffer.java
        JBoolean.java
        Consts.java
        JRecord.java
        CppGenerator.java
        JavaGenerator.java
        JFloat.java
        JMap.java
        ant
        RccTask.java
        JInt.java
        JByte.java
        JLong.java
        CGenerator.java
        JVector.java
        JType.java
        JField.java
        package.html
        JBuffer.java
        generated
        Token.java
        SimpleCharStream.java
        RccConstants.java
        RccTokenManager.java
        TokenMgrError.java
        Rcc.java
        package.html
        ParseException.java
        rcc.jj
        Record.java
        CsvRecordInput.java
        RecordComparator.java
        BinaryRecordOutput.java
        RecordOutput.java
        RecordInput.java
        BinaryRecordInput.java
        meta
        MapTypeID.java
        Utils.java
        StructTypeID.java
        VectorTypeID.java
        RecordTypeInfo.java
        FieldTypeInfo.java
        TypeID.java
        package.html
        CsvRecordOutput.java
        log
        LogLevel.java
        filecache
        DistributedCache.java
        util
        UTF8ByteArrayUtils.java
        SerializableUtils.java
        LRUCache.java
        ProgramDriver.java
        RunJar.java
        LineReader.java
        LinuxResourceCalculatorPlugin.java
        ServletUtil.java
        XMLUtils.java
        Tool.java
        PulseCheckable.java
        MergeSort.java
        AsyncDiskService.java
        IndexedSorter.java
        NativeCrc32.java
        HostsFileReader.java
        DataChecksum.java
        DiskChecker.java
        ChecksumUtil.java
        bloom
        BloomFilter.java
        RetouchedBloomFilter.java
        Filter.java
        DynamicBloomFilter.java
        HashFunction.java
        CountingBloomFilter.java
        Key.java
        RemoveScheme.java
        ReflectionUtils.java
        GenericsUtil.java
        NullResourceCalculatorPlugin.java
        PureJavaCrc32C.java
        Progressable.java
        CyclicIteration.java
        Daemon.java
        VersionInfoMBean.java
        ProcessTree.java
        PureJavaCrc32.java
        GenericOptionsParser.java
        VersionInfo.java
        PlatformName.java
        NativeCodeLoader.java
        HeapSort.java
        IndexedSortable.java
        BeanTracker.java
        QuickSort.java
        ProcfsBasedProcessTree.java
        Progress.java
        PulseMBean.java
        MRAsyncDiskService.java
        ResourceCalculatorPlugin.java
        hash
        Hash.java
        JenkinsHash.java
        MurmurHash.java
        package.html
        StringUtils.java
        PulseChecker.java
        Shell.java
        PriorityQueue.java
        ToolRunner.java
        PrintJarMainClass.java
        io
        VIntWritable.java
        TwoDArrayWritable.java
        MapWritable.java
        nativeio
        NativeIO.java
        Errno.java
        NativeIOException.java
        package-info.java
        DefaultStringifier.java
        WritableComparable.java
        MultipleIOException.java
        DoubleWritable.java
        GenericWritable.java
        DataOutputBuffer.java
        WritableComparator.java
        VersionedWritable.java
        CompressedWritable.java
        BinaryComparable.java
        AbstractMapWritable.java
        BytesWritable.java
        compress
        CompressionCodecFactory.java
        CompressionInputStream.java
        Compressor.java
        lzma
        LzmaCompressor.java
        LzmaDecompressor.java
        DecompressorStream.java
        zlib
        ZlibCompressor.java
        ZlibFactory.java
        ZlibDecompressor.java
        BuiltInZlibDeflater.java
        BuiltInZlibInflater.java
        CompressionOutputStream.java
        BlockDecompressorStream.java
        CompressionCodec.java
        BlockCompressorStream.java
        GzipCodec.java
        DefaultCodec.java
        snappy
        SnappyCompressor.java
        SnappyDecompressor.java
        LoadSnappy.java
        CompressorStream.java
        CodecPrematureEOFException.java
        Decompressor.java
        CodecUnavailableException.java
        CodecPool.java
        bzip2
        CRC.java
        CBZip2InputStream.java
        CBZip2OutputStream.java
        BZip2DummyDecompressor.java
        BZip2Constants.java
        BZip2DummyCompressor.java
        SnappyCodec.java
        LzmaCodec.java
        BZip2Codec.java
        VLongWritable.java
        SequenceFile.java
        MapFile.java
        ArrayFile.java
        MD5Hash.java
        WritableName.java
        RawComparator.java
        file
        tfile
        MetaBlockDoesNotExist.java
        Utils.java
        MetaBlockAlreadyExists.java
        SimpleBufferedOutputStream.java
        BoundedByteArrayOutputStream.java
        RawComparable.java
        BoundedRangeFileInputStream.java
        TFileDumper.java
        ByteArray.java
        BCFile.java
        TFile.java
        Chunk.java
        CompareUtils.java
        Compression.java
        BooleanWritable.java
        NullWritable.java
        InputBuffer.java
        VersionMismatchException.java
        Writable.java
        BloomMapFile.java
        DataInputBuffer.java
        ObjectWritable.java
        ByteWritable.java
        WritableFactory.java
        IntWritable.java
        Text.java
        FloatWritable.java
        SortedMapWritable.java
        Stringifier.java
        OutputBuffer.java
        IOUtils.java
        WritableFactories.java
        WritableUtils.java
        retry
        RetryPolicy.java
        RetryProxy.java
        RetryPolicies.java
        RetryInvocationHandler.java
        package.html
        package.html
        LongWritable.java
        BufferTooSmallException.java
        Closeable.java
        SetFile.java
        UTF8.java
        serializer
        Serializer.java
        JavaSerializationComparator.java
        Serialization.java
        SerializationFactory.java
        Deserializer.java
        JavaSerialization.java
        DeserializerComparator.java
        WritableSerialization.java
        package.html
        ArrayWritable.java
        ReadaheadPool.java
        http
        FilterInitializer.java
        NettyMapOutputHttpServer.java
        HttpServer.java
        FilterContainer.java
        HtmlQuoting.java
        metrics
        MetricsContext.java
        MetricsUtil.java
        MetricsRecord.java
        jvm
        JvmMetrics.java
        EventCounter.java
        MetricsServlet.java
        ContextFactory.java
        util
        MetricsRegistry.java
        MetricsIntValue.java
        MetricsDynamicMBeanBase.java
        MBeanUtil.java
        MetricsTimeVaryingRate.java
        MetricsBase.java
        MetricsTimeVaryingInt.java
        MetricsLongValue.java
        MetricsTimeVaryingLong.java
        file
        FileContext.java
        package.html
        jmx
        JMXContextMBean.java
        JMXContext.java
        MetricsException.java
        Updater.java
        ganglia
        GangliaContext.java
        package.html
        package.html
        spi
        MetricsRecordImpl.java
        NullContext.java
        NoEmitMetricsContext.java
        CompositeContext.java
        OutputRecord.java
        AbstractMetricsContext.java
        Util.java
        NullContextWithUpdateThread.java
        MetricValue.java
        package.html
        conf
        ReconfigurationServlet.java
        Configuration.java
        Reconfigurable.java
        Configurable.java
        ReconfigurationUtil.java
        Configured.java
        ReconfigurationException.java
        package.html
        ConfServlet.java
        ReconfigurableBase.java
  - docs
    - src
      - documentation
        resources
        images
        hadoop-logo-big.jpg
        hadoop-logo.jpg
        hdfsarchitecture.gif
        hdfsarchitecture.odg
        favicon.ico
        hdfsdatanodes.gif
        core-logo.gif
        architecture.gif
        hdfsdatanodes.odg
        classes
        CatalogManager.properties
        content
        xdocs
        index.xml
        hdfs_quota_admin_guide.xml
        mapred_tutorial.xml
        hadoop_archives.xml
        capacity_scheduler.xml
        fair_scheduler.xml
        vaidya.xml
        tabs.xml
        hdfs_shell.xml
        quickstart.xml
        libhdfs.xml
        hod_admin_guide.xml
        service_level_auth.xml
        hdfs_user_guide.xml
        hod_user_guide.xml
        streaming.xml
        native_libraries.xml
        distcp.xml
        hod_config_guide.xml
        SLG_user_guide.xml
        hdfs_permissions_guide.xml
        commands_manual.xml
        site.xml
        cluster_setup.xml
        gridmix.xml
        hdfs_design.xml
        README.txt
        skinconf.xml
        conf
        cli.xconf
    - forrest.properties
    - releasenotes.html
    - status.xml
    - changes
      - ChangesFancyStyle.css
      - changes2html.pl
      - ChangesSimpleStyle.css
  - contrib
    - capacity-scheduler
      - src
        test
        org
        apache
        hadoop
        mapred
        TestCapacitySchedulerWithJobTracker.java
        TestJobTrackerRestartWithCS.java
        TestCapacityScheduler.java
        ClusterWithCapacityScheduler.java
        TestCapacitySchedulerConf.java
        java
        org
        apache
        hadoop
        mapred
        CapacityTaskScheduler.java
        JobInitializationPoller.java
        CapacitySchedulerConf.java
        JobQueuesManager.java
        MemoryMatcher.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
    - build.xml
    - vaidya
      - src
        java
        org
        apache
        hadoop
        vaidya
        postexdiagnosis
        PostExPerformanceDiagnoser.java
        tests
        ReadingHDFSFilesAsSideEffect.java
        MapsReExecutionImpact.java
        BalancedReducePartitioning.java
        MapSideDiskSpill.java
        postex_diagnosis_tests.xml
        ReducesReExecutionImpact.java
        statistics
        job
        JobStatisticsInterface.java
        JobStatistics.java
        TaskStatistics.java
        MapTaskStatistics.java
        ReduceTaskStatistics.java
        JobDiagnoser.java
        util
        XMLUtils.java
        vaidya.sh
        DiagnosticTest.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - index
      - src
        test
        org
        apache
        hadoop
        contrib
        index
        lucene
        TestMixedDirectory.java
        mapred
        TestIndexUpdater.java
        TestDistributionPolicy.java
        java
        org
        apache
        hadoop
        contrib
        index
        main
        UpdateIndex.java
        lucene
        MixedDirectory.java
        FileSystemDirectory.java
        ShardWriter.java
        LuceneUtil.java
        MixedDeletionPolicy.java
        RAMDirectoryUtil.java
        LuceneIndexFileNameFilter.java
        mapred
        IndexUpdater.java
        DocumentAndOp.java
        IndexUpdateReducer.java
        DocumentID.java
        IntermediateForm.java
        IndexUpdatePartitioner.java
        IndexUpdateOutputFormat.java
        ILocalAnalysis.java
        IIndexUpdater.java
        IndexUpdateConfiguration.java
        IndexUpdateCombiner.java
        IDistributionPolicy.java
        Shard.java
        IndexUpdateMapper.java
        example
        RoundRobinDistributionPolicy.java
        LineDocLocalAnalysis.java
        LineDocTextAndOp.java
        IdentityLocalAnalysis.java
        LineDocInputFormat.java
        LineDocRecordReader.java
        HashingDistributionPolicy.java
      - build.xml
      - sample
        data2.txt
        data.txt
      - ivy
        libraries.properties
      - README
      - ivy.xml
      - conf
        index-config.xml
        index-config.xml.template
    - gridmix
      - src
        test
        org
        apache
        hadoop
        mapred
        gridmix
        TestFilePool.java
        TestFileQueue.java
        TestRecordFactory.java
        TestGridmixRecord.java
        DebugJobFactory.java
        TestGridmixSubmission.java
        java
        org
        apache
        hadoop
        mapred
        gridmix
        JobSubmitter.java
        InputStriper.java
        JobFactory.java
        CombineFileSplit.java
        AvgRecordFactory.java
        JobMonitor.java
        GenerateData.java
        FilePool.java
        GridmixKey.java
        GridmixRecord.java
        GridmixSplit.java
        RecordFactory.java
        ReadRecordFactory.java
        FileQueue.java
        GridmixJob.java
        Gridmix.java
        IntermediateRecordFactory.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
    - eclipse-plugin
      - src
        java
        org
        apache
        hadoop
        eclipse
        servers
        IHadoopServerListener.java
        RunOnHadoopWizard.java
        ServerRegistry.java
        HadoopLocationWizard.java
        HadoopServerSelectionListContentProvider.java
        NewDriverWizard.java
        actions
        DFSActionImpl.java
        OpenNewMRProjectAction.java
        EditLocationAction.java
        NewLocationAction.java
        OpenNewMRClassWizardAction.java
        NewMapReduceProjectWizard.java
        preferences
        MapReducePreferencePage.java
        PreferenceConstants.java
        PreferenceInitializer.java
        view
        servers
        ServerView.java
        PropertyTester.java
        MapReduceNature.java
        ErrorMessageDialog.java
        NewDriverWizardPage.java
        server
        ConfProp.java
        JarModule.java
        IJobListener.java
        HadoopServer.java
        HadoopPathPage.java
        HadoopJob.java
        dfs
        DFSContentProvider.java
        DFSLocation.java
        DFSMessage.java
        ActionProvider.java
        DFSActions.java
        DFSContent.java
        DFSFile.java
        DFSFolder.java
        DFSPath.java
        DFSLocationsRoot.java
        NewMapperWizard.java
        Activator.java
        HadoopPerspectiveFactory.java
        launch
        LocalMapReduceLaunchTabGroup.java
        StartHadoopLaunchTabGroup.java
        HadoopApplicationLaunchShortcut.java
        MutexRule.java
        NewReducerWizard.java
        ImageLibrary.java
      - build.xml
      - ivy
        libraries.properties
      - resources
        CreateProj.xml
        drive100x100.gif
        hadoop-logo.jpg
        MAP16x15.gif
        spitesmall.gif
        Components
        job.gif
        reducer-16x16.gif
        HelloWorld.xml
        Setup.xml
        RunProj.xml
        elephantblue16x16.gif
        files.gif
        Elephant2.jpg
        hadoop.gif
        drive16x16.gif
        hadoop_small.gif
        Elephant100x100.gif
        MAP100x100.gif
        Elephant.jpg
        SetHadoopPath.xml
        reduce100x100.gif
        Elephant16x16.gif
        reduce16x16.gif
        ConnectDFS.xml
        map16x16.gif
      - build.properties
      - .settings
        org.eclipse.jdt.ui.prefs
        org.eclipse.wst.validation.prefs
        org.eclipse.jdt.core.prefs
      - META-INF
        MANIFEST.MF
      - ivy.xml
      - .project
      - plugin.xml
      - .classpath
    - hmon
      - src
        test
        org
        apache
        hadoop
        mapred
        TestUtilizationCollector.java
        java
        org
        apache
        hadoop
        mapred
        UtilizationReporter.java
        UtilizationCollectorCached.java
        UtilizationCollector.java
        HmonResourceReporter.java
        JobUtilization.java
        ClusterUtilization.java
        UtilizationGauger.java
        resourceutilization.xml
        UtilizationCollectorProtocol.java
        TaskTrackerUtilization.java
        LocalJobUtilization.java
        LinuxUtilizationGauger.java
        UtilizationShell.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
      - bin
        start-hmon.sh
        stop-hmon.sh
    - hive-streaming
      - src
        test
        org
        apache
        hadoop
        streaming
        UtilTest.java
        TestStreamAggregate.java
        StreamAggregate.java
        TestStreaming.java
        UniqApp.java
        TrApp.java
        TestGzipInput.java
        TestStreamingFailure.java
        ValueCountReduce.java
        TestStreamedMerge.java
        TestStreamReduceNone.java
        TestStreamDataProtocol.java
        java
        org
        apache
        hadoop
        streaming
        UTF8ByteArrayUtils.java
        StreamBaseRecordReader.java
        PipeMapRed.java
        StreamJob.java
        PipeReducer.java
        StreamLineRecordReader.java
        StreamUtil.java
        JarBuilder.java
        PipeMapper.java
        BufferingOutputCollector.java
        StreamXmlRecordReader.java
        Environment.java
        StreamInputFormat.java
        PathFinder.java
        InmemBufferingOutputCollector.java
        StreamOutputFormat.java
        HadoopStreaming.java
        package.html
        StreamSequenceRecordReader.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - failmon
      - src
        java
        org
        apache
        hadoop
        contrib
        failmon
        SMARTParser.java
        Continuous.java
        LogParser.java
        HadoopLogParser.java
        ShellParser.java
        Monitored.java
        PersistentState.java
        EventRecord.java
        OfflineAnonymizer.java
        Environment.java
        HDFSMerger.java
        SensorsParser.java
        NICParser.java
        Anonymizer.java
        MonitorJob.java
        RunOnce.java
        CPUParser.java
        SerializedRecord.java
        Executor.java
        LocalStore.java
        SystemLogParser.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
      - bin
        scheduler.py
        failmon.sh
      - conf
        log4j.properties
        hosts.list
        commons-logging.properties
        failmon.properties
        global.config
    - test
      - hdfs-site.xml
      - hadoop-site.xml
      - mapred-site.xml
      - core-site.xml
    - streaming
      - src
        test
        org
        apache
        hadoop
        streaming
        UtilTest.java
        FailApp.java
        TestStreamAggregate.java
        TestStreamingAsDifferentUser.java
        TestStreamingExitStatus.java
        TestSymLink.java
        StreamAggregate.java
        TrAppReduce.java
        UlimitApp.java
        TestStreaming.java
        UniqApp.java
        TrApp.java
        TestStreamingSeparator.java
        TestStreamingStderr.java
        TestGzipInput.java
        TestStreamingCounters.java
        StderrApp.java
        TestStreamingFailure.java
        ValueCountReduce.java
        TestStreamingCombiner.java
        TestStreamReduceNone.java
        TestMultipleArchiveFiles.java
        TestStreamingBadRecords.java
        TestStreamDataProtocol.java
        TestStreamXmlRecordReader.java
        TestUlimit.java
        TestMultipleCachefiles.java
        TestStreamingKeyValue.java
        TestStreamingEmptyInpNonemptyOut.java
        java
        org
        apache
        hadoop
        streaming
        UTF8ByteArrayUtils.java
        StreamBaseRecordReader.java
        PipeMapRed.java
        StreamJob.java
        PipeCombiner.java
        PipeReducer.java
        StreamUtil.java
        PipeMapRunner.java
        JarBuilder.java
        PipeMapper.java
        StreamKeyValUtil.java
        StreamXmlRecordReader.java
        Environment.java
        StreamInputFormat.java
        PathFinder.java
        HadoopStreaming.java
        package.html
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - mumak
      - src
        test
        org
        apache
        hadoop
        mapred
        MockSimulatorJobTracker.java
        TestSimulatorJobClient.java
        FakeJobs.java
        MockSimulatorEngine.java
        TestSimulatorEventQueue.java
        TestSimulatorEngine.java
        TestSimulatorEndToEnd.java
        HeartbeatHelper.java
        CheckedEventQueue.java
        TestSimulatorTaskTracker.java
        TestSimulatorJobTracker.java
        java
        org
        apache
        hadoop
        net
        StaticMapping.java
        mapred
        SimulatorEngine.java
        SimulatorJobInProgress.java
        JobCompleteEvent.java
        SimulatorTaskTracker.java
        SimulatorJobTracker.java
        SortedZombieJobProducer.java
        JobSubmissionEvent.java
        AllMapsCompletedTaskAction.java
        SimulatorClock.java
        SimulatorEventListener.java
        SimulatorJobCache.java
        HeartbeatEvent.java
        SimulatorEvent.java
        TaskAttemptCompletionEvent.java
        SimulatorJobClient.java
        SimulatorJobStoryProducer.java
        EagerTaskInitializationListenerAspects.aj
        SimulatorTaskTrackerStatus.java
        SimulatorEventQueue.java
        SimulatorJobStory.java
        SimulatorLaunchTaskAction.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
      - bin
        mumak.sh
      - conf
        log4j.properties
        mumak.xml
    - bash-tab-completion
      - README
      - hadoop.sh
    - corona
      - src
        test
        checkstyle.xml
        checkstyle-noframes-sorted.xsl
        org
        apache
        hadoop
        mapred
        TestMiniCoronaBlacklist.java
        TestMiniCoronaTaskFail.java
        TestTaskTrackerAction.java
        TestResourceTracker.java
        corona
        TestPoolManager.java
        TestResourceCheck.java
        TestConfigManager.java
        TestBinarySearcher.java
        TestMiniCoronaBringup.java
        SessionListener.java
        TestMiniCoronaAdmin.java
        TstUtils.java
        TestScheduleComparator.java
        FakeSessionNotifier.java
        MiniCoronaCluster.java
        TestDistributeShare.java
        TstJob.java
        FakeConfigManager.java
        TestMiniCoronaRunJob.java
        ClusterManagerTestable.java
        TestClusterManager.java
        TestMiniCoronaFederatedJT.java
        ClusterManagerMetricsVerifier.java
        TestLoadManager.java
        CallbackSessionNotifier.java
        TestPreemption.java
        TestMiniCoronaSpeculativeTask.java
        BenchmarkClusterManager.java
        TestSessionDriver.java
        license-header.txt
        java
        org
        apache
        hadoop
        util
        Utils.java
        WebUtils.java
        mapred
        LocalityStats.java
        ExpireTasks.java
        CoronaTaskTracker.java
        CoronaTaskTrackerProtocol.java
        CoronaJobTrackerRunner.java
        ResourceTracker.java
        InterCoronaJobTrackerProtocol.java
        ResourceUsage.java
        CoronaJobInProgress.java
        ProxyJobTracker.java
        TrackerStats.java
        CoronaSessionInfo.java
        CoronaJobTracker.java
        TaskStateChangeListener.java
        package-info.java
        CoronaJobAggregator.java
        CoronaTaskLauncher.java
        TrackerClientCache.java
        CoronaJobHistory.java
        RemoteJTProxy.java
        ResourceReport.java
        corona
        TopologyCache.java
        TFactoryBasedThreadPoolServer.java
        GrantReport.java
        CoronaAdmin.java
        TypePoolGroupNameMap.java
        NodeSnapshot.java
        LocalityLevel.java
        LoadManager.java
        CoronaClient.java
        ScheduleComparator.java
        PoolGroupManager.java
        ResourceLimit.java
        NodeContainer.java
        ClusterManagerMetrics.java
        ConfigManager.java
        SchedulerForType.java
        SessionManager.java
        CoronaConf.java
        Schedulable.java
        BinarySearcher.java
        PoolInfoMetrics.java
        PoolsConfigDocumentGenerator.java
        ClusterManager.java
        PoolInfo.java
        Utilities.java
        Session.java
        RetiredSession.java
        NodeManager.java
        SessionHistoryManager.java
        EmptyPoolsConfigDocumentGenerator.java
        SessionNotificationCtx.java
        package-info.java
        PoolSchedulable.java
        FaultManager.java
        ResourceRequestInfo.java
        ClusterNode.java
        PoolGroupSchedulable.java
        ResourceTypeProperties.java
        RequestedNode.java
        SessionNotifier.java
        Scheduler.java
        TypePoolInfoMap.java
        ClusterManagerAvailabilityChecker.java
        ClusterManagerServer.java
        SessionDriver.java
        SessionSchedulable.java
        gen-java
        org
        apache
        hadoop
        corona
        RunningSession.java
        SessionStatus.java
        CoronaProxyJobTrackerService.java
        SessionRegistrationData.java
        ClusterManagerInfo.java
        ResourceType.java
        SessionDriverService.java
        InvalidSessionHandle.java
        SafeModeException.java
        ComputeSpecs.java
        SessionPriority.java
        CoronaTaskTrackerService.java
        DisallowedNode.java
        ResourceGrant.java
        PoolInfoStrings.java
        InetAddress.java
        ClusterNodeInfo.java
        ResourceRequest.java
        NodeUsageReport.java
        SessionInfo.java
        webapp
        jt
        coronajobdetails.jsp
        coronataskstats.jsp
        coronajobconf.jsp
        index.html
        coronajobfailures.jsp
        coronajobtasks.jsp
        coronajobresources.jsp
        coronataskdetails.jsp
        proxyjt
        coronajobhistory.jsp
        coronajobconf_history.jsp
        coronaanalysejobhistory.jsp
        coronajobtaskshistory.jsp
        coronataskdetailshistory.jsp
        index.html
        coronajobdetailshistory.jsp
        cm
        active_json.jsp
        retired_json.jsp
        exec.jsp
        cm_old.jsp
        machines.jsp
        cm.jsp
        pool_json.jsp
        index.html
        jobresources.jsp
      - build.xml
      - ivy
        libraries.properties
      - interface
        ClusterManager.thrift
      - lib
        README
        Thrift.LICENSE
      - ivy.xml
    - fairscheduler
      - src
        test
        org
        apache
        hadoop
        mapred
        TestFairScheduler.java
        webapps
        static
        dynamic-selector.js
        tablefilter.js
        java
        org
        apache
        hadoop
        mapred
        JobAdmissionWaitInfo.java
        AllocationConfigurationException.java
        TaskType.java
        protocal
        FairSchedulerProtocol.java
        FairSchedulerServlet.java
        DefaultTaskSelector.java
        LoadManager.java
        TaskSelector.java
        BlockedAdmissionReason.java
        FairSchedulerMetricsInst.java
        WeightAdjuster.java
        JobInitializer.java
        NotAdmittedJobInfo.java
        FairSchedulerAdmissionControlServlet.java
        HourGlass.java
        CapBasedLoadManager.java
        FairScheduler.java
        MemBasedLoadManager.java
        PoolManager.java
        FairSchedulerShell.java
        FifoJobComparator.java
        Pool.java
        NewJobWeightBooster.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
    - hdfsproxy
      - src
        test
        org
        apache
        hadoop
        hdfsproxy
        TestHdfsProxy.java
        TestProxyUgiManager.java
        java
        org
        apache
        hadoop
        hdfsproxy
        ProxyHttpServer.java
        ProxyFilter.java
        ProxyStreamFile.java
        ProxyUgiManager.java
        HdfsProxy.java
        ProxyListPathsServlet.java
        ProxyFileDataServlet.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
      - bin
        start-hdfsproxy.sh
        hdfsproxy-slaves.sh
        hdfsproxy-config.sh
        hdfsproxy
        stop-hdfsproxy.sh
        hdfsproxy-daemons.sh
        hdfsproxy-daemon.sh
      - conf
        log4j.properties
        hdfsproxy-default.xml
        user-permissions.xml
        hdfsproxy-env.sh.template
        hdfsproxy-env.sh
        user-certs.xml
        hdfsproxy-hosts
        configuration.xsl
    - highavailability
      - src
        test
        org
        apache
        hadoop
        hdfs
        MiniAvatarCluster.java
        TestAvatarCleanShutdown.java
        TestAvatarShell.java
        TestAvatarAPI.java
        TestAvatarCheckpointing.java
        TestAvatarForceFailover.java
        AvatarDFSckTest.java
        TestAvatarTxIds.java
        TestAvatarStaleCheckpoint.java
        TestAvatarCreateFile.java
        TestCachingAvatarZooKeeperClient.java
        TestAvatarSetQuota.java
        TestAvatarSyncLastTxid.java
        TestAvatarMultipleStartup.java
        AvatarSetupUtil.java
        TestAvatarFailoverCaching.java
        FailoverLoadTestUtil.java
        TestAvatarFailover.java
        TestAvatarQuiesce.java
        TestAvatarFastCopy.java
        TestAvatarContinuousFailover.java
        server
        namenode
        TestAvatarLease.java
        TestStandbySafeModeImpl.java
        TestZookeeperTxId.java
        datanode
        TestAvatarDataNodeRBW.java
        TestAvatarDataNodeRestartService.java
        TestAvatarMergeNamespaces.java
        TestAvatarDatanodeNoService.java
        TestAvatarRefreshNamenodes.java
        TestAvatarDataNodeMultipleRegistrations.java
        TestAvatarDataNodeMXBean.java
        TestStandbySafeMode.java
        TestAvatarIngesting.java
        java
        avatar-default.xml
        org
        apache
        hadoop
        hdfs
        AvatarShell.java
        AvatarZooKeeperClient.java
        AvatarZKShell.java
        DistributedAvatarFileSystem.java
        CachingAvatarZooKeeperClient.java
        protocol
        AvatarProtocol.java
        AvatarConstants.java
        server
        namenode
        Ingest.java
        StandbySafeMode.java
        ZookeeperTxId.java
        AvatarNode.java
        metrics
        AvatarNodeStatusMBean.java
        Standby.java
        protocol
        AvatarDatanodeCommand.java
        datanode
        OfferService.java
        DatanodeProtocols.java
        AvatarDataNode.java
        tools
        AvatarDFSck.java
        AvatarFailoverSnapshot.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - ivy.xml
      - conf
        avatar-site.xml.template
        avatar-site.xml
        raid.xml
    - raid
      - src
        test
        org
        apache
        hadoop
        hdfs
        TestRaidFastCopy.java
        TestRaidDfs.java
        server
        namenode
        BlockPlacementPolicyFakeData.java
        TestDirectoryRaidBlockPlacement.java
        TestBlockPlacementPolicyRaid.java
        raid
        TestDirectoryRSRaidDfsMultipleBlocks.java
        TestParityMovement.java
        TestRaidNode.java
        TestRaidShellFsck_CorruptCounter.java
        TestBlockCopier.java
        TestHarIndexParser.java
        TestParallelReader.java
        Utils.java
        TestErasureCodes.java
        TestDirectoryBlockFixer.java
        TestMissingParity.java
        TestBlockFixer.java
        TestCodec.java
        TestReadConstruction.java
        TestDirectoryRaidDfs.java
        TestTempDirectoryCleanUp.java
        TestDirectoryRaidEncoder.java
        TestRaidHar.java
        TestDirectoryTraversal.java
        TestDirectoryRSRaidDfsOneBlock.java
        TestRaidPurge.java
        TestRaidShellFsck.java
        TestReedSolomonDecoder.java
        TestFileCorruptions.java
        TestPlacementMonitor.java
        TestRaidShell.java
        TestRaidUtils.java
        BadReedSolomonCode.java
        TestDirectoryRSRaidDfsTwoBlocks.java
        BadXORCode.java
        TestDirectoryPlacementMonitor.java
        TestStatisticsCollector.java
        TestRaidNodeMetrics.java
        TestSimulationBlockFixer.java
        ConfigBuilder.java
        TestDirectoryRaidShellFsck.java
        TestGaloisField.java
        java
        raid-default.xml
        org
        apache
        hadoop
        hdfs
        DistributedRaidFileSystem.java
        server
        namenode
        BlockPlacementPolicyRaidRandom.java
        BlockPlacementPolicyRaid.java
        BlockPlacementPolicyRaidBalance.java
        RaidDFSUtil.java
        raid
        FileStripeReader.java
        DirectoryStripeReader.java
        Stripe.java
        XORCode.java
        ErasureCode.java
        StripeReader.java
        LocalRaidNode.java
        ReedSolomonEncoder.java
        RaidConfigurationException.java
        ParityFilePair.java
        RaidShell.java
        ExpandedPolicy.java
        JspUtils.java
        Codec.java
        DataFsck.java
        BlockReconstructor.java
        GaloisField.java
        JobMonitor.java
        Encoder.java
        ConfigManager.java
        HarIndex.java
        DirectoryTraversal.java
        PurgeMonitor.java
        LocalBlockIntegrityMonitor.java
        DirectoryStatistics.java
        ReedSolomonCode.java
        TooManyErasedLocations.java
        RaidNodeMetrics.java
        Decoder.java
        RaidUtils.java
        DistBlockIntegrityMonitor.java
        BlockIntegrityMonitor.java
        CandidateLocations.java
        ParallelStreamReader.java
        MonitoredDistRaid.java
        StatisticsCollector.java
        LocallyRepairableCode.java
        SimpleRegeneratingCode.java
        TimeStatistics.java
        CauchyRSCode.java
        CorruptFileCounterServlet.java
        protocol
        RaidProtocol.java
        PolicyInfo.java
        PlacementMonitor.java
        ReedSolomonDecoder.java
        BlockMover.java
        MissingParityFiles.java
        Statistics.java
        RaidState.java
        DistRaidNode.java
        XOREncoder.java
        DistRaid.java
        XORDecoder.java
        RaidNode.java
      - build.xml
      - ivy
        libraries.properties
      - README
      - webapps
        raid
        blockfixer.jsp
        raidfsck.jsp
        raid.jsp
        jobmonitor.jsp
        index.html
      - ivy.xml
      - conf
        raid.xml
    - fuse-dfs
      - global_header.mk
      - src
        fuse_impls_getattr.c
        fuse_impls_readdir.c
        fuse_context_handle.h
        fuse_options.h
        fuse_dfs.c
        fuse_impls_statfs.c
        fuse_users.c
        fuse_impls_read.c
        fuse_impls_symlink.c
        fuse_impls_access.c
        fuse_dfs.h
        fuse_init.h
        fuse_impls_flush.c
        test
        TestFuseDFS.java
        fuse_options.c
        fuse_impls.h
        fuse_stat_struct.h
        fuse_impls_open.c
        fuse_impls_chown.c
        fuse_stat_struct.c
        fuse_impls_write.c
        fuse_dfs_wrapper.sh
        fuse_impls_mknod.c
        fuse_connect.h
        fuse_impls_chmod.c
        fuse_users.h
        fuse_impls_create.c
        fuse_impls_utimens.c
        fuse_init.c
        Makefile.am
        fuse_impls_unlink.c
        fuse_impls_truncate.c
        fuse_connect.c
        fuse_impls_mkdir.c
        fuse_trash.c
        fuse_trash.h
        fuse_impls_release.c
        fuse_impls_rename.c
        fuse_file_handle.h
        fuse_impls_rmdir.c
      - build.xml
      - ivy
        libraries.properties
      - bootstrap.sh
      - acinclude.m4
      - README
      - configure.ac
      - ivy.xml
      - Makefile.am
      - global_footer.mk
    - snapshot
      - src
        test
        org
        apache
        hadoop
        hdfs
        server
        namenode
        TestWaitingRoomPurger.java
        TestSnapshotCreation.java
        TestSnapshotFileRead.java
        TestSnapshotFileRename.java
        TestSnapshotShell.java
        TestWaitingRoom.java
        java
        org
        apache
        hadoop
        hdfs
        SnapshotClient.java
        server
        namenode
        SnapshotNode.java
        SnapshotShell.java
        WaitingRoom.java
        WaitingRoomTrashPolicy.java
        protocol
        SnapshotProtocol.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - hod
      - build.xml
      - ivy
        libraries.properties
      - config.txt
      - CHANGES.txt
      - README
      - support
        checklimits.sh
        logcondense.py
      - getting_started.txt
      - ivy.xml
      - bin
        ringmaster
        verify-account
        hodring
        VERSION
        hod
        checknodes
        hodcleanup
      - hodlib
        Common
        socketServers.py
        util.py
        desc.py
        miniHTMLParser.py
        threads.py
        descGenerator.py
        nodepoolutil.py
        tcp.py
        xmlrpc.py
        hodsvc.py
        setup.py
        logger.py
        allocationManagerUtil.py
        __init__.py
        types.py
        HodRing
        __init__.py
        hodRing.py
        NodePools
        torque.py
        __init__.py
        GridServices
        __init__.py
        mapred.py
        hdfs.py
        service.py
        Schedulers
        torque.py
        __init__.py
        ServiceRegistry
        __init__.py
        serviceRegistry.py
        Hod
        hadoop.py
        __init__.py
        hod.py
        nodePool.py
        ServiceProxy
        __init__.py
        serviceProxy.py
        __init__.py
        RingMaster
        ringMaster.py
        idleJobTracker.py
        __init__.py
        AllocationManagers
        goldAllocationManager.py
        __init__.py
      - conf
        hodrc
      - testing
        testHodCleanup.py
        testUtil.py
        lib.py
        testHod.py
        testHodRing.py
        testRingmasterRPCs.py
        testThreads.py
        testXmlrpc.py
        testModule.py
        testTypes.py
        __init__.py
        main.py
        testHadoop.py
        helper.py
    - build-contrib.xml
    - seekablecompression
      - src
        test
        org
        apache
        hadoop
        io
        simpleseekableformat
        UtilsForTests.java
        TestSimpleSeekableFormatCodec.java
        TestDataSegment.java
        TestSimpleSeekableFormatStreams.java
        TestInterleavedStreams.java
        java
        org
        apache
        hadoop
        io
        simpleseekableformat
        DataSegmentWriter.java
        InterleavedOutputStream.java
        SimpleSeekableFormatCodec.java
        DataSegmentReader.java
        SimpleSeekableFormatInputStream.java
        SimpleSeekableFormat.java
        SimpleSeekableFormatOutputStream.java
        CorruptedDataException.java
        InterleavedInputStream.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - dynamicclouds
      - src
        test
        org
        apache
        hadoop
        mapred
        TTMoverTestStub.java
        TestTTMover.java
        TestClustersBalancer.java
        TestTaskTrackerLoadInfo.java
        webapps
        cb
        status.jsp
        index.html
        java
        org
        apache
        hadoop
        mapred
        ClustersBalancer.java
        WastedTimeTTLIIterator.java
        TTLauncher.java
        ClusterStatusJSONParser.java
        ClusterBalancerTool.java
        ClusterBalancerAdminProtocol.java
        Cluster.java
        DynamicCloudsDaemon.java
        TaskTrackerLoadInfoIterator.java
        TTMover.java
        TaskTrackerLoadInfo.java
        TTLaunchTask.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
      - bin
        clusterbalancer.sh
    - ec2
      - README.txt
      - bin
        hadoop-ec2
        list-hadoop-clusters
        terminate-hadoop-cluster
        create-hadoop-image
        launch-hadoop-slaves
        cmd-hadoop-cluster
        hadoop-ec2-env.sh
        hadoop-ec2-env.sh.template
        hadoop-ec2-init-remote.sh
        image
        create-hadoop-image-remote
        ec2-run-user-data
        delete-hadoop-cluster
        launch-hadoop-master
        launch-hadoop-cluster
    - data_join
      - src
        examples
        org
        apache
        hadoop
        contrib
        utils
        join
        SampleDataJoinMapper.java
        SampleDataJoinReducer.java
        README.txt
        SampleTaggedMapOutput.java
        test
        org
        apache
        hadoop
        contrib
        utils
        join
        TestDataJoin.java
        java
        org
        apache
        hadoop
        contrib
        utils
        join
        DataJoinJob.java
        ResetableIterator.java
        TaggedMapOutput.java
        DataJoinMapperBase.java
        DataJoinReducerBase.java
        ArrayListBackedIterator.java
        JobBase.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
    - benchmark
      - src
        test
        org
        apache
        hadoop
        hashtable
        RandomGen.java
        Hashes.java
        LongInfo.java
        DoubleHash.java
        LightWeightGSet.java
        CuckooHash.java
        R250_521.java
        LightWeightSet.java
        THashSet.java
        TestHashTableBenchmark.java
        LightWeightGSetMulti.java
        MT.java
        HashTableBenchmark.java
        QuadHash.java
        java
        org
        apache
        hadoop
        mapred
        MapOutputCorrectness.java
        WriteMapper.java
        SleepJobRunner.java
        Reduce.java
        MapOutputCorrectnessRunner.java
        GenReduce.java
        GenReaderThread.java
        GenMapper.java
        DatanodeBenThread.java
        MultiTaskTracker.java
        GenThread.java
        DirMapper.java
        ReadMapper.java
        GenWriterThread.java
        DirReduce.java
        CreateFiles.java
        hdfs
        NNThroughputBenchmark.java
        Constant.java
        DirConstant.java
        TestNNThroughputBenchmark.java
        DFSIOTest.java
        LoadGenerator.java
        DFSLockTest.java
        GeneralConstant.java
        DFSGeneralTest.java
        AllTestDriver.java
        DataGenerator.java
        StructureGenerator.java
        DFSDirTest.java
        FileNameGenerator.java
      - build.xml
      - ivy
        libraries.properties
      - ivy.xml
- build.xml
- APACHE-README.txt
- copy-hdfs-jars-to-maven.sh
- ivy
  - libraries.properties
  - ivysettings.xml
  - hadoop-core.pom
- singleNodeHadoop
  - coronaConf
    - proxyjtnode
    - hdfs-site.xml
    - slaves
    - hadoop-metrics.properties
    - log4j.properties
    - corona.xml
    - hadoop-env.sh
    - ssl-server.xml.example
    - capacity-scheduler.xml
    - masters
    - coronapools.xml
    - mapred-queue-acls.xml
    - hadoop-policy.xml
    - mapred-site.xml
    - taskcontroller.cfg
    - configuration.xsl
    - ssl-client.xml.example
    - core-site.xml
  - singleNodeSwitch.sh
  - mapredConf
    - proxyjtnode
    - hdfs-site.xml
    - slaves
    - hadoop-metrics.properties
    - log4j.properties
    - corona.xml
    - hadoop-env.sh
    - ssl-server.xml.example
    - capacity-scheduler.xml
    - masters
    - mapred-queue-acls.xml
    - hadoop-policy.xml
    - mapred-site.xml
    - pools.xml
    - taskcontroller.cfg
    - configuration.xsl
    - ssl-client.xml.example
    - core-site.xml
- LICENSE
- lib
  - kfs-0.2.LICENSE.txt
  - slf4j-log4j12-1.6.1-hadoop.jar
  - emma
    - emma_ant.jar
  - kfs-0.2.2.jar
  - jsp-2.1
    - jsp-api-2.1.jar
  - hsqldb-1.8.0.10.LICENSE.txt
  - commons-codec-1.4.jar
  - slf4j-api-1.6.1-hadoop.jar
  - jdiff
- nativelib
  - lzma
    - lzma
      - lzma
        delta.h
        bcj.h
        base.h
        check.h
        filter.h
        stream_flags.h
        container.h
        version.h
        vli.h
        index_hash.h
        lzma.h
        index.h
        hardware.h
        block.h
      - lzma.h
- README.txt
- FB-CHANGES.txt
- ivy.xml
- README.md
- YAHOO-CHANGES.txt
- bin
  - hadoop-daemons.sh
  - start-multitasktracker.sh
  - start-avatar.sh
  - stop-raidnode-remote.sh
  - start-proxyjt.sh
  - stop-mapred.sh
  - slaves.sh
  - hadoop
  - stop-avatar.sh
  - start-mapred-single.sh
  - stop-all.sh
  - start-hmon.sh
  - start-mapred.sh
  - start-all.sh
  - stop-corona.sh
  - stop-tasktracker.sh
  - stop-raidnode.sh
  - start-proxyjt-remote.sh
  - start-balancer.sh
  - stop-mapred-single.sh
  - stop-multitasktracker.sh
  - rcc
  - start-corona.sh
  - hadoop-config.sh
  - stop-balancer.sh
  - hadoop-daemon.sh
  - stop-hmon-remote.sh
  - start-raidnode.sh
  - stop-dfs.sh
  - start-hmon-remote.sh
  - start-dfs.sh
  - extra-local-datanodes.sh
  - start-raidnode-remote.sh
  - stop-hmon.sh
- .arcconfig
- .gitignore
- LICENSE.txt
- conf
  - hdfs-site.xml.template
  - mapred-queue-acls.xml.template
  - hadoop-metrics.properties
  - log4j.properties
  - hadoop-env.sh
  - ssl-server.xml.example
  - mapred-site.xml.template
  - capacity-scheduler.xml.template
  - core-site.xml.template
  - slaves.template
  - hadoop-env.sh.template
  - taskcontroller.cfg
  - masters.template
  - hadoop-policy.xml.template
  - configuration.xsl
  - ssl-client.xml.example
- .project
- git-template.txt
- .classpath

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.hadoop.mapred.lib;

import java.io.IOException;
import java.io.DataOutputStream;
import java.io.OutputStream;
import java.util.ArrayList;
import java.util.BitSet;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Random;
import java.util.zip.GZIPOutputStream;

import junit.framework.TestCase;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.hdfs.MiniDFSCluster;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.hdfs.DFSTestUtil;
import org.apache.hadoop.hdfs.DistributedFileSystem;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.SequenceFile.CompressionType;
import org.apache.hadoop.fs.PathFilter;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.MiniMRCluster;

public class TestCombineFileInputFormat extends TestCase{

  private static final String rack1[] = new String[] {
    "/r1"
  };
  private static final String hosts1[] = new String[] {
    "host1.rack1.com"
  };
  private static final String rack2[] = new String[] {
    "/r2"
  };
  private static final String hosts2[] = new String[] {
    "host2.rack2.com"
  };
  private static final String rack3[] = new String[] {
    "/r3"
  };
  private static final String hosts3[] = new String[] {
    "host3.rack3.com"
  };
  private static final String rack4[] = new String[] {
    "/r4"
  };
  private static final String hosts4[] = new String[] {
    "host4.rack4.com"
  };
  final Path inDir = new Path("/racktesting");
  final Path outputPath = new Path("/output");
  final Path dir1 = new Path(inDir, "/dir1");
  final Path dir2 = new Path(inDir, "/dir2");
  final Path dir3 = new Path(inDir, "/dir3");
  final Path dir4 = new Path(inDir, "/dir4");
  final Path dir5 = new Path(inDir, "/dir5");
  final Path dir6 = new Path(inDir, "/dir6");

  static final int BLOCKSIZE = 1024;
  static final byte[] databuf = new byte[BLOCKSIZE];

  private static final Log LOG = LogFactory.getLog(TestCombineFileInputFormat.class);

  /** Dummy class to extend CombineFileInputFormat*/
  private class DummyInputFormat extends CombineFileInputFormat<Text, Text> {
    @Override
    public RecordReader<Text,Text> getRecordReader(InputSplit split, JobConf job
        , Reporter reporter) throws IOException {
      return null;
    }
  }

  /** Dummy class to extend CombineFileInputFormat. It allows
   * non-existent files to be passed into the CombineFileInputFormat, allows
   * for easy testing without having to create real files.
   */
  private class DummyInputFormat1 extends CombineFileInputFormat<Text, Text> {
    @Override
    public RecordReader<Text,Text> getRecordReader(InputSplit split, JobConf job
        , Reporter reporter) throws IOException {
      return null;
    }
    @Override
    protected LocatedFileStatus[] listLocatedStatus(JobConf job) throws IOException {
      Path[] files = getInputPaths(job);
      LocatedFileStatus[] results = new LocatedFileStatus[files.length];
      for (int i = 0; i < files.length; i++) {
        Path p = files[i];
        FileSystem fs = p.getFileSystem(job);
        FileStatus stat = fs.getFileStatus(p);
        if (stat.isDir()) {
          results[i] = new LocatedFileStatus(stat, null);
        } else {
          results[i] = new LocatedFileStatus(stat,
              fs.getFileBlockLocations(stat, 0, stat.getLen()));
        }
      }
      return results;
    }
  }

  /** Dummy class to extend CombineFileInputFormat. It allows
   * testing with files having missing blocks without actually removing replicas.
   */
  private static class MissingBlockInputFormat extends CombineFileInputFormat<Text, Text> {
    static String fileWithMissingBlocks;
    @Override
    public RecordReader<Text,Text> getRecordReader(InputSplit split, JobConf job
        , Reporter reporter) throws IOException {
      return null;
    }
    @Override
    protected LocatedFileStatus[] listLocatedStatus(JobConf job) throws IOException {
      Path[] dirs = getInputPaths(job);
      List<LocatedFileStatus> results = new ArrayList<LocatedFileStatus>();
      for (Path dir: dirs) {
        System.out.println("Processing " + dir);
        FileSystem fs = dir.getFileSystem(job);
        FileStatus stat = fs.getFileStatus(dir);
        if (stat.isDir()) {
          System.out.println("Directory " + dir);
          FileStatus[] files = fs.listStatus(dir);
          for (FileStatus file: files) {
            results.add(new LocatedFileStatus(file, getFileBlockLocations(fs, file)));
          }
        } else {
          results.add(new LocatedFileStatus(stat, getFileBlockLocations(fs, stat)));
        }
      }
      return results.toArray(new LocatedFileStatus[results.size()]);
    }

    BlockLocation[] getFileBlockLocations(FileSystem fs, FileStatus stat) throws IOException {
      if (stat.isDir()) {
        return null;
      }
      System.out.println("File " + stat.getPath());
      String name = stat.getPath().toUri().getPath();
      BlockLocation[] locs =
        fs.getFileBlockLocations(stat, 0, stat.getLen());
      if (name.equals(fileWithMissingBlocks)) {
        System.out.println("Returing missing blocks for " + fileWithMissingBlocks);
        locs[0] = new BlockLocation(new String[0], new String[0],
            locs[0].getOffset(), locs[0].getLength());
      }
      return locs;
    }
  }

  public void testSplitPlacement() throws IOException {
    String namenode = null;
    MiniDFSCluster dfs = null;
    MiniMRCluster mr = null;
    FileSystem fileSys = null;
    String testName = "TestSplitPlacement";
    try {
      /* Start 3 datanodes, one each in rack r1, r2, r3. Create five files
       * 1) file1 and file5, just after starting the datanode on r1, with
       *    a repl factor of 1, and,
       * 2) file2, just after starting the datanode on r2, with
       *    a repl factor of 2, and,
       * 3) file3, file4 after starting the all three datanodes, with a repl
       *    factor of 3.
       * At the end, file1, file5 will be present on only datanode1, file2 will
       * be present on datanode1 and datanode2 and
       * file3, file4 will be present on all datanodes.
       */
      JobConf conf = new JobConf();
      conf.setBoolean("dfs.replication.considerLoad", false);
      dfs = new MiniDFSCluster(conf, 1, true, rack1, hosts1);
      dfs.waitActive();

      namenode = (dfs.getFileSystem()).getUri().getHost() + ":" +
                 (dfs.getFileSystem()).getUri().getPort();

      fileSys = dfs.getFileSystem();
      if (!fileSys.mkdirs(inDir)) {
        throw new IOException("Mkdirs failed to create " + inDir.toString());
      }
      Path file1 = new Path(dir1 + "/file1");
      writeFile(conf, file1, (short)1, 1);

      // create another file on the same datanode
      Path file5 = new Path(dir5 + "/file5");
      writeFile(conf, file5, (short)1, 1);
      // split it using a CombinedFile input format
      DummyInputFormat inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir5);

      // retrieve file status in parallel
      conf.setInt("mapred.dfsclient.parallelism.max", 4);

      InputSplit[] splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test0): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test0): " + split);
      }
      assertEquals(splits.length, 1);
      CombineFileSplit fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      HashSet<String> expectedNames = new HashSet<String>();
      expectedNames.add(file1.getName());
      expectedNames.add(file5.getName());
      HashSet<String> actualNames = new HashSet<String>();
      for (Path p: fileSplit.getPaths()) {
        actualNames.add(p.getName());
      }
      // Check the names
      assertEquals(expectedNames, actualNames);
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(BLOCKSIZE, fileSplit.getLength(0));
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(BLOCKSIZE, fileSplit.getLength(1));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]);


      // cancel parallel liststatus since other tests require
      // deterministic lookup order
      conf.setInt("mapred.dfsclient.parallelism.max", 1);

      dfs.startDataNodes(conf, 1, true, null, rack2, hosts2, null);
      dfs.waitActive();

      // create file on two datanodes.
      Path file2 = new Path(dir2 + "/file2");
      writeFile(conf, file2, (short)2, 2);

      // split it using a CombinedFile input format
      inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir2);
      inFormat.setMinSplitSizeRack(BLOCKSIZE);
      splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test1): " + splits.length);

      // make sure that each split has different locations
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test1): " + fileSplit);
      }
      assertEquals(splits.length, 2);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file1.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");

      // create another file on 3 datanodes and 3 racks.
      dfs.startDataNodes(conf, 1, true, null, rack3, hosts3, null);
      dfs.waitActive();
      Path file3 = new Path(dir3 + "/file3");
      writeFile(conf, new Path(dir3 + "/file3"), (short)3, 3);
      inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3);
      inFormat.setMinSplitSizeRack(BLOCKSIZE);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test2): " + fileSplit);
      }
      assertEquals(splits.length, 3);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 3);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(2), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file1.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");

      // create file4 on all three racks
      Path file4 = new Path(dir4 + "/file4");
      writeFile(conf, file4, (short)3, 3);
      inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      inFormat.setMinSplitSizeRack(BLOCKSIZE);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test3): " + fileSplit);
      }
      assertEquals(splits.length, 3);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 6);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(2), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file1.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");

      // maximum split size is 2 blocks
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(BLOCKSIZE);
      inFormat.setMaxSplitSize(2*BLOCKSIZE);
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test4): " + fileSplit);
      }
      assertEquals(splits.length, 5);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(1), 0);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(0), BLOCKSIZE);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(1), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");

      // maximum split size is 3 blocks
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(BLOCKSIZE);
      inFormat.setMaxSplitSize(3*BLOCKSIZE);
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test5): " + fileSplit);
      }
      assertEquals(splits.length, 4);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 3);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(2), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getPath(0).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(2),  2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[3];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file1.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");

      // maximum split size is 4 blocks
      inFormat = new DummyInputFormat();
      inFormat.setMaxSplitSize(4*BLOCKSIZE);
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test6): " + fileSplit);
      }
      assertEquals(splits.length, 3);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 4);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file3.getName());
      assertEquals(fileSplit.getOffset(2), 2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 4);
      assertEquals(fileSplit.getPath(0).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);
      assertEquals(fileSplit.getPath(1).getName(), file2.getName());
      assertEquals(fileSplit.getOffset(1), BLOCKSIZE);
      assertEquals(fileSplit.getLength(1), BLOCKSIZE);
      assertEquals(fileSplit.getPath(2).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(2), BLOCKSIZE);
      assertEquals(fileSplit.getLength(2), BLOCKSIZE);
      assertEquals(fileSplit.getPath(3).getName(), file4.getName());
      assertEquals(fileSplit.getOffset(3),  2 * BLOCKSIZE);
      assertEquals(fileSplit.getLength(3), BLOCKSIZE);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getPath(0).getName(), file1.getName());
      assertEquals(fileSplit.getOffset(0), 0);
      assertEquals(fileSplit.getLength(0), BLOCKSIZE);

      // maximum split size is 7 blocks and min is 3 blocks
      inFormat = new DummyInputFormat();
      inFormat.setMaxSplitSize(7*BLOCKSIZE);
      inFormat.setMinSplitSizeNode(3*BLOCKSIZE);
      inFormat.setMinSplitSizeRack(3*BLOCKSIZE);
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test7): " + fileSplit);
      }
      assertEquals(splits.length, 2);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 6);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 3);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");

      // Rack 1 has file1, file2 and file3 and file4
      // Rack 2 has file2 and file3 and file4
      // Rack 3 has file3 and file4
      file1 = new Path(conf.getWorkingDirectory(), file1);
      file2 = new Path(conf.getWorkingDirectory(), file2);
      file3 = new Path(conf.getWorkingDirectory(), file3);
      file4 = new Path(conf.getWorkingDirectory(), file4);

      // setup a filter so that only file1 and file2 can be combined
      inFormat = new DummyInputFormat();
      inFormat.addInputPath(conf, inDir);
      inFormat.setMinSplitSizeRack(1); // everything is at least rack local
      inFormat.createPool(conf, new TestFilter(dir1),
                          new TestFilter(dir2));
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(TestPool1): " + fileSplit);
      }
      assertEquals(splits.length, 3);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(fileSplit.getNumPaths(), 2);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getLocations()[0], "host2.rack2.com");
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(fileSplit.getNumPaths(), 1);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getLocations()[0], "host1.rack1.com");
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(fileSplit.getNumPaths(), 6);
      assertEquals(fileSplit.getLocations().length, 1);
      assertEquals(fileSplit.getLocations()[0], "host3.rack3.com");

      // measure performance when there are multiple pools and
      // many files in each pool.
      int numPools = 100;
      int numFiles = 1000;
      DummyInputFormat1 inFormat1 = new DummyInputFormat1();
      for (int i = 0; i < numFiles; i++) {
        inFormat1.addInputPath(conf, inDir);
      }
      inFormat1.setMinSplitSizeRack(1); // everything is at least rack local
      final Path dirNoMatch1 = new Path(inDir, "/dirxx");
      final Path dirNoMatch2 = new Path(inDir, "/diryy");
      for (int i = 0; i < numPools; i++) {
        inFormat1.createPool(conf, new TestFilter(dirNoMatch1),
                            new TestFilter(dirNoMatch2));
      }
      long start = now();
      splits = inFormat1.getSplits(conf, 1);
      long end = now();
      System.out.println("Elapsed time for " + numPools + " pools " +
                         " and " + numFiles + " files is " +
                         ((end - start)/1000) + " seconds.");

      // This file has three whole blocks. If the maxsplit size is
      // half the block size, then there should be six splits.
      inFormat = new DummyInputFormat();
      inFormat.setMaxSplitSize(BLOCKSIZE/2);
      inFormat.setInputPaths(conf, dir3);
      splits = inFormat.getSplits(conf, 1);
      for (int i = 0; i < splits.length; ++i) {
        fileSplit = (CombineFileSplit) splits[i];
        System.out.println("File split(Test8): " + fileSplit);
      }
      assertEquals(6, splits.length);

    } finally {
      if (dfs != null) {
        dfs.shutdown();
      }
    }
  }

  public void testMissingBlocks() throws IOException {
    String namenode = null;
    MiniDFSCluster dfs = null;
    MiniMRCluster mr = null;
    FileSystem fileSys = null;
    String testName = "testMissingBlocks";
    try {
      /* Start 3 datanodes, one each in rack r1, r2, r3. Create five files
       * 1) file1 and file5, just after starting the datanode on r1, with
       *    a repl factor of 1, and,
       * 2) file2, just after starting the datanode on r2, with
       *    a repl factor of 2, and,
       * 3) file3, file4 after starting the all three datanodes, with a repl
       *    factor of 3.
       * At the end, file1, file5 will be present on only datanode1, file2 will
       * be present on datanode1 and datanode2 and
       * file3, file4 will be present on all datanodes.
       */
      JobConf conf = new JobConf();
      conf.setBoolean("dfs.replication.considerLoad", false);
      dfs = new MiniDFSCluster(conf, 1, true, rack1, hosts1);
      dfs.waitActive();

      namenode = (dfs.getFileSystem()).getUri().getHost() + ":" +
                 (dfs.getFileSystem()).getUri().getPort();

      fileSys = dfs.getFileSystem();
      if (!fileSys.mkdirs(inDir)) {
        throw new IOException("Mkdirs failed to create " + inDir.toString());
      }
      Path file1 = new Path(dir1 + "/file1");
      MissingBlockInputFormat.fileWithMissingBlocks = file1.toUri().getPath();
      writeFile(conf, file1, (short)1, 1);

      // create another file on the same datanode
      Path file5 = new Path(dir5 + "/file5");
      writeFile(conf, file5, (short)1, 1);
      // split it using a CombinedFile input format
      MissingBlockInputFormat inFormat = new MissingBlockInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir5);

      // retrieve file status in parallel
      conf.setInt("mapred.dfsclient.parallelism.max", 4);

      InputSplit[] splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test0): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test0): " + split);
      }
      assertEquals(1, splits.length);
      CombineFileSplit fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(BLOCKSIZE, fileSplit.getLength(0));
      assertEquals(file5.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(BLOCKSIZE, fileSplit.getLength(1));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]);

    } finally {
      if (dfs != null) {
        dfs.shutdown();
      }
    }
  }

  public void testMaxBlocksPerSplit() throws IOException {
    MiniDFSCluster dfs = null;
    FileSystem fileSys = null;
    try {
      /* Create 5 files, with a maximum number of blocks per split of 2,
       * which should create 3 splits (last one only has 1 node).
       */
      JobConf conf = new JobConf();

      dfs = new MiniDFSCluster(conf, 1, true, rack4, hosts4);
      dfs.waitActive();

      fileSys = dfs.getFileSystem();
      if (!fileSys.mkdirs(inDir)) {
        throw new IOException("Mkdirs failed to create " + inDir.toString());
      }

      // Create the nodes
      Path file = null;
      for (int i=0; i<5 ; i++) {
        file = new Path(dir6 + "/file" + i);
        writeFile(conf, file, (short)1, 1);
      }

      // Run test with default maxNumBlocksPerSplit (256)
      MissingBlockInputFormat inFormat = new MissingBlockInputFormat();
      inFormat.setInputPaths(conf, dir6);
      InputSplit[] splits = inFormat.getSplits(conf, 1);

      assertEquals(1, splits.length);

      // Run test with maxNumBlocksPerSplit of 0 (ignores option)
      conf.setLong("mapred.max.num.blocks.per.split", 0);

      MissingBlockInputFormat inFormat2 = new MissingBlockInputFormat();
      inFormat2.setInputPaths(conf, dir6);
      InputSplit[] splits2 = inFormat2.getSplits(conf, 1);

      assertEquals(1, splits2.length);

      // Run test with custom maxNumBlocksPerSplit of 2
      conf.setLong("mapred.max.num.blocks.per.split", 2);

      MissingBlockInputFormat inFormat3 = new MissingBlockInputFormat();
      inFormat3.setInputPaths(conf, dir6);
      InputSplit[] splits3 = inFormat3.getSplits(conf, 1);

      assertEquals(3, splits3.length);

    } finally {
      if (dfs != null) {
        dfs.shutdown();
      }

    }
  }

  /**
   * Current system time.
   * @return current time in msec.
   */
  static long now() {
    return System.currentTimeMillis();
  }

  static void writeFile(Configuration conf, Path name,
      short replication, int numBlocks) throws IOException {
    FileSystem fileSys = FileSystem.get(conf);

    FSDataOutputStream stm = fileSys.create(name, true,
                                            conf.getInt("io.file.buffer.size", 4096),
                                            replication, (long)BLOCKSIZE);
    for (int i = 0; i < numBlocks; i++) {
      stm.write(databuf);
    }
    stm.close();
    DFSTestUtil.waitReplication(fileSys, name, replication);
  }

  // Creates the gzip file and return the FileStatus
  static FileStatus writeGzipFile(Configuration conf, Path name,
      short replication, int numBlocks) throws IOException {
    FileSystem fileSys = FileSystem.get(conf);

    GZIPOutputStream out = new GZIPOutputStream(fileSys.create(name, true, conf
        .getInt("io.file.buffer.size", 4096), replication, (long) BLOCKSIZE));
    writeDataAndSetReplication(fileSys, name, out, replication, numBlocks);
    return fileSys.getFileStatus(name);
  }

  private static void writeDataAndSetReplication(FileSystem fileSys, Path name,
      OutputStream out, short replication, int numBlocks) throws IOException {
    for (int i = 0; i < numBlocks; i++) {
      out.write(databuf);
    }
    out.close();
    DFSTestUtil.waitReplication(fileSys, name, replication);
  }

  public void testSplitPlacementForCompressedFiles() throws IOException {
    MiniDFSCluster dfs = null;
    FileSystem fileSys = null;
    try {
      /* Start 3 datanodes, one each in rack r1, r2, r3. Create five gzipped
       *  files
       * 1) file1 and file5, just after starting the datanode on r1, with
       *    a repl factor of 1, and,
       * 2) file2, just after starting the datanode on r2, with
       *    a repl factor of 2, and,
       * 3) file3, file4 after starting the all three datanodes, with a repl
       *    factor of 3.
       * At the end, file1, file5 will be present on only datanode1, file2 will
       * be present on datanode 1 and datanode2 and
       * file3, file4 will be present on all datanodes.
       */
      JobConf conf = new JobConf();
      conf.setBoolean("dfs.replication.considerLoad", false);
      dfs = new MiniDFSCluster(conf, 1, true, rack1, hosts1);
      dfs.waitActive();

      fileSys = dfs.getFileSystem();
      if (!fileSys.mkdirs(inDir)) {
        throw new IOException("Mkdirs failed to create " + inDir.toString());
      }
      Path file1 = new Path(dir1 + "/file1.gz");
      FileStatus f1 = writeGzipFile(conf, file1, (short)1, 1);
      // create another file on the same datanode
      Path file5 = new Path(dir5 + "/file5.gz");
      FileStatus f5 = writeGzipFile(conf, file5, (short)1, 1);
      // split it using a CombinedFile input format
      DummyInputFormat inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir5);
      InputSplit[] splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test0): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test0): " + split);
      }
      assertEquals(splits.length, 1);
      CombineFileSplit fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));
      assertEquals(file5.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(f5.getLen(), fileSplit.getLength(1));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]);

      dfs.startDataNodes(conf, 1, true, null, rack2, hosts2, null);
      dfs.waitActive();

      // create file on two datanodes.
      Path file2 = new Path(dir2 + "/file2.gz");
      FileStatus f2 = writeGzipFile(conf, file2, (short)2, 2);

      // split it using a CombinedFile input format
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeRack(f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2);
      splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test1): " + splits.length);

      // make sure that each split has different locations
      for (InputSplit split : splits) {
        System.out.println("File split(Test1): " + split);
      }
      assertEquals(2, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      assertEquals(hosts2[0], fileSplit.getLocations()[0]); // should be on r2
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1

      // create another file on 3 datanodes and 3 racks.
      dfs.startDataNodes(conf, 1, true, null, rack3, hosts3, null);
      dfs.waitActive();
      Path file3 = new Path(dir3 + "/file3.gz");
      FileStatus f3 = writeGzipFile(conf, file3, (short)3, 3);
      inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3);
      inFormat.setMinSplitSizeRack(f1.getLen());
      splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test2): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test2): " + split);
      }
      assertEquals(3, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file3.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f3.getLen(), fileSplit.getLength(0));
      assertEquals(hosts3[0], fileSplit.getLocations()[0]); // should be on r3
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      assertEquals(hosts2[0], fileSplit.getLocations()[0]); // should be on r2
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1

      // create file4 on all three racks
      Path file4 = new Path(dir4 + "/file4.gz");
      FileStatus f4 = writeGzipFile(conf, file4, (short)3, 3);
      inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      inFormat.setMinSplitSizeRack(f1.getLen());
      splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test3): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test3): " + split);
      }
      assertEquals(3, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file3.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f3.getLen(), fileSplit.getLength(0));
      assertEquals(file4.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(f4.getLen(), fileSplit.getLength(1));
      assertEquals(hosts3[0], fileSplit.getLocations()[0]); // should be on r3
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      assertEquals(hosts2[0], fileSplit.getLocations()[0]); // should be on r2
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1

      // maximum split size is file1's length
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(f1.getLen());
      inFormat.setMaxSplitSize(f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      System.out.println("Made splits(Test3): " + splits.length);
      for (InputSplit split : splits) {
        System.out.println("File split(Test4): " + split);
      }
      assertEquals(4, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(3, fileSplit.getLocations().length);
      assertEquals(file3.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f3.getLen(), fileSplit.getLength(0));
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(file4.getName(), fileSplit.getPath(0).getName());
      assertEquals(3, fileSplit.getLocations().length);
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f4.getLen(), fileSplit.getLength(0));
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(2, fileSplit.getLocations().length);
      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      fileSplit = (CombineFileSplit) splits[3];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));

      // maximum split size is twice file1's length
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(f1.getLen());
      inFormat.setMaxSplitSize(2 * f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (InputSplit split : splits) {
        System.out.println("File split(Test5): " + split);
      }
      assertEquals(3, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file3.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f3.getLen(), fileSplit.getLength(0));
      assertEquals(file4.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(f4.getLen(), fileSplit.getLength(1));
      assertEquals(hosts3[0], fileSplit.getLocations()[0]);
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      assertEquals(hosts2[0], fileSplit.getLocations()[0]); // should be on r2
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file1.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f1.getLen(), fileSplit.getLength(0));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1

      // maximum split size is 4 times file1's length
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(2 * f1.getLen());
      inFormat.setMaxSplitSize(4 * f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (InputSplit split : splits) {
        System.out.println("File split(Test6): " + split);
      }
      assertEquals(2, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(file3.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(0));
      assertEquals(f3.getLen(), fileSplit.getLength(0));
      assertEquals(file4.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(f4.getLen(), fileSplit.getLength(1));
      assertEquals(hosts3[0], fileSplit.getLocations()[0]);
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(2, fileSplit.getNumPaths());

      assertEquals(file2.getName(), fileSplit.getPath(0).getName());
      assertEquals(0, fileSplit.getOffset(1));
      assertEquals(f1.getLen(), fileSplit.getLength(1));
      assertEquals(file1.getName(), fileSplit.getPath(1).getName());
      assertEquals(0, fileSplit.getOffset(0), BLOCKSIZE);
      assertEquals(f2.getLen(), fileSplit.getLength(0));
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1

      // maximum split size and min-split-size per rack is 4 times file1's length
      inFormat = new DummyInputFormat();
      inFormat.setMaxSplitSize(4 * f1.getLen());
      inFormat.setMinSplitSizeRack(4 * f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (InputSplit split : splits) {
        System.out.println("File split(Test7): " + split);
      }
      assertEquals(1, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(4, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(hosts1[0], fileSplit.getLocations()[0]);

      // minimum split size per node is 4 times file1's length
      inFormat = new DummyInputFormat();
      inFormat.setMinSplitSizeNode(4 * f1.getLen());
      inFormat.setInputPaths(conf, dir1 + "," + dir2 + "," + dir3 + "," + dir4);
      splits = inFormat.getSplits(conf, 1);
      for (InputSplit split : splits) {
        System.out.println("File split(Test8): " + split);
      }
      assertEquals(1, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(4, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(hosts1[0], fileSplit.getLocations()[0]);

      // Rack 1 has file1, file2 and file3 and file4
      // Rack 2 has file2 and file3 and file4
      // Rack 3 has file3 and file4
      // setup a filter so that only file1 and file2 can be combined
      inFormat = new DummyInputFormat();
      inFormat.addInputPath(conf, inDir);
      inFormat.setMinSplitSizeRack(1); // everything is at least rack local
      inFormat.createPool(conf, new TestFilter(dir1),
          new TestFilter(dir2));
      splits = inFormat.getSplits(conf, 1);
      for (InputSplit split : splits) {
        System.out.println("File split(Test9): " + split);
      }
      assertEquals(3, splits.length);
      fileSplit = (CombineFileSplit) splits[0];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(hosts2[0], fileSplit.getLocations()[0]); // should be on r2
      fileSplit = (CombineFileSplit) splits[1];
      assertEquals(1, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(hosts1[0], fileSplit.getLocations()[0]); // should be on r1
      fileSplit = (CombineFileSplit) splits[2];
      assertEquals(2, fileSplit.getNumPaths());
      assertEquals(1, fileSplit.getLocations().length);
      assertEquals(hosts3[0], fileSplit.getLocations()[0]); // should be on r3

    } finally {
      if (dfs != null) {
        dfs.shutdown();
      }
    }
  }

  public void testMultipleGetSplits() throws IOException {
    MiniDFSCluster dfs = null;
    FileSystem fileSys = null;
    try {
      /* Start 3 datanodes, one each in rack r1, r2, r3. Create five gzipped
       *  files
       * 1) file1 and file5, just after starting the datanode on r1, with
       *    a repl factor of 1, and,
       * 2) file2, just after starting the datanode on r2, with
       *    a repl factor of 2, and,
       * 3) file3, file4 after starting the all three datanodes, with a repl
       *    factor of 3.
       * At the end, file1, file5 will be present on only datanode1, file2 will
       * be present on datanode 1 and datanode2 and
       * file3, file4 will be present on all datanodes.
       */
      JobConf conf = new JobConf();
      conf.setBoolean("dfs.replication.considerLoad", false);
      dfs = new MiniDFSCluster(conf, 1, true, rack1, hosts1);
      dfs.waitActive();

      fileSys = dfs.getFileSystem();
      if (!fileSys.mkdirs(inDir)) {
        throw new IOException("Mkdirs failed to create " + inDir.toString());
      }
      Path file1 = new Path(dir1 + "/file1.gz");
      FileStatus f1 = writeGzipFile(conf, file1, (short)1, 1);
      // create another file on the same datanode
      Path file5 = new Path(dir5 + "/file5.gz");
      FileStatus f5 = writeGzipFile(conf, file5, (short)1, 1);
      // split it using a CombinedFile input format
      DummyInputFormat inFormat = new DummyInputFormat();
      inFormat.setInputPaths(conf, dir1 + "," + dir5);
      for (int i = 0; i < 2; ++i) {
        InputSplit[] splits = inFormat.getSplits(conf, 1);
        System.out.println("Made splits(Test0): " + splits.length);
        for (InputSplit split : splits) {
          System.out.println("File split(Test0): " + split);
        }
        assertTrue(inFormat.isTypeStatsValid());
        assertEquals(splits.length, 1);
        CombineFileSplit fileSplit = (CombineFileSplit) splits[0];
        assertEquals(2, fileSplit.getNumPaths());
        assertEquals(1, fileSplit.getLocations().length);
        assertEquals(file1.getName(), fileSplit.getPath(0).getName());
        assertEquals(0, fileSplit.getOffset(0));
        assertEquals(f1.getLen(), fileSplit.getLength(0));
        assertEquals(file5.getName(), fileSplit.getPath(1).getName());
        assertEquals(0, fileSplit.getOffset(1));
        assertEquals(f5.getLen(), fileSplit.getLength(1));
        assertEquals(hosts1[0], fileSplit.getLocations()[0]);
      }
    } finally {
      if (dfs != null) {
        dfs.shutdown();
      }
    }
  }

  static class TestFilter implements PathFilter {
    private Path p;

    // store a path prefix in this TestFilter
    public TestFilter(Path p) {
      this.p = p;
    }

    // returns true if the specified path matches the prefix stored
    // in this TestFilter.
    public boolean accept(Path path) {
      if (path.toUri().getPath().indexOf(p.toString()) == 0) {
        return true;
      }
      return false;
    }

    public String toString() {
      return "PathFilter:" + p;
    }
  }

  /*
   * Prints out the input splits for the specified files
   */
  private void splitRealFiles(String[] args) throws IOException {
    JobConf conf = new JobConf();
    FileSystem fs = FileSystem.get(conf);
    if (!(fs instanceof DistributedFileSystem)) {
      throw new IOException("Wrong file system: " + fs.getClass().getName());
    }
    int blockSize = conf.getInt("dfs.block.size", 128 * 1024 * 1024);

    DummyInputFormat inFormat = new DummyInputFormat();
    for (int i = 0; i < args.length; i++) {
      inFormat.addInputPaths(conf, args[i]);
    }
    inFormat.setMinSplitSizeRack(blockSize);
    inFormat.setMaxSplitSize(10 * blockSize);

    InputSplit[] splits = inFormat.getSplits(conf, 1);
    System.out.println("Total number of splits " + splits.length);
    for (int i = 0; i < splits.length; ++i) {
      CombineFileSplit fileSplit = (CombineFileSplit) splits[i];
      System.out.println("Split[" + i + "] " + fileSplit);
    }
  }

  public static void main(String[] args) throws Exception{

    // if there are some parameters specified, then use those paths
    if (args.length != 0) {
      TestCombineFileInputFormat test = new TestCombineFileInputFormat();
      test.splitRealFiles(args);
    } else {
      TestCombineFileInputFormat test = new TestCombineFileInputFormat();
      test.testSplitPlacement();
    }
  }
}