java source code of MultithreadedZipContentLoader

marklogic-contentpump-master
- pom.xml
- CONTRIBUTING.md
- README.md
- mlcp
  - src
    - main
      - winutils.exe
      - resources
        mlcp-version-info.properties
      - mlcp.sh
      - java
        com
        marklogic
        contentpump
        DocumentMetadata.java
        DocumentMapper.java
        SequenceFileInputFormat.java
        RDFWritable.java
        DelimitedJSONInputFormat.java
        CombineDocumentSplit.java
        AggregateXMLReader.java
        BaseMapper.java
        CompressedDelimitedJSONInputFormat.java
        CompressedAggXMLReader.java
        DelimitedTextInputFormat.java
        CompressedRDFInputFormat.java
        ExportOutputType.java
        DocumentPathFilter.java
        CompressedDocumentInputFormat.java
        ContentWithFileNameWritable.java
        LocalJob.java
        RDFReader.java
        ArchiveOutputFormat.java
        ArchiveWriter.java
        Versions.java
        FileAndDirectoryInputFormat.java
        ConfigConstants.java
        ColumnDataType.java
        examples
        SimpleSequenceFileValue.java
        SimpleSequenceFileCreator.java
        SimpleSequenceFileReader.java
        SimpleSequenceFileKey.java
        ContentPumpReporter.java
        SequenceFileKey.java
        RDFInputFormat.java
        InputType.java
        SplitDelimitedTextReader.java
        ContentPump.java
        DatabaseContentReader.java
        test
        SimpleSequenceFileBytesCreator.java
        SimpleSequenceFileLargeBinaryCreator.java
        SimpleSequenceFileCompressCreator.java
        GzipDelimitedJSONReader.java
        CompressedDocumentReader.java
        StreamingDocumentReader.java
        ImportRecordReader.java
        MultithreadedMapper.java
        DatabaseDocumentWithMeta.java
        CompressedDelimitedTextInputFormat.java
        SequenceFileValue.java
        StreamingDocumentInputFormat.java
        AggregateXMLInputFormat.java
        DatabaseContentOutputFormat.java
        Command.java
        CompressedDelimitedTextReader.java
        LocalJobRunner.java
        CombineDocumentReader.java
        ArchiveInputFormat.java
        SingleDocumentWriter.java
        ZipDelimitedJSONReader.java
        SequenceFileValueType.java
        SingleDocumentOutputFormat.java
        CompressedRDFReader.java
        DatabaseTransformWriter.java
        CompressedStreamingReader.java
        DatabaseContentWriter.java
        OutputArchive.java
        DatabaseContentInputFormat.java
        CompressedAggXMLInputFormat.java
        DatabaseTransformOutputFormat.java
        DocumentInputFormat.java
        SequenceFileReader.java
        DelimitedTextReader.java
        TransformWriter.java
        TransformOutputFormat.java
        CombineDocumentInputFormat.java
        utilities
        ReflectionUtil.java
        EncodingUtil.java
        JSONDocBuilder.java
        CommandlineOptions.java
        DocBuilder.java
        FileIterator.java
        CSVParserFormatter.java
        AuditUtil.java
        XMLDocBuilder.java
        DelimitedSplit.java
        XMLUtil.java
        ZipInputStream.java
        OptionsFileUtil.java
        PermissionUtil.java
        IdGenerator.java
        CommandlineOption.java
        ArchiveRecordReader.java
        DelimitedJSONReader.java
      - hadoop.dll
      - mlcp.bat
    - test
      - bootstrap
        createAxis.sjs
        createIndex.sjs
      - resources
        zips
        json-forest
        Forests
        Documents
        Label_1
        Label
        00000000
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        Frequencies
        Label
        4c8c228348a3b60d-string
        ListIndex
        TreeIndex
        4c8c228348a3b60d-string-
        AtomIndex
        StringIndex
        keys
        TestImportDelimitedText#testImportDelimitedTextInvalidType.txt
        TestImportAggregate#testImportAggZip.txt
        TestImportDelimitedJson#testImportDelimitedJSONZipDir.txt
        TestImportText#testImportDocsZipUTF16BE.txt
        TestImportText#testImportMixedUTF8.txt
        TestImportDelimitedJson#testImportDelimitedJsonGZipFnCollection.txt
        TestImportDelimitedJson#testImportDelimitedJsonZipFnCollection2.txt
        TestImportDelimitedText#testImportDelimitedTextDocJSONWithOptions.txt
        TestImportDelimitedJson#testImportDelimitedJsonZipFnCollection1.txt
        TestImportDelimitedText#testImportTransformDelimitedTextZip.txt
        TestImportDelimitedText#testImportDelimitedTextZip.txt
        TestImportDelimitedJson#testImportDelimitedJson.txt
        TestImportDelimitedText#testImportDelimitedTextHardZip.txt
        TestImportDelimitedText#testImportDelimitedGenerateId.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16BE.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16LEZip.txt
        TestImportText#testImportMixedUTF16LE.txt
        TestImportDelimitedText#testImportDelimitedTextElemNames.txt
        TestImportDelimitedText#testImportDelimitedTextZipGenId.txt
        TestImportText#testImportTextUTF16LE.txt
        TestImportDelimitedJson#testImportDelimitedJsonDir.txt
        TestImportDelimitedJson#testImportDelimitedJSONArray.txt
        TestImportText#testImportTxtUTF8.txt
        TestImportDelimitedText#testImportDelimitedTextJSONDataType.txt
        TestImportDelimitedText#testImportDelimitedText.txt
        TestImportDelimitedText#testImportDelimitedTextElemNamesSplit.txt
        TestImportText#testImportMixedTxtUTF16LE.txt
        TestImportText#testImportSequenceFile.txt
        TestImportDelimitedText#testImportDelimitedTextHard.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16LE.txt
        semantics.nt
        csv
        sample3.csv.bad
        sample.csv
        2.tpch
        sample4.txt
        1.tab
        sample2.csv
        1.pipe
        1.input
        sample3.csv.hard
        sample1.quote.csv
        1.tpch
        sample.quote.csv
        sample3.csv.ename
        one-many.xqy
        delimitedJson
        sample1.txt
        testUri2
        sample2.txt
        zip
        gzip
        testUri.gz
        sample.gz
        testUri.txt
        mixZip
        c-semantics.rdf.gz
        medlinezip
        createCollection.txt
        c-semantics.nq.gz
        34887
        semantics.short.nq
        delimitedText
        42027.csv
        39564.csv
        44422.csv
        44422JP.csv
        archive
        38160
        dummy-trans.xqy
        lc.xqy
        ab.gz
        agg
        31691.xml
        agg2.xml.gz
        lei.xml
        agg3.xml
        medline04.small.utf16.xml
        agg3-test2.xml
        24908.xml
        agg3-test.xml
        agg5.xml
        medline04.small.xml
        agg4.xml
        escapequote.xml
        bad.xml
        agg3-test1.xml
        agg3.test3.xml
        21045.xml
        agg1.xml.gz
        semantics.trig
        agg1gz.xml.gz
        semantics.json
        semantics.ttl
        RDFAddNode.xqy
        c-semantics.rdf.gz
        temporal
        temporal.xml
        35949.zip.REMOVED.git-id
        semantics-2013.nt
        livesIn.ttl
        mixnakedzip
        seqfile
        file5.seq
        foo.0
        semantics.rdf
        json
        example.json
        NBDC_sample.ttl
        bug24420.ttl
        encoding
        ML-utf-16be.enc
        ML-utf-16le.txt
        samplecsv.utf16be.csv
        ML-utf-8.enc
        ML-utf-8.txt
        ML-utf-16le.enc
        medline04.small.iso-8859-1.xml
        ML-ISO-8859-1.enc
        samplecsv.utf16le.csv
        trans.xqy
        semanticszip
        20059
        twitter_1332448843475.xml
        twitter_1332448843475.xml.metadata
        wiki
        AfghanistanGeography
        AfroAsiaticLanguages
        Alabama
        ArtificalLanguages
        AlbaniaPeople
        AustroAsiaticLanguages
        AnarchoCapitalism
        AustriaLanguage
        AbbadideS
        AndorrA.xml
        Asymmetric Algorithms
        AsciiArt
        ActressesS
        AfghanistanTransportations
        AbeceDarians
        AbensbergGermany
        AbacuS.xml
        AfghanistanPeople
        AlexanderTheGreat
        AnarchoCapitalists
        AcademyAwards
        Abraham Lincoln
        AssistiveTechnology
        AppliedStatistics
        ActresseS
        AdolfHitler
        ArgumentForms
        ArgumentsForTheExistenceOfGod
        Allan Dwan
        Academy Award
        AfghanistanHistory
        AnnaKournikova
        AberdeenSouthDakota
        Austria
        AutoRacing
        AbalonE.html
        ActionFilm
        Achilles
        AfricanAmericanPeople
        ArthurKoestler
        Animalia (book)
        Actrius
        Aristotle
        Agricultural science
        Autism
        AfghanistanMilitary
        AfghanistanCommunications
        List of characters in Atlas Shrugged
        AbeL
        AndreAgassi
        Alain Connes
        AfricA
        International Atomic Time
        AnAmericanInParis
        AsWeMayThink
        AnarchY
        AyersMusicPublishingCompany
        Altruism
        An American in Paris
        AccessibleComputing
        AtlasShrugged
        Air Transport
        AlbaniaHistory
        Alchemy
        Anarchism
        Alien.txt
        AmoeboidTaxa
        AfghanistanTransnationalIssues
        AynRand
        AutoMorphism
        AmericA
        Abbreviations
        AmericanFootball
        AlbaniaGovernment
        Topics of note in Atlas Shrugged
        AbbesS
        AlbaniaEconomy
        AtlasShruggedCompanies
        Ayn Rand
        Academy Award for Best Art Direction
        AbbeY
        AbbevilleFrance
        Anthropology
        AbboT
        AxiomOfChoice
        AcademicElitism
        AtlasShruggedCharacters
        Action Film
        Albedo
        AllSaints
        ArtificialLanguages
        AnchorageAlaska
      - README
      - java
        com
        marklogic
        contentpump
        TestImportDelimitedJson.java
        TestDistributedImportAggregate.java
        TestConcurrentJobs.java
        TestImportDelimitedText.java
        Utils.java
        TestImportDocs.java
        TestExport.java
        TestCompressedRDF.java
        TestImportArchive.java
        Constants.java
        TestReturnCode.java
        TestImportAggregate.java
        TestDistributedImportDelimitedText.java
        TestImportSequenceFile.java
        TestRDF.java
        TestCopy.java
        TestDistributedExport.java
        TestEDSeparation.java
        TestDistributedImportDocs.java
        TestImportBigData.java
    - lib
      - commons-csv-1.5-marklogic.jar
      - native
        libhadoop.so
      - mapr.conf
    - assemble
      - bindist-mapr.xml
      - srcdist.xml
      - testdist.xml
      - bindist.xml
    - conf
      - test.properties
      - xcc.logging.properties
      - log4j.properties
  - pom.xml
  - .gitignore
- mapreduce
  - src
    - main
      - resources
        sample-data
        AfghanistanGeography
        AfroAsiaticLanguages
        Alabama
        ArtificalLanguages
        AlbaniaPeople
        AustroAsiaticLanguages
        AnarchoCapitalism
        AustriaLanguage
        AbbadideS
        Asymmetric Algorithms
        AsciiArt
        ActressesS
        AfghanistanTransportations
        AbeceDarians
        AbensbergGermany
        AfghanistanPeople
        AlexanderTheGreat
        AnarchoCapitalists
        AcademyAwards
        Abraham Lincoln
        AssistiveTechnology
        AppliedStatistics
        ActresseS
        A
        AdolfHitler
        ArgumentForms
        ArgumentsForTheExistenceOfGod
        Allan Dwan
        AbalonE
        Academy Award
        AfghanistanHistory
        AnnaKournikova
        AberdeenSouthDakota
        Austria
        AutoRacing
        AbacuS
        ActionFilm
        Achilles
        AfricanAmericanPeople
        ArthurKoestler
        Animalia (book)
        Actrius
        Aristotle
        Agricultural science
        Autism
        AfghanistanMilitary
        AfghanistanCommunications
        AndorrA
        List of characters in Atlas Shrugged
        AbeL
        AndreAgassi
        Alain Connes
        AfricA
        International Atomic Time
        AnAmericanInParis
        AsWeMayThink
        AnarchY
        AyersMusicPublishingCompany
        Altruism
        An American in Paris
        AccessibleComputing
        AtlasShrugged
        Air Transport
        AlbaniaHistory
        Alchemy
        Anarchism
        AmoeboidTaxa
        AfghanistanTransnationalIssues
        AynRand
        AutoMorphism
        AmericA
        Abbreviations
        AmericanFootball
        AlbaniaGovernment
        Topics of note in Atlas Shrugged
        AbbesS
        AlbaniaEconomy
        AtlasShruggedCompanies
        Ayn Rand
        Academy Award for Best Art Direction
        AbbeY
        AbbevilleFrance
        Anthropology
        AbboT
        AxiomOfChoice
        Alien
        AcademicElitism
        AtlasShruggedCharacters
        Action Film
        Albedo
        AllSaints
        ArtificialLanguages
        AnchorageAlaska
      - java
        doc-files
        overview.html
        com
        marklogic
        dom
        DocumentImpl.java
        CharacterDataImpl.java
        DocumentTypeImpl.java
        TextImpl.java
        ProcessingInstructionImpl.java
        AttrImpl.java
        package-info.java
        ElementImpl.java
        CommentImpl.java
        AttributeNodeMapImpl.java
        NodeListImpl.java
        NodeImpl.java
        io
        Decoder.java
        BiendianDataInputStream.java
        tree
        NodeKind.java
        ExpandedTree.java
        CompressedTreeDecoder.java
        Capability.java
        mapreduce
        BinaryDocument.java
        NodeOutputFormat.java
        PropertyOpType.java
        ForestInputFormat.java
        MarkLogicOutputFormat.java
        DocumentReader.java
        ZipEntryInputStream.java
        functions
        ElementValues.java
        ElementWords.java
        FieldWordMatch.java
        ElementAttributeWords.java
        Uris.java
        ElementWordMatch.java
        Collections.java
        CollectionMatch.java
        LexiconFunction.java
        FieldValueCooccurrences.java
        FieldValues.java
        FieldWords.java
        ElementAttributeValues.java
        Words.java
        Values.java
        UriMatch.java
        ElementAttributeWordMatch.java
        Reference.java
        ElementAttributeValueMatch.java
        package-info.java
        ValueMatch.java
        ValuesOrWordsFunction.java
        ElemAttrValueCooccurrences.java
        WordMatch.java
        FieldValueMatch.java
        ValueOrWordMatchFunction.java
        PathReference.java
        ElemValueCooccurrences.java
        CooccurrencesFunction.java
        ValueCooccurrences.java
        ElementValueMatch.java
        PropertyOutputFormat.java
        MarkLogicDocument.java
        DatabaseDocument.java
        NodeOpType.java
        Indentation.java
        examples
        ZipContentLoader.java
        ContentReader.java
        LinkCountCooccurrences.java
        LinkCountValue.java
        BinaryReader.java
        ContentLoader.java
        package-info.java
        LinkCountInProperty.java
        LinkCountInDoc.java
        WikiLoader.java
        HelloWorld.java
        LinkCount.java
        LinkCountHDFS.java
        RevisionGrouper.java
        KeyValueWriter.java
        RegularBinaryDocument.java
        ForestDocument.java
        ContentType.java
        MarkLogicCounter.java
        CustomContent.java
        MarkLogicInputFormat.java
        test
        ElemValueCooccurrencesTest.java
        ValuesTest.java
        Test20772.java
        MapTreeReduceTreeJSON.java
        ElementValueMatchTest.java
        CustomQuery.java
        ElemAttrValueCooccurrencesTest.java
        WordsTest.java
        MapTreeReduceTree.java
        ValueMatchTest.java
        ElementAttributeValuesTest.java
        ElementValuesTest.java
        MultithreadedZipContentLoader.java
        FCheck.java
        ValueCooccurrencesTest.java
        BinaryLoader.java
        MarkLogicInputSplit.java
        ValueInputFormat.java
        CompressionCodec.java
        LargeBinaryDocument.java
        DOMDocument.java
        LinkedMapWritable.java
        package-info.java
        DocumentURIWithSourceInfo.java
        MarkLogicRecordWriter.java
        ContentWriter.java
        JSONDocument.java
        ValueReader.java
        NodeInputFormat.java
        SslConfigOptions.java
        MarkLogicRecordReader.java
        StreamLocator.java
        NodeWriter.java
        ForestReader.java
        NodePath.java
        NodeReader.java
        KeyValueOutputFormat.java
        KeyValueReader.java
        DocumentInputFormat.java
        InternalConstants.java
        MarkLogicConstants.java
        utilities
        AssignmentPolicy.java
        ForestHost.java
        SegmentAssignmentPolicy.java
        InternalUtilities.java
        ForestInfo.java
        AssignmentManager.java
        QueryAssignmentPolicy.java
        RestrictedHostsUtil.java
        RangeAssignmentPolicy.java
        StatisticalAssignmentPolicy.java
        LegacyAssignmentPolicy.java
        URIUtil.java
        TextArrayWritable.java
        BucketAssignmentPolicy.java
        PropertyWriter.java
        MarkLogicNode.java
        ContentOutputFormat.java
        KeyValueInputFormat.java
        DocumentURI.java
        stylesheet.css
    - test
      - resources
        CustomQuery
        marklogic-qryin-qryout.xml
        ns-prefix
        xmlschemata4.xml
        ns2.xml
        attr2.xml
        list.xml
        ns10.xml
        ns5.xml
        ns7.xml
        xmlschemata3.xml
        attr1.xml
        ns9.xml
        ns6.xml
        ns1.xml
        html1.xml
        ns-prefix-forest
        Label_1
        Label
        00000001
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
        ns8.xml
        ns4.xml
        attr4.xml
        ns3.xml
        xmlschemata2.xml
        attr3.xml
        diff-prefix-same-ns.xml
        ns11.xml
        xmlschemata1.xml
        same-prefix-diff-ns.xml
        dom-core-test
        barfoo.xml
        canonicalform01.xml
        hc_nodtdstaff.xml
        barfoo_standalone_no.xml
        canonicalform03.xml
        barfoo_base.xml
        datatype_normalization.xml
        canonicalform04.xml
        barfoo_utf16.xml
        typeinfo.xml
        barfoo_standalone_yes.xml
        hc_staff.xml
        barfoo_utf8.xml
        DOM-test-forest
        Label_1
        Label
        00000002
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
        barfoo_nodefaultns.xml
        canonicalform02.xml
        datatype_normalization2.xml
        3doc-test
        doc1.txt
        doc3.xml
        doc1.xml
        doc2.xml
        3docForest
        Label_1
        Label
        00000002
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
      - java
        com
        marklogic
        TestFCheck.java
        Utils.java
        TestDocumentImpl.java
        TestAll.java
        AbstractTestCase.java
        ForestData.java
        TestRestrictedHostsUtil.java
        TestDocumentImplClone.java
    - lib
      - cpox.jar
      - commons-license.txt
    - assemble
      - docdist.xml
      - srcdist.xml
      - bindist.xml
      - exampledist.xml
    - conf
      - marklogic-docin-textout.xml
      - marklogic-nodein-nodeout.xml
      - marklogic-advanced.xml
      - xcc.logging.properties
      - marklogic-textin-propout.xml
      - log4j.properties
      - marklogic-nodein-qryout.xml
      - marklogic-textin-docout.xml
      - marklogic-textin-textout.xml
      - marklogic-subbinary.xml
      - marklogic-wiki.xml
      - marklogic-hello-world.xml
      - marklogic-lexicon.xml
  - pom.xml
  - .gitignore
- .gitignore
- LICENSE.txt

package com.marklogic.mapreduce.test;

import java.io.IOException;
import java.util.zip.ZipEntry;
import java.util.zip.ZipInputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper;

import com.marklogic.mapreduce.ContentOutputFormat;
import com.marklogic.mapreduce.DocumentURI;

public class MultithreadedZipContentLoader {
    public static class ZipContentMapper 
    extends Mapper<Text, Text, DocumentURI, Text> {
        
        private DocumentURI uri = new DocumentURI();
        
        public void map(Text fileName, Text fileContent, Context context) 
        throws IOException, InterruptedException {
            uri.setUri(fileName.toString());
            context.write(uri, fileContent);
        }
    }
    
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.err.println("Usage: MultithreadedZipContentLoader configFile inputDir threadCount");
            System.exit(2);
        }
        
        Job job = Job.getInstance(conf);
        job.setJarByClass(MultithreadedZipContentLoader.class);
        job.setInputFormatClass(ZipContentInputFormat.class);
        job.setMapperClass(MultithreadedMapper.class);
        MultithreadedMapper.setMapperClass(job, ZipContentMapper.class);
        MultithreadedMapper.setNumberOfThreads(job, Integer.parseInt(args[2]));
        job.setMapOutputKeyClass(DocumentURI.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputFormatClass(ContentOutputFormat.class);
        
        ZipContentInputFormat.setInputPaths(job, new Path(otherArgs[1]));

        conf = job.getConfiguration();
        conf.addResource(otherArgs[0]);
         
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

class ZipContentInputFormat extends FileInputFormat<Text, Text> {

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
    
    @Override
    public RecordReader<Text, Text> createRecordReader(InputSplit split,
            TaskAttemptContext context) throws IOException, InterruptedException {
        return new ZipContentReader();
    }
    
}

class ZipContentReader extends RecordReader<Text, Text> {

    private Text key = new Text();
    private Text value = new Text();
    private ZipInputStream zipIn;
    private byte[] buf = new byte[65536];
    private boolean hasNext = true;
    
    @Override
    public void close() throws IOException {
        if (zipIn != null) {
            zipIn.close();
        }
    }

    @Override
    public Text getCurrentKey() throws IOException, InterruptedException {
        return key;
    }

    @Override
    public Text getCurrentValue() throws IOException, InterruptedException {
        return value;
    }

    @Override
    public float getProgress() throws IOException, InterruptedException {
        return hasNext ? 0 : 1;
    }

    @Override
    public void initialize(InputSplit inSplit, TaskAttemptContext context)
            throws IOException, InterruptedException {
        Path file = ((FileSplit)inSplit).getPath();
        FileSystem fs = file.getFileSystem(context.getConfiguration());
        FSDataInputStream fileIn = fs.open(file);
        zipIn = new ZipInputStream(fileIn);
    }

    @Override
    public boolean nextKeyValue() throws IOException, InterruptedException {
        if (zipIn != null) {
            ZipEntry zipEntry;
            while ((zipEntry = zipIn.getNextEntry()) != null) {
                if (zipEntry != null) {
                    key.set(zipEntry.getName());
                    StringBuilder entry = new StringBuilder();
                    long size;
                    while ((size = zipIn.read(buf, 0, buf.length)) != -1) {
                        entry.append(new String(buf, 0, (int) size));
                    }
                    value.set(entry.toString());
                    return true;
                }
            }
            hasNext = false;
            return false;
        }
        hasNext = false;
        return false;
    }
    
}