java source code of WikiLoader

marklogic-contentpump-master
- pom.xml
- CONTRIBUTING.md
- README.md
- mlcp
  - src
    - main
      - winutils.exe
      - resources
        mlcp-version-info.properties
      - mlcp.sh
      - java
        com
        marklogic
        contentpump
        DocumentMetadata.java
        DocumentMapper.java
        SequenceFileInputFormat.java
        RDFWritable.java
        DelimitedJSONInputFormat.java
        CombineDocumentSplit.java
        AggregateXMLReader.java
        BaseMapper.java
        CompressedDelimitedJSONInputFormat.java
        CompressedAggXMLReader.java
        DelimitedTextInputFormat.java
        CompressedRDFInputFormat.java
        ExportOutputType.java
        DocumentPathFilter.java
        CompressedDocumentInputFormat.java
        ContentWithFileNameWritable.java
        LocalJob.java
        RDFReader.java
        ArchiveOutputFormat.java
        ArchiveWriter.java
        Versions.java
        FileAndDirectoryInputFormat.java
        ConfigConstants.java
        ColumnDataType.java
        examples
        SimpleSequenceFileValue.java
        SimpleSequenceFileCreator.java
        SimpleSequenceFileReader.java
        SimpleSequenceFileKey.java
        ContentPumpReporter.java
        SequenceFileKey.java
        RDFInputFormat.java
        InputType.java
        SplitDelimitedTextReader.java
        ContentPump.java
        DatabaseContentReader.java
        test
        SimpleSequenceFileBytesCreator.java
        SimpleSequenceFileLargeBinaryCreator.java
        SimpleSequenceFileCompressCreator.java
        GzipDelimitedJSONReader.java
        CompressedDocumentReader.java
        StreamingDocumentReader.java
        ImportRecordReader.java
        MultithreadedMapper.java
        DatabaseDocumentWithMeta.java
        CompressedDelimitedTextInputFormat.java
        SequenceFileValue.java
        StreamingDocumentInputFormat.java
        AggregateXMLInputFormat.java
        DatabaseContentOutputFormat.java
        Command.java
        CompressedDelimitedTextReader.java
        LocalJobRunner.java
        CombineDocumentReader.java
        ArchiveInputFormat.java
        SingleDocumentWriter.java
        ZipDelimitedJSONReader.java
        SequenceFileValueType.java
        SingleDocumentOutputFormat.java
        CompressedRDFReader.java
        DatabaseTransformWriter.java
        CompressedStreamingReader.java
        DatabaseContentWriter.java
        OutputArchive.java
        DatabaseContentInputFormat.java
        CompressedAggXMLInputFormat.java
        DatabaseTransformOutputFormat.java
        DocumentInputFormat.java
        SequenceFileReader.java
        DelimitedTextReader.java
        TransformWriter.java
        TransformOutputFormat.java
        CombineDocumentInputFormat.java
        utilities
        ReflectionUtil.java
        EncodingUtil.java
        JSONDocBuilder.java
        CommandlineOptions.java
        DocBuilder.java
        FileIterator.java
        CSVParserFormatter.java
        AuditUtil.java
        XMLDocBuilder.java
        DelimitedSplit.java
        XMLUtil.java
        ZipInputStream.java
        OptionsFileUtil.java
        PermissionUtil.java
        IdGenerator.java
        CommandlineOption.java
        ArchiveRecordReader.java
        DelimitedJSONReader.java
      - hadoop.dll
      - mlcp.bat
    - test
      - bootstrap
        createAxis.sjs
        createIndex.sjs
      - resources
        zips
        json-forest
        Forests
        Documents
        Label_1
        Label
        00000000
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        Frequencies
        Label
        4c8c228348a3b60d-string
        ListIndex
        TreeIndex
        4c8c228348a3b60d-string-
        AtomIndex
        StringIndex
        keys
        TestImportDelimitedText#testImportDelimitedTextInvalidType.txt
        TestImportAggregate#testImportAggZip.txt
        TestImportDelimitedJson#testImportDelimitedJSONZipDir.txt
        TestImportText#testImportDocsZipUTF16BE.txt
        TestImportText#testImportMixedUTF8.txt
        TestImportDelimitedJson#testImportDelimitedJsonGZipFnCollection.txt
        TestImportDelimitedJson#testImportDelimitedJsonZipFnCollection2.txt
        TestImportDelimitedText#testImportDelimitedTextDocJSONWithOptions.txt
        TestImportDelimitedJson#testImportDelimitedJsonZipFnCollection1.txt
        TestImportDelimitedText#testImportTransformDelimitedTextZip.txt
        TestImportDelimitedText#testImportDelimitedTextZip.txt
        TestImportDelimitedJson#testImportDelimitedJson.txt
        TestImportDelimitedText#testImportDelimitedTextHardZip.txt
        TestImportDelimitedText#testImportDelimitedGenerateId.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16BE.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16LEZip.txt
        TestImportText#testImportMixedUTF16LE.txt
        TestImportDelimitedText#testImportDelimitedTextElemNames.txt
        TestImportDelimitedText#testImportDelimitedTextZipGenId.txt
        TestImportText#testImportTextUTF16LE.txt
        TestImportDelimitedJson#testImportDelimitedJsonDir.txt
        TestImportDelimitedJson#testImportDelimitedJSONArray.txt
        TestImportText#testImportTxtUTF8.txt
        TestImportDelimitedText#testImportDelimitedTextJSONDataType.txt
        TestImportDelimitedText#testImportDelimitedText.txt
        TestImportDelimitedText#testImportDelimitedTextElemNamesSplit.txt
        TestImportText#testImportMixedTxtUTF16LE.txt
        TestImportText#testImportSequenceFile.txt
        TestImportDelimitedText#testImportDelimitedTextHard.txt
        TestImportDelimitedText#testImportDelimitedTextUTF16LE.txt
        semantics.nt
        csv
        sample3.csv.bad
        sample.csv
        2.tpch
        sample4.txt
        1.tab
        sample2.csv
        1.pipe
        1.input
        sample3.csv.hard
        sample1.quote.csv
        1.tpch
        sample.quote.csv
        sample3.csv.ename
        one-many.xqy
        delimitedJson
        sample1.txt
        testUri2
        sample2.txt
        zip
        gzip
        testUri.gz
        sample.gz
        testUri.txt
        mixZip
        c-semantics.rdf.gz
        medlinezip
        createCollection.txt
        c-semantics.nq.gz
        34887
        semantics.short.nq
        delimitedText
        42027.csv
        39564.csv
        44422.csv
        44422JP.csv
        archive
        38160
        dummy-trans.xqy
        lc.xqy
        ab.gz
        agg
        31691.xml
        agg2.xml.gz
        lei.xml
        agg3.xml
        medline04.small.utf16.xml
        agg3-test2.xml
        24908.xml
        agg3-test.xml
        agg5.xml
        medline04.small.xml
        agg4.xml
        escapequote.xml
        bad.xml
        agg3-test1.xml
        agg3.test3.xml
        21045.xml
        agg1.xml.gz
        semantics.trig
        agg1gz.xml.gz
        semantics.json
        semantics.ttl
        RDFAddNode.xqy
        c-semantics.rdf.gz
        temporal
        temporal.xml
        35949.zip.REMOVED.git-id
        semantics-2013.nt
        livesIn.ttl
        mixnakedzip
        seqfile
        file5.seq
        foo.0
        semantics.rdf
        json
        example.json
        NBDC_sample.ttl
        bug24420.ttl
        encoding
        ML-utf-16be.enc
        ML-utf-16le.txt
        samplecsv.utf16be.csv
        ML-utf-8.enc
        ML-utf-8.txt
        ML-utf-16le.enc
        medline04.small.iso-8859-1.xml
        ML-ISO-8859-1.enc
        samplecsv.utf16le.csv
        trans.xqy
        semanticszip
        20059
        twitter_1332448843475.xml
        twitter_1332448843475.xml.metadata
        wiki
        AfghanistanGeography
        AfroAsiaticLanguages
        Alabama
        ArtificalLanguages
        AlbaniaPeople
        AustroAsiaticLanguages
        AnarchoCapitalism
        AustriaLanguage
        AbbadideS
        AndorrA.xml
        Asymmetric Algorithms
        AsciiArt
        ActressesS
        AfghanistanTransportations
        AbeceDarians
        AbensbergGermany
        AbacuS.xml
        AfghanistanPeople
        AlexanderTheGreat
        AnarchoCapitalists
        AcademyAwards
        Abraham Lincoln
        AssistiveTechnology
        AppliedStatistics
        ActresseS
        AdolfHitler
        ArgumentForms
        ArgumentsForTheExistenceOfGod
        Allan Dwan
        Academy Award
        AfghanistanHistory
        AnnaKournikova
        AberdeenSouthDakota
        Austria
        AutoRacing
        AbalonE.html
        ActionFilm
        Achilles
        AfricanAmericanPeople
        ArthurKoestler
        Animalia (book)
        Actrius
        Aristotle
        Agricultural science
        Autism
        AfghanistanMilitary
        AfghanistanCommunications
        List of characters in Atlas Shrugged
        AbeL
        AndreAgassi
        Alain Connes
        AfricA
        International Atomic Time
        AnAmericanInParis
        AsWeMayThink
        AnarchY
        AyersMusicPublishingCompany
        Altruism
        An American in Paris
        AccessibleComputing
        AtlasShrugged
        Air Transport
        AlbaniaHistory
        Alchemy
        Anarchism
        Alien.txt
        AmoeboidTaxa
        AfghanistanTransnationalIssues
        AynRand
        AutoMorphism
        AmericA
        Abbreviations
        AmericanFootball
        AlbaniaGovernment
        Topics of note in Atlas Shrugged
        AbbesS
        AlbaniaEconomy
        AtlasShruggedCompanies
        Ayn Rand
        Academy Award for Best Art Direction
        AbbeY
        AbbevilleFrance
        Anthropology
        AbboT
        AxiomOfChoice
        AcademicElitism
        AtlasShruggedCharacters
        Action Film
        Albedo
        AllSaints
        ArtificialLanguages
        AnchorageAlaska
      - README
      - java
        com
        marklogic
        contentpump
        TestImportDelimitedJson.java
        TestDistributedImportAggregate.java
        TestConcurrentJobs.java
        TestImportDelimitedText.java
        Utils.java
        TestImportDocs.java
        TestExport.java
        TestCompressedRDF.java
        TestImportArchive.java
        Constants.java
        TestReturnCode.java
        TestImportAggregate.java
        TestDistributedImportDelimitedText.java
        TestImportSequenceFile.java
        TestRDF.java
        TestCopy.java
        TestDistributedExport.java
        TestEDSeparation.java
        TestDistributedImportDocs.java
        TestImportBigData.java
    - lib
      - commons-csv-1.5-marklogic.jar
      - native
        libhadoop.so
      - mapr.conf
    - assemble
      - bindist-mapr.xml
      - srcdist.xml
      - testdist.xml
      - bindist.xml
    - conf
      - test.properties
      - xcc.logging.properties
      - log4j.properties
  - pom.xml
  - .gitignore
- mapreduce
  - src
    - main
      - resources
        sample-data
        AfghanistanGeography
        AfroAsiaticLanguages
        Alabama
        ArtificalLanguages
        AlbaniaPeople
        AustroAsiaticLanguages
        AnarchoCapitalism
        AustriaLanguage
        AbbadideS
        Asymmetric Algorithms
        AsciiArt
        ActressesS
        AfghanistanTransportations
        AbeceDarians
        AbensbergGermany
        AfghanistanPeople
        AlexanderTheGreat
        AnarchoCapitalists
        AcademyAwards
        Abraham Lincoln
        AssistiveTechnology
        AppliedStatistics
        ActresseS
        A
        AdolfHitler
        ArgumentForms
        ArgumentsForTheExistenceOfGod
        Allan Dwan
        AbalonE
        Academy Award
        AfghanistanHistory
        AnnaKournikova
        AberdeenSouthDakota
        Austria
        AutoRacing
        AbacuS
        ActionFilm
        Achilles
        AfricanAmericanPeople
        ArthurKoestler
        Animalia (book)
        Actrius
        Aristotle
        Agricultural science
        Autism
        AfghanistanMilitary
        AfghanistanCommunications
        AndorrA
        List of characters in Atlas Shrugged
        AbeL
        AndreAgassi
        Alain Connes
        AfricA
        International Atomic Time
        AnAmericanInParis
        AsWeMayThink
        AnarchY
        AyersMusicPublishingCompany
        Altruism
        An American in Paris
        AccessibleComputing
        AtlasShrugged
        Air Transport
        AlbaniaHistory
        Alchemy
        Anarchism
        AmoeboidTaxa
        AfghanistanTransnationalIssues
        AynRand
        AutoMorphism
        AmericA
        Abbreviations
        AmericanFootball
        AlbaniaGovernment
        Topics of note in Atlas Shrugged
        AbbesS
        AlbaniaEconomy
        AtlasShruggedCompanies
        Ayn Rand
        Academy Award for Best Art Direction
        AbbeY
        AbbevilleFrance
        Anthropology
        AbboT
        AxiomOfChoice
        Alien
        AcademicElitism
        AtlasShruggedCharacters
        Action Film
        Albedo
        AllSaints
        ArtificialLanguages
        AnchorageAlaska
      - java
        doc-files
        overview.html
        com
        marklogic
        dom
        DocumentImpl.java
        CharacterDataImpl.java
        DocumentTypeImpl.java
        TextImpl.java
        ProcessingInstructionImpl.java
        AttrImpl.java
        package-info.java
        ElementImpl.java
        CommentImpl.java
        AttributeNodeMapImpl.java
        NodeListImpl.java
        NodeImpl.java
        io
        Decoder.java
        BiendianDataInputStream.java
        tree
        NodeKind.java
        ExpandedTree.java
        CompressedTreeDecoder.java
        Capability.java
        mapreduce
        BinaryDocument.java
        NodeOutputFormat.java
        PropertyOpType.java
        ForestInputFormat.java
        MarkLogicOutputFormat.java
        DocumentReader.java
        ZipEntryInputStream.java
        functions
        ElementValues.java
        ElementWords.java
        FieldWordMatch.java
        ElementAttributeWords.java
        Uris.java
        ElementWordMatch.java
        Collections.java
        CollectionMatch.java
        LexiconFunction.java
        FieldValueCooccurrences.java
        FieldValues.java
        FieldWords.java
        ElementAttributeValues.java
        Words.java
        Values.java
        UriMatch.java
        ElementAttributeWordMatch.java
        Reference.java
        ElementAttributeValueMatch.java
        package-info.java
        ValueMatch.java
        ValuesOrWordsFunction.java
        ElemAttrValueCooccurrences.java
        WordMatch.java
        FieldValueMatch.java
        ValueOrWordMatchFunction.java
        PathReference.java
        ElemValueCooccurrences.java
        CooccurrencesFunction.java
        ValueCooccurrences.java
        ElementValueMatch.java
        PropertyOutputFormat.java
        MarkLogicDocument.java
        DatabaseDocument.java
        NodeOpType.java
        Indentation.java
        examples
        ZipContentLoader.java
        ContentReader.java
        LinkCountCooccurrences.java
        LinkCountValue.java
        BinaryReader.java
        ContentLoader.java
        package-info.java
        LinkCountInProperty.java
        LinkCountInDoc.java
        WikiLoader.java
        HelloWorld.java
        LinkCount.java
        LinkCountHDFS.java
        RevisionGrouper.java
        KeyValueWriter.java
        RegularBinaryDocument.java
        ForestDocument.java
        ContentType.java
        MarkLogicCounter.java
        CustomContent.java
        MarkLogicInputFormat.java
        test
        ElemValueCooccurrencesTest.java
        ValuesTest.java
        Test20772.java
        MapTreeReduceTreeJSON.java
        ElementValueMatchTest.java
        CustomQuery.java
        ElemAttrValueCooccurrencesTest.java
        WordsTest.java
        MapTreeReduceTree.java
        ValueMatchTest.java
        ElementAttributeValuesTest.java
        ElementValuesTest.java
        MultithreadedZipContentLoader.java
        FCheck.java
        ValueCooccurrencesTest.java
        BinaryLoader.java
        MarkLogicInputSplit.java
        ValueInputFormat.java
        CompressionCodec.java
        LargeBinaryDocument.java
        DOMDocument.java
        LinkedMapWritable.java
        package-info.java
        DocumentURIWithSourceInfo.java
        MarkLogicRecordWriter.java
        ContentWriter.java
        JSONDocument.java
        ValueReader.java
        NodeInputFormat.java
        SslConfigOptions.java
        MarkLogicRecordReader.java
        StreamLocator.java
        NodeWriter.java
        ForestReader.java
        NodePath.java
        NodeReader.java
        KeyValueOutputFormat.java
        KeyValueReader.java
        DocumentInputFormat.java
        InternalConstants.java
        MarkLogicConstants.java
        utilities
        AssignmentPolicy.java
        ForestHost.java
        SegmentAssignmentPolicy.java
        InternalUtilities.java
        ForestInfo.java
        AssignmentManager.java
        QueryAssignmentPolicy.java
        RestrictedHostsUtil.java
        RangeAssignmentPolicy.java
        StatisticalAssignmentPolicy.java
        LegacyAssignmentPolicy.java
        URIUtil.java
        TextArrayWritable.java
        BucketAssignmentPolicy.java
        PropertyWriter.java
        MarkLogicNode.java
        ContentOutputFormat.java
        KeyValueInputFormat.java
        DocumentURI.java
        stylesheet.css
    - test
      - resources
        CustomQuery
        marklogic-qryin-qryout.xml
        ns-prefix
        xmlschemata4.xml
        ns2.xml
        attr2.xml
        list.xml
        ns10.xml
        ns5.xml
        ns7.xml
        xmlschemata3.xml
        attr1.xml
        ns9.xml
        ns6.xml
        ns1.xml
        html1.xml
        ns-prefix-forest
        Label_1
        Label
        00000001
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
        ns8.xml
        ns4.xml
        attr4.xml
        ns3.xml
        xmlschemata2.xml
        attr3.xml
        diff-prefix-same-ns.xml
        ns11.xml
        xmlschemata1.xml
        same-prefix-diff-ns.xml
        dom-core-test
        barfoo.xml
        canonicalform01.xml
        hc_nodtdstaff.xml
        barfoo_standalone_no.xml
        canonicalform03.xml
        barfoo_base.xml
        datatype_normalization.xml
        canonicalform04.xml
        barfoo_utf16.xml
        typeinfo.xml
        barfoo_standalone_yes.xml
        hc_staff.xml
        barfoo_utf8.xml
        DOM-test-forest
        Label_1
        Label
        00000002
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
        barfoo_nodefaultns.xml
        canonicalform02.xml
        datatype_normalization2.xml
        3doc-test
        doc1.txt
        doc3.xml
        doc1.xml
        doc2.xml
        3docForest
        Label_1
        Label
        00000002
        StopKeySet
        TreeData
        StringData
        AtomData
        ListData
        URIKeys
        Frequencies
        UniqKeys
        Qualities
        Label
        4c8c228348a3b60d-string
        ListIndex
        LinkKeys
        TreeIndex
        Ordinals
        4c8c228348a3b60d-string-
        Timestamps
        AtomIndex
        StringIndex
      - java
        com
        marklogic
        TestFCheck.java
        Utils.java
        TestDocumentImpl.java
        TestAll.java
        AbstractTestCase.java
        ForestData.java
        TestRestrictedHostsUtil.java
        TestDocumentImplClone.java
    - lib
      - cpox.jar
      - commons-license.txt
    - assemble
      - docdist.xml
      - srcdist.xml
      - bindist.xml
      - exampledist.xml
    - conf
      - marklogic-docin-textout.xml
      - marklogic-nodein-nodeout.xml
      - marklogic-advanced.xml
      - xcc.logging.properties
      - marklogic-textin-propout.xml
      - log4j.properties
      - marklogic-nodein-qryout.xml
      - marklogic-textin-docout.xml
      - marklogic-textin-textout.xml
      - marklogic-subbinary.xml
      - marklogic-wiki.xml
      - marklogic-hello-world.xml
      - marklogic-lexicon.xml
  - pom.xml
  - .gitignore
- .gitignore
- LICENSE.txt

/*
 * Copyright (c) 2020 MarkLogic Corporation
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package com.marklogic.mapreduce.examples;

import info.bliki.wiki.model.WikiModel;

import java.io.IOException;
import java.io.StringReader;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;
import java.util.Properties;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.util.GenericOptionsParser;
import org.xmlpull.v1.XmlPullParser;
import org.xmlpull.v1.XmlPullParserException;
import org.xmlpull.v1.XmlPullParserFactory;

import com.marklogic.cpox.SimpleLogger;
import com.marklogic.cpox.Utilities;
import com.marklogic.mapreduce.ContentOutputFormat;
import com.marklogic.mapreduce.DocumentURI;
import com.marklogic.xcc.Session;

/**
 * Load wiki documents from HDFS into MarkLogic Server.
 * Used with the configuration file conf/marklogic-wiki.xml.
 */

public class WikiLoader {
    public static class ArticleMapper 
    extends Mapper<Text, Text, DocumentURI, Text> {
        
        private DocumentURI uri = new DocumentURI();
        
        public void map(Text path, Text page, Context context) 
        throws IOException, InterruptedException {
            uri.setUri(path.toString());
            context.write(uri, page);
        }
    }
    
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        if (args.length < 2) {
            System.err.println("Usage: WikiLoader configFile inputDir");
            System.exit(2);
        }
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
       
        Job job = Job.getInstance(conf, "wiki loader");
        job.setJarByClass(WikiLoader.class);
        job.setInputFormatClass(WikiInputFormat.class);
        job.setMapperClass(ArticleMapper.class);
        job.setMapOutputKeyClass(DocumentURI.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputFormatClass(ContentOutputFormat.class);
        
        ContentInputFormat.setInputPaths(job, new Path(otherArgs[1]));

        conf = job.getConfiguration();
        conf.addResource(otherArgs[0]);
         
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

class WikiInputFormat extends FileInputFormat<Text, Text> {

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return true;
    }
    
    @Override
    public RecordReader<Text, Text> createRecordReader(InputSplit split,
            TaskAttemptContext context) throws IOException, InterruptedException {
        return new WikiReader();
    }
    
}

class Article {
    String title;
    StringBuilder pageContent;
    
    public Article(String title, StringBuilder pageContent) {
        this.title = title;
        this.pageContent = pageContent;
    }
}

class WikiReader extends RecordReader<Text, Text> {

    static final int BUFFER_SIZE = 65536;
    static final int READ_AHEAD_SIZE = 2048;
    static final String BEGIN_PAGE_TAG = "<page>";
    static final String END_PAGE_TAG = "</page>";
    static final String END_DOC_TAG = "</mediawiki>";
    private Text key = new Text();
    private Text value = new Text();
    private List<Article> articles;
    private int recordCount = 0;
    
    public WikiReader() {
    }

    @Override
    public void close() throws IOException {
    }

    @Override
    public Text getCurrentKey() throws IOException, InterruptedException {
        return key;
    }

    @Override
    public Text getCurrentValue() throws IOException, InterruptedException {
        return value;
    }

    @Override
    public float getProgress() throws IOException, InterruptedException {
        if (articles == null || articles.isEmpty()) {
            return 0;
        }
        return recordCount / (float)articles.size();
    }

    @Override
    public void initialize(InputSplit inSplit, TaskAttemptContext context)
            throws IOException, InterruptedException {
        Path file = ((FileSplit)inSplit).getPath();
        FileSystem fs = file.getFileSystem(context.getConfiguration());
        FSDataInputStream fileIn = fs.open(file);
        byte[] buf = new byte[BUFFER_SIZE];
        long bytesTotal = inSplit.getLength();
        long start = ((FileSplit)inSplit).getStart();
        fileIn.seek(start);
        long bytesRead = 0;
        StringBuilder pages = new StringBuilder();
        int sindex = -1;
        while (true) {
            int length = (int)Math.min(bytesTotal - bytesRead, buf.length);
            int read = fileIn.read(buf, 0, length);
            if (read == -1) {
                System.out.println("Unexpected EOF: bytesTotal=" + bytesTotal +
                        "bytesRead=" + bytesRead);
                break;
            }
            bytesRead += read;  
            String temp = new String(new String(buf, 0, read));
            if (sindex == -1) { // haven't found the start yet    
                sindex = temp.indexOf(BEGIN_PAGE_TAG);
                if (sindex > -1) {
                    pages.append(temp.substring(sindex));
                }
            } else if (bytesRead < bytesTotal) { // haven't completed the split
                pages.append(temp);
            } else { // reached the end of this split
                // look for end
                int eindex = 0;
                if (temp.contains(END_DOC_TAG) || // reached the end of doc
                    temp.endsWith(END_PAGE_TAG)) {
                    eindex = temp.lastIndexOf(END_PAGE_TAG);
                    pages.append(temp.substring(0, 
                        eindex + END_PAGE_TAG.length()));   
                    System.out.println("Found end of doc.");
                } else { // need to read ahead to look for end of page
                    while (true) {
                        read = fileIn.read(buf, 0, READ_AHEAD_SIZE);
                        if (read == -1) { // no more to read
                            System.out.println("Unexpected EOF: bytesTotal=" + bytesTotal +
                                    "bytesRead=" + bytesRead);
                            System.out.println(temp);
                            break;
                        }
                        bytesRead += read;
                        // look for end
                        temp = new String(buf, 0, read);
                        eindex = temp.indexOf(END_PAGE_TAG);
                        if (eindex > -1) {
                            pages.append(temp.substring(0, 
                                    eindex + END_PAGE_TAG.length()));
                            break;
                        } else {
                            pages.append(temp);
                        }
                    }
                }
                break;
            }
        }
        fileIn.close();
        articles = WikiModelProcessor.process(pages);
    }

    @Override
    public boolean nextKeyValue() throws IOException, InterruptedException {
        if (articles != null && articles.size() > recordCount) {
            Article article = articles.get(recordCount);
            key.set(article.title);
            value.set(article.pageContent.toString());
            recordCount++;
            return true;
        }
        return false;
    }

    static class  WikiModelProcessor {
        /**
         * 
         */
        private static final String TITLE = "title";

        /**
         * 
         */
        private static final String PAGE = "page";

        private static final String ROOT = "mediawiki";

        private static final String NS_XML = "http://www.w3.org/XML/1998/namespace";
        
        private static final String HEADER = 
            "<mediawiki xmlns=\"http://www.mediawiki.org/xml/export-0.4/\" " +
            "xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" " +
            "xsi:schemaLocation=\"http://www.mediawiki.org/xml/export-0.4/" +
            "http://www.mediawiki.org/xml/export-0.4.xsd\" version=\"0.4\" " +
            "xml:lang=\"en\"> \n" +
            "  <siteinfo> \n" +
            "    <sitename>Wikipedia</sitename> \n" +
            "    <base>http://en.wikipedia.org/wiki/Main_Page</base> \n" +
            "    <generator>MediaWiki 1.16alpha-wmf</generator> \n" +
            "    <case>first-letter</case> \n" +
            "    <namespaces> \n" +
            "      <namespace key=\"-2\">Media</namespace> \n" +
            "      <namespace key=\"-1\">Special</namespace> \n" +
            "      <namespace key=\"0\" /> \n" +
            "      <namespace key=\"1\">Talk</namespace> \n" +
            "      <namespace key=\"2\">User</namespace> \n" +
            "      <namespace key=\"3\">User talk</namespace> \n" +
            "      <namespace key=\"4\">Wikipedia</namespace> \n" +
            "      <namespace key=\"5\">Wikipedia talk</namespace> \n" +
            "      <namespace key=\"6\">File</namespace> \n" +
            "      <namespace key=\"7\">File talk</namespace> \n" +
            "      <namespace key=\"8\">MediaWiki</namespace> \n" +
            "      <namespace key=\"9\">MediaWiki talk</namespace> \n" +
            "      <namespace key=\"10\">Template</namespace> \n" +
            "      <namespace key=\"11\">Template talk</namespace> \n" +
            "      <namespace key=\"12\">Help</namespace> \n" +
            "      <namespace key=\"13\">Help talk</namespace> \n" +
            "      <namespace key=\"14\">Category</namespace> \n" +
            "      <namespace key=\"15\">Category talk</namespace> \n" +
            "      <namespace key=\"100\">Portal</namespace> \n" +
            "      <namespace key=\"101\">Portal talk</namespace> \n" +
            "    </namespaces> \n" +
            "  </siteinfo> \n";
        
        private static final String FOOTER = "\n</mediawiki>";

        private static LinkedList<String> path;

        private static StringBuilder article;

        private static String title;

        private static XmlPullParser xpp;

        static SimpleLogger logger = SimpleLogger.getSimpleLogger();

        private static int errors = 0;

        private static int pages = 0;

        private static String namespace;

        private static String language;

        private static XmlPullParserFactory factory;

        private static XmlPullParser parser;
        
        private static Session session;
        
        private static List<Article> articles;

        /**
         * @param args
         * @throws Exception
         */
        public static List<Article> process(StringBuilder input) {
            input.insert(0, HEADER);
            input.append(FOOTER);
            Properties properties = new Properties();
            try {
                factory = XmlPullParserFactory.newInstance(properties
                        .getProperty(XmlPullParserFactory.PROPERTY_NAME), null);
                factory.setNamespaceAware(true);
                xpp = factory.newPullParser();
                xpp.setInput(new StringReader(input.toString()));
    
                // TODO feature isn't supported by xpp3 - look at xpp5?
                // xpp.setFeature(XmlPullParser.FEATURE_DETECT_ENCODING, true);
                // TODO feature isn't supported by xpp3 - look at xpp5?
                // xpp.setFeature(XmlPullParser.FEATURE_PROCESS_DOCDECL, true);
                xpp.setFeature(XmlPullParser.FEATURE_PROCESS_NAMESPACES, true);
    
                logger.configureLogger(new Properties());
    
                process();
            } catch (Exception ex) {
                logger.logException(ex);
            }
            logger.info("finished " + pages + " pages with " + errors
                    + " errors");
            return articles;
        }

        /**
         * @throws IOException
         * @throws XmlPullParserException
         */
        private static void process() throws XmlPullParserException,
        IOException {
            // transform to final output
            int event;
            path = new LinkedList<String>();
            article = null;
            title = null;

            logger.info("starting loop");

            while (true) {
                event = xpp.next();
                switch (event) {
                case XmlPullParser.END_DOCUMENT:
                    processEndDocument();
                    // exit the loop
                    return;
                case XmlPullParser.END_TAG:
                    processEndElement(xpp.getName());
                    break;
                case XmlPullParser.START_TAG:
                    processStartElement(xpp.getName());
                    break;
                case XmlPullParser.TEXT:
                    if (null != article) {
                        String name = path.getLast();
                        if ("comment".equals(name) || "text".equals(name)) {
                            // parse comment elements
                            // parse text elements
                            article.append(parse(xpp.getText()));
                        } else {
                            article
                            .append(Utilities
                                    .escapeXml(xpp.getText()));
                        }
                    }
                    break;
                default:
                    throw new IOException("unexpected event: " + event
                            + " at " + xpp.getPositionDescription());
                }
            }
        }

        /**
         * @param text
         * @return
         * @throws IOException
         */
        private static String parse(String text) throws IOException {
            if (null == text || "".equals(text.trim())) {
                return null;
            }
            // parse wiki markup to xml
            // TODO: this is slow with bliki - might need concurrency
            // use a new object every time, to prevent leaks
            // no doubt this makes it slower...
            String xml = new WikiModel("${image}", "${title}").render(text);

            if (null == xml || "".equals(xml.trim())) {
                return xml;
            }

            // verify xml is well-formed
            try {
                // use this xpp object to check output from the wikimedia parser
                parser = factory.newPullParser();
                parser
                .setInput(new StringReader("<dummy>" + xml
                        + "</dummy>"));
                parser.setFeature(XmlPullParser.FEATURE_PROCESS_NAMESPACES,
                        true);
                int event;
                String temp;
                char[] chars;
                int c;
                while (true) {
                    // with some Japanese text, next() throws
                    // ArrayIndexOutOfBoundsException
                    try {
                        event = parser.next();
                    } catch (ArrayIndexOutOfBoundsException e) {
                        throw new XmlPullParserException(e.getMessage(),
                                parser, null);
                    }
                    switch (event) {
                    case XmlPullParser.END_DOCUMENT:
                        // exit the loop
                        return xml;
                    case XmlPullParser.END_TAG:
                        parser.getName();
                        parser.getNamespace();
                        parser.getText();
                        break;
                    case XmlPullParser.START_TAG:
                        parser.getName();
                        parser.getNamespace();
                        parser.getText();
                        break;
                    case XmlPullParser.TEXT:
                        temp = parser.getText();
                        if (null != temp) {
                            chars = temp.toCharArray();
                            // xpp3 doesn't check codepoint values
                            // check them to avoid XDMP errors
                            for (int i = 0; i < chars.length; i++) {
                                c = chars[i];
                                // #x9 | #xA | #xD
                                // | [#x20-#xD7FF]
                                // | [#xE000-#xFFFD]
                                // | [#x10000-#x10FFFF]
                                // this implementation is abbreviated
                                if (9 == c || 10 == c || 13 == c || c > 31) {
                                    continue;
                                }
                                throw new XmlPullParserException(
                                        "bad codepoint value: " + c, parser,
                                        null);
                            }
                        }
                        break;
                    default:
                        throw new IOException("unexpected event: " + event
                                + " at " + parser.getPositionDescription());
                    }
                }
            } catch (XmlPullParserException e) {
                logger.warning(title + ": " + e.getMessage());
                errors++;
                return Utilities.escapeXml(text);
            }
        }

        /**
         * @param name
         * @throws IOException
         */
        private static void processEndElement(String name) throws IOException {
            // logger.info(name);
            if (!path.getLast().equals(name)) {
                throw new IOException("found " + name + " expected "
                        + path.getLast() + "; " + title + "; " + article);
            }
            path.removeLast();

            if (null == article) {
                return;
            }

            article.append(xpp.getText());

            // look for end of article
            if (!PAGE.equals(name)) {
                return;
            }

            boolean encodeTitle = false;
            URI uri = null;
            if (encodeTitle) {
                // try encoding the entry name
                try {
                    // this form of URI() does escaping nicely
                    uri = new URI(null, title, null);
                } catch (URISyntaxException e) {
                    try {
                        // URI(schema, ssp, fragment) constructor cannot handle
                        // ssp = 2008-11-07T12:23:47.617766-08:00/1
                        // (despite what the javadoc says)...
                        // in this situation, treat the path as the fragment.
                        uri = new URI(null, null, title);
                    } catch (URISyntaxException e1) {
                        throw new IOException(e);
                    }
                }
            }

            // add article to list
            // include the language in the title        
            String path = language + "wiki/"
            + (encodeTitle ? uri.toString() : title);
            if (articles == null) {
                articles = new ArrayList<Article>();
            }
            articles.add(new Article(path, article));
           
            // ready for the next page
            article = null;
        }

        /**
         * @param name
         * @throws IOException
         * @throws XmlPullParserException
         */
        private static void processStartElement(String name)
        throws IOException, XmlPullParserException {
            // logger.info(name);
            path.add(name);
            // look for start of article
            if (ROOT.equals(name)) {
                namespace = xpp.getNamespace();
                language = xpp.getAttributeValue(NS_XML, "lang");
                return;
            }

            if (PAGE.equals(name)) {
                if (null != article) {
                    throw new IOException("article not null at start of page");
                }
                // this is clumsy, but should work ok
                article = new StringBuilder("<"
                        + PAGE
                        // propagate the XML namespace
                        + (null == namespace ? ""
                                : (" xmlns=\"" + namespace + "\""))
                                // propagate the xml:lang attribute
                                + (null == language ? ""
                                        : (" xml:lang=\"" + language + "\""))
                                        // end of the start tag
                                        + ">");
                pages++;
                return;
            }

            if (null != article && !xpp.isEmptyElementTag()) {
                // write empty elements via end-element, only.
                // note that attributes are still ok in this case
                article.append(xpp.getText());
            }

            if (!TITLE.equals(name)) {
                return;
            }

            // create zip entry when we see the title element
            title = xpp.nextText().trim();
            article.append(Utilities.escapeXml(title));
            // this puts us at the end element for title
            processEndElement(name);
        }

        /**
         * @throws IOException
         */
        private static void processEndDocument() throws IOException {
            if (0 != path.size()) {
                throw new IOException("document end before end tag ("
                        + path.size() + ") " + path.getLast() + " "
                        + xpp.getPositionDescription());
            }
            if (null != article) {
                throw new IOException("article not null at end of document: "
                        + title + "; " + article.toString() + "; "
                        + xpp.getPositionDescription());
            }
            if (session != null) {
                session.close();
            }
        }
    }
}