java source code of CoreNLPTokenAnnotator

modernmt-master
- src
  - contextanalyzer-lucene
    - src
      - main
        java
        eu
        modernmt
        context
        lucene
        storage
        CorporaStorage.java
        utils
        Dump.java
        BucketRegistry.java
        Bucket.java
        BucketWriter.java
        analysis
        rescoring
        Rescorer.java
        CosineSimilarityRescorer.java
        CorpusAnalyzer.java
        CorpusContentField.java
        lang
        ItalianAnalyzer.java
        LanguageAnalyzer.java
        EnglishAnalyzer.java
        DefaultAnalyzer.java
        ContextAnalyzerIndex.java
        DocumentBuilder.java
        LuceneUtils.java
        LuceneAnalyzer.java
      - test
        java
        eu
        modernmt
        context
        lucene
        TestLuceneAnalyzer_onDataReceived.java
        TestLuceneAnalyzer_onDelete.java
        TestData.java
        TestLuceneAnalyzer_getContextVector.java
        TLuceneAnalyzer.java
        TestLuceneAnalyzer_getContextVectorWithOwners.java
    - pom.xml
  - pom.xml
  - persistence-cassandra
    - src
      - main
        java
        eu
        modernmt
        persistence
        cassandra
        CassandraIdGenerator.java
        KeyspaceNotFoundException.java
        CassandraUtils.java
        CassandraMemoryDAO.java
        CassandraConnection.java
        CassandraDatabase.java
        CassandraImportJobDAO.java
    - pom.xml
  - aligner-fastalign
    - src
      - main
        java
        eu
        modernmt
        aligner
        fastalign
        XUtils.java
        FastAlign.java
      - native
        symal
        SymAlignment.cpp
        SymAlignment.h
        fastalign
        DiagonalAlignment.h
        FastAligner.cpp
        BidirectionalModel.h
        ioutils.h
        Builder.cpp
        Vocabulary.h
        Vocabulary.cpp
        Model.cpp
        Corpus.h
        FastAligner.h
        Corpus.cpp
        BidirectionalModel.cpp
        Model.h
        alignment.h
        Builder.h
        include
        fastalign
        Vocabulary.h
        Corpus.h
        FastAligner.h
        Model.h
        alignment.h
        java
        eu_modernmt_aligner_fastalign_FastAlign.cpp
        jniutil.h
        CMakeLists.txt
        executables
        fa_build.cpp
        fa_score.cpp
        fa_align.cpp
    - pom.xml
  - commons
    - src
      - main
        java
        eu
        modernmt
        xml
        DelegatingXMLStreamWriter.java
        XMLUtils.java
        XMLFixInputStreamReader.java
        IndentingXMLStreamWriter.java
        Pom.java
        aligner
        AlignerException.java
        Aligner.java
        hw
        NetworkUtils.java
        Graphics.java
        decoder
        TranslationTimeoutException.java
        DecoderUnavailableException.java
        Decoder.java
        DecoderListener.java
        DecoderWithNBest.java
        DecoderException.java
        context
        ContextAnalyzer.java
        ContextAnalyzerException.java
        lang
        LanguageIndex.java
        LanguageRule.java
        LanguageDirection.java
        Language.java
        LanguagePattern.java
        UnsupportedLanguageException.java
        LanguageBridge.java
        config
        DatabaseConfig.java
        xml
        XMLNetworkConfigBuilder.java
        XMLBinaryLogConfigBuilder.java
        XMLConfigBuilder.java
        XMLDatabaseConfigBuilder.java
        XMLAbstractBuilder.java
        XMLEngineConfigBuilder.java
        NetworkConfig.java
        ConfigException.java
        BinaryLogConfig.java
        NodeConfig.java
        DecoderConfig.java
        JoinConfig.java
        AnalyzerConfig.java
        ApiConfig.java
        AlignerConfig.java
        EngineConfig.java
        data
        DataBatch.java
        BinaryLogException.java
        EmptyCorpusException.java
        Deletion.java
        LogChannel.java
        DataMessage.java
        TranslationUnit.java
        HostUnreachableException.java
        DataListenerProvider.java
        LogDataListener.java
        BinaryLog.java
        HashGenerator.java
        io
        LineWriter.java
        RuntimeIOException.java
        FileConst.java
        LineReader.java
        FileFormat.java
        TokensOutputStream.java
        FileStats.java
        FileProxy.java
        Paths.java
        BufferedLineReader.java
        UTF8Charset.java
        FileSystemUtils.java
        Corpora.java
        UnixLineWriter.java
        UnixLineReader.java
        WordCounter.java
        model
        Token.java
        corpus
        impl
        tmx
        TMXPairReader.java
        TMXLineReader.java
        TMXLineWriter.java
        TMXCorpus.java
        LanguageCache.java
        StringCorpus.java
        parallel
        ParallelFileCorpus.java
        CompactFileCorpus.java
        FileCorpus.java
        BaseMultilingualCorpus.java
        BaseCorpus.java
        Corpus.java
        MultilingualCorpus.java
        MultilingualCorpusWrapper.java
        CorpusWrapper.java
        MaskedMultilingualCorpus.java
        EmojiTag.java
        Translation.java
        Memory.java
        Priority.java
        Alignment.java
        Annotation.java
        XMLTag.java
        ContextVector.java
        ImportJob.java
        WhitespaceTag.java
        Tag.java
        Sentence.java
        Word.java
        SentenceUtils.java
        persistence
        MemoryDAO.java
        PersistenceException.java
        Connection.java
        ImportJobDAO.java
        Database.java
        memory
        TranslationMemory.java
        ScoreEntry.java
      - test
        java
        eu
        modernmt
        lang
        LanguageIndexTest.java
        LanguageTest.java
    - pom.xml
  - decoder-neural
    - src
      - main
        python
        mmt
        decoder.py
        alignment.py
        textencoder.py
        checkpoint.py
        tuning.py
        __init__.py
        utils.py
        __main__.py
        java
        eu
        modernmt
        decoder
        neural
        DefaultDecoderInitializer.java
        DecoderExecutorImpl.java
        DecoderExecutorThread.java
        TranslationJoiner.java
        ModelConfig.java
        scheduler
        SentenceBatchScheduler.java
        AbstractScheduler.java
        TranslationSplit.java
        Scheduler.java
        CountDownTranslationLock.java
        DecoderInitializer.java
        NeuralDecoder.java
        queue
        StreamPollingThread.java
        EchoPythonDecoder.java
        PythonProcess.java
        Handler.java
        HandlerBlockingQueue.java
        EchoServerDecoderQueue.java
        DecoderQueue.java
        PythonDecoderImpl.java
        PythonDecoder.java
        DecoderQueueImpl.java
        DecoderExecutor.java
        memory
        lucene
        utils
        Dump.java
        LuceneTranslationMemory.java
        query
        rescoring
        Rescorer.java
        LevenshteinRescorer.java
        F1BleuCalculator.java
        F1BleuRescorer.java
        QueryBuilder.java
        DefaultQueryBuilder.java
        analysis
        CustomSimilarity.java
        AnalyzerFactory.java
        HashAnalyzer.java
        PunctuationFilter.java
        DefaultAnalyzerFactory.java
        ContentAnalyzer.java
        DocumentBuilder.java
        DefaultDocumentBuilder.java
        HashField.java
      - test
        java
        eu
        modernmt
        decoder
        neural
        memory
        TLuceneTranslationMemory.java
        TestLuceneTranslationMemory_search.java
        TestLuceneTranslationMemory_searchPrivacy.java
        TestLuceneTranslationMemory_onDataReceived.java
        TestData.java
        TestLuceneTranslationMemory_hash.java
        TestLuceneTranslationMemory_onDelete.java
    - pom.xml
  - persistence-mysql
    - sql
      - create_database.sql
    - src
      - main
        java
        eu
        modernmt
        persistence
        mysql
        utils
        SQLUtils.java
        MySQLImportJobDAO.java
        MySQLConnection.java
        MySQLDatabase.java
        MySQLMemoryDAO.java
    - pom.xml
  - command-line
    - src
      - main
        resources
        eu
        modernmt
        cli
        log4j
        log4j-console.xml
        log4j-file.xml
        java
        eu
        modernmt
        cli
        DeduplicationMain.java
        CleaningPipelineMain.java
        MemoryExportMain.java
        ChineseDetectMain.java
        MergeDatasetsMain.java
        ValidateCorporaMain.java
        ExtractTMXSampleMain.java
        ClusterNodeMain.java
        ExportMemoryMain.java
        log4j
        Log4jConfiguration.java
        PostprocessorMain.java
        ConvertMain.java
        PreprocessorMain.java
        BackupDaemonMain.java
        TrainingPipelineMain.java
    - pom.xml
  - core
    - src
      - main
        resources
        kafka-producer.properties
        kafka-consumer.properties
        hazelcast.xml
        java
        eu
        modernmt
        backup
        BackupFile.java
        BackupEngine.java
        RetentionPolicy.java
        BackupDaemon.java
        FileLimitRetentionPolicy.java
        training
        PreprocessingTask.java
        LazyWriterCorpus.java
        AsyncCorpusWriter.java
        LazyWriterMultilingualCorpus.java
        BatchCopyProcess.java
        bloomfilter
        CorporaBloomFilter.java
        BloomFilterMultilingualCorpus.java
        BloomFilterCorpus.java
        PreprocessingPipeline.java
        partitioning
        PartitionedLineReader.java
        CorporaPartition.java
        PartitionWriter.java
        PartitioningUtils.java
        api
        actions
        GetServerInfo.java
        GetLanguage.java
        translation
        Translate.java
        GetContextVector.java
        TagsProjection.java
        util
        ContextUtils.java
        GetLanguages.java
        HealthCheck.java
        memory
        GetImportJob.java
        GetAllMemories.java
        UpdateMemories.java
        AddToMemoryCorpus.java
        UpdateMemoryContribution.java
        GetMemory.java
        CreateMemory.java
        DeleteMemory.java
        MultipartConfigInjectionHandler.java
        framework
        Parameters.java
        ParameterFileProxy.java
        actions
        CollectionActionResult.java
        ObjectActionResult.java
        VoidAction.java
        JSONAction.java
        JSONObjectAction.java
        ObjectAction.java
        JSONActionResult.java
        VoidActionResult.java
        JSONObjectActionResult.java
        CollectionAction.java
        JSONArrayActionResult.java
        JSONArrayAction.java
        Action.java
        JSONSerializer.java
        FileParameter.java
        RESTRequest.java
        RESTResponse.java
        routing
        RouterServlet.java
        Route.java
        TemplateException.java
        RouteTemplate.java
        RouteTree.java
        HttpMethod.java
        model
        ContextVectorResult.java
        TranslationResponse.java
        ProjectedTranslation.java
        serializers
        AlignmentSerializer.java
        ImportJobSerializer.java
        LanguagePairSerializer.java
        TranslationResponseSerializer.java
        LanguageSerializer.java
        ContextVectorResultSerializer.java
        ApiServer.java
        engine
        Engine.java
        BootstrapException.java
        facade
        MemoryFacade.java
        TagFacade.java
        TranslationFacade.java
        TrainingFacade.java
        ModernMT.java
        exceptions
        TestFailedException.java
        AuthenticationException.java
        cluster
        kafka
        LogDataPollingThread.java
        KafkaPacketDeserializer.java
        KafkaChannel.java
        KafkaDataBatch.java
        KafkaPacketSerializer.java
        KafkaBinaryLog.java
        KafkaPacket.java
        EmbeddedKafka.java
        LanguageCache.java
        services
        TranslationOperation.java
        TranslationService.java
        TranslationServiceProxy.java
        cassandra
        EmbeddedCassandra.java
        error
        ClusterException.java
        FailedToJoinClusterException.java
        SystemShutdownException.java
        TranslationTask.java
        EmbeddedService.java
        ClusterNode.java
        NodeInfo.java
        ShutdownThread.java
        ServerInfo.java
      - test
        java
        eu
        modernmt
        training
        MockMultilingualCorpus.java
        cleaning
        DraftFilterTest.java
        model
        SentenceTest.java
    - pom.xml
  - .gitignore
  - textprocessing
    - src
      - main
        resources
        eu
        modernmt
        processing
        tokenizer
        abbr
        is.txt
        pt.txt
        de.txt
        sl.txt
        ru.txt
        es.txt
        fi.txt
        sk.txt
        sv.txt
        nl.txt
        it.txt
        ta.txt
        pl.txt
        ga.txt
        cs.txt
        fr.txt
        el.txt
        ro.txt
        lv.txt
        hu.txt
        ca.txt
        en.txt
        chinese-words.list
        preprocessor-default.xml
        normalizers
        apos
        nl.txt
        it.txt
        fr.txt
        en.txt
        STCharacters.txt
        TSCharacters.txt
        postprocessor-default.xml
        pipeline-schema.xsd
        cleaning
        detect
        CN.voc
        TW.voc
        jflex
        eu
        modernmt
        processing
        tokenizer
        jflex
        annotators
        CommonTermsTokenAnnotator.pyflex
        EnglishTokenAnnotator.pyflex
        CatalanTokenAnnotator.pyflex
        FrenchTokenAnnotator.pyflex
        ItalianTokenAnnotator.pyflex
        detokenizer
        jflex
        stddetok-defs.pyx
        stddetok-rules.pyx
        contractions
        italian.txt
        english.txt
        french.txt
        annotators
        EnglishSpaceAnnotator.pyflex
        CatalanSpaceAnnotator.pyflex
        FrenchSpaceAnnotator.pyflex
        ThaiSpaceAnnotator.pyflex
        StandardSpaceAnnotator.pyflex
        ItalianSpaceAnnotator.pyflex
        CJKJoinerAnnotator.pyflex
        GermanSpaceAnnotator.pyflex
        macros.pyx
        java
        eu
        modernmt
        processing
        tokenizer
        impl
        SpanishTokenizer.java
        HindiTokenizer.java
        FrenchTokenizer.java
        IcelandicTokenizer.java
        GermanTokenizer.java
        ArmenianTokenizer.java
        HebrewTokenizer.java
        NorthernSamiTokenizer.java
        ThaiTokenizer.java
        KoreanTokenizer.java
        HungarianTokenizer.java
        BulgarianTokenizer.java
        MalayalamTokenizer.java
        GalicianTokenizer.java
        IndonesianTokenizer.java
        SwedishTokenizer.java
        IrishTokenizer.java
        DefaultTokenizer.java
        SlovakTokenizer.java
        TurkishTokenizer.java
        JapaneseTokenizer.java
        LatvianTokenizer.java
        EnglishTokenizer.java
        PolishTokenizer.java
        ArabicTokenizer.java
        GreekTokenizer.java
        ItalianTokenizer.java
        PortugueseTokenizer.java
        DutchTokenizer.java
        ChineseTokenizer.java
        CzechTokenizer.java
        RomanianTokenizer.java
        BasqueTokenizer.java
        CatalanTokenizer.java
        FinnishTokenizer.java
        FarsiTokenizer.java
        DanishTokenizer.java
        NorwegianTokenizer.java
        CentralKhmerTokenizer.java
        RussianTokenizer.java
        EsperantoTokenizer.java
        TagalogTokenizer.java
        SloveneTokenizer.java
        BretonTokenizer.java
        TamilTokenizer.java
        abbr
        AbbreviationAnnotator.java
        kuromoji
        KuromojiTokenAnnotator.java
        opennlp
        OpenNLPTokenAnnotator.java
        corenlp
        CoreNLPTokenAnnotator.java
        Tokenizer.java
        TokenizedString.java
        lucene
        LuceneTokenAnnotator.java
        analyzers
        LiteStandardAnalyzer.java
        ArabicAnalyzer.java
        ThaiAnalyzer.java
        HindiAnalyzer.java
        GermanAnalyzer.java
        HebrewAnalyzer.java
        PersianAnalyzer.java
        jflex
        JFlexTokenAnnotator.java
        BaseTokenizer.java
        languagetool
        tiny
        TagalogWordTokenizer.java
        MalayalamWordTokenizer.java
        GalicianWordTokenizer.java
        LanguageToolTokenizer.java
        StringTools.java
        EsperantoWordTokenizer.java
        KhmerWordTokenizer.java
        WordTokenizer.java
        BretonWordTokenizer.java
        LanguageToolTokenAnnotator.java
        StatisticalChineseAnnotator.java
        tags
        XMLCharacterEntity.java
        WhitespaceTagIdentifier.java
        XMLTagIdentifier.java
        cli
        XMLProjectorTestMain.java
        format
        NoopInputFormat.java
        XliffInputFormat.java
        InputFormat.java
        HtmlInputFormat.java
        XMLEntityEscaper.java
        projection
        TagCollection.java
        SpanCollection.java
        Span.java
        Coverage.java
        Alignment.java
        SpanTree.java
        TagProjector.java
        EmojiTagIdentifier.java
        XMLTagProcessor.java
        TagIdentifier.java
        normalizers
        CatalanPuntVolatNormalizer.java
        RareCharsNormalizer.java
        WhitespacesNormalizer.java
        apos
        ApostropheNormalizer.java
        ChineseCharacterConverter.java
        ItalianAccentMarkProcessor.java
        GuillemetsToQuotesProcessor.java
        ControlCharsRemover.java
        WordTextGuessingProcessor.java
        TextProcessor.java
        TextProcessingModels.java
        builder
        PipelineBuilder.java
        ProcessorGroupBuilder.java
        FilteredProcessorBuilder.java
        ProcessorBuilder.java
        XMLPipelineBuilder.java
        AbstractBuilder.java
        ProcessingException.java
        VoidProcessingPipeline.java
        splitter
        SentenceSplit.java
        SentenceSplitter.java
        SentenceBreakProcessor.java
        recaser
        UpperCasePreprocessor.java
        UpperCasePostprocessor.java
        SimpleRecaser.java
        ProcessingPipeline.java
        detokenizer
        WhitespaceProjector.java
        jflex
        SpacesAnnotatedString.java
        JFlexDetokenizer.java
        CJKJoinerDetokenizer.java
        JFlexSpaceAnnotator.java
        concurrent
        PipelineExecutor.java
        PipelineQueue.java
        numbers
        NumericWordPostprocessor.java
        NumericPlaceholderNormalizer.java
        internal
        NumericPlaceholder.java
        NumericUtils.java
        Phrase.java
        NumericSequence.java
        Preprocessor.java
        string
        SentenceCompiler.java
        TokenFactory.java
        TokenSet.java
        SentenceConstructor.java
        SentenceBuilder.java
        IndexMap.java
        Transformation.java
        Postprocessor.java
        cleaning
        normalizers
        DeepXMLEraser.java
        XMLStripper.java
        StringSpacingNormalizer.java
        ControlCharsStripper.java
        CorporaCleaning.java
        MultilingualCorpusFilterAdapter.java
        CorpusNormalizer.java
        detect
        ChineseDetector.java
        ChainedMultilingualCorpusFilter.java
        MultilingualCorpusFilter.java
        ChainedCorpusFilter.java
        filters
        BrokenUTF8Filter.java
        NumericTextFilter.java
        EmptyLinesFilter.java
        TooLongLinesFilter.java
        util
        Sequence.java
        lang
        OptimaizeLanguageBatchFilter.java
        Batch.java
        AbstractOptimaizeFilter.java
        OptimaizeLanguageFilter.java
        Blacklist.java
        OptimaizeLanguage.java
        PunctuationFilter.java
        VerbatimTranslationFilter.java
        RareNgramFilter.java
        draft
        TranslationCandidate.java
        DraftFilter.java
        DraftFilterData.java
        SentenceLengthFilter.java
        FilteredCorpus.java
        CorpusFilter.java
        FilteredMultilingualCorpus.java
      - test
        java
        eu
        modernmt
        processing
        xml
        Assertions.java
        XMLTagProjectorTest.java
        XMLTagProjectorSpacingTest.java
        PreprocessSpecialEntitiesTest.java
        PreprocessorTest.java
        SentenceSplitTest.java
        numbers
        NumericWordTest.java
        PostprocessorTest.java
    - script
      - pyflex.py
    - pom.xml
- mmt
- engines
  - .gitignore
- examples
  - data
    - train
      - ibm.it
      - ibm.en
- extras
  - human-eval
  - javamain
  - newversion
- LICENSE
- test
  - testcases
    - res
      - multilingual_echo_engine.tar.gz
      - onlinelearning
        Memory.en__de.cfc
        Memory.en__zh.cfc
        Memory.en__es.cfc
        Memory.en__it.cfc
        Memory.en__fr.cfc
      - stub_en_it_engine.tar.gz
      - privacy
        Memory-C.cfc
        Memory-B.cfc
        Memory-A.cfc
      - .gitignore
    - utils
      - __init__.py
      - connectors.py
    - tagprojection.py
    - running.py
    - backup.py
    - onlinelearning.py
    - __init__.py
    - privacy.py
  - __main__.py
  - README.md
- cli
  - utils
    - daemon.py
    - progressbar.py
    - osutils.py
    - __init__.py
    - nvidia_smi.py
    - network.py
  - mmt
    - engine.py
    - fileformats.py
    - processing.py
    - mmtcli.py
    - translation.py
    - charcut.py
    - __init__.py
    - bleu.py
  - evaluate.py
  - server.py
  - cleaning.py
  - datagen.py
  - memory.py
  - train.py
  - __init__.py
  - translate.py
  - create.py
- vendor
  - opennlp
    - da-token.bin
- runtime
  - .gitignore
- setup.py
- docker
  - docker-build.sh
  - Dockerfile
- README.md
- requirements.txt
- .gitignore
- INSTALL.md

package eu.modernmt.processing.tokenizer.corenlp;

import edu.stanford.nlp.international.arabic.process.ArabicTokenizer;
import edu.stanford.nlp.international.french.process.FrenchTokenizer;
import edu.stanford.nlp.international.spanish.process.SpanishTokenizer;
import edu.stanford.nlp.ling.HasOffset;
import edu.stanford.nlp.process.PTBTokenizer;
import edu.stanford.nlp.process.TokenizerFactory;
import eu.modernmt.lang.Language;
import eu.modernmt.lang.UnsupportedLanguageException;
import eu.modernmt.processing.tokenizer.BaseTokenizer;
import eu.modernmt.processing.tokenizer.TokenizedString;

import java.io.Reader;
import java.io.StringReader;
import java.util.HashMap;
import java.util.Map;

public class CoreNLPTokenAnnotator implements BaseTokenizer.Annotator {

    private static final Map<Language, TokenizerFactory<?>> FACTORIES = new HashMap<>();

    static {
        FACTORIES.put(Language.ENGLISH, PTBTokenizer.factory());
        FACTORIES.put(Language.ARABIC, ArabicTokenizer.factory());
        FACTORIES.put(Language.FRENCH, FrenchTokenizer.factory());
        FACTORIES.put(Language.SPANISH, SpanishTokenizer.factory());
    }

    private final TokenizerFactory<?> factory;

    public static CoreNLPTokenAnnotator forLanguage(Language language) throws UnsupportedLanguageException {
        TokenizerFactory<?> factory = FACTORIES.get(language);
        if (factory == null)
            throw new UnsupportedLanguageException(language);

        /*sets special options if source language is English*/
        if (Language.ENGLISH.getLanguage().equals(language.getLanguage()))
            factory.setOptions("ptb3Escaping=false,asciiQuotes=true,normalizeSpace=false");

        return new CoreNLPTokenAnnotator(factory);
    }

    private CoreNLPTokenAnnotator(TokenizerFactory<?> factory) {
        this.factory = factory;
    }

    @Override
    public void annotate(TokenizedString string) {
        Reader reader = new StringReader(string.toString());
        edu.stanford.nlp.process.Tokenizer<?> tokenizer;
        synchronized (this) {
            tokenizer = this.factory.getTokenizer(reader);
        }

        while (tokenizer.hasNext()) {
            Object token = tokenizer.next();

            if (token instanceof HasOffset) {
                HasOffset hasOffset = (HasOffset) token;
                int begin = hasOffset.beginPosition();
                int end = hasOffset.endPosition();

                string.setWord(begin, end);
            }
        }
    }

}