java source code of DeNormalize

joshua-master
- NOTICE.txt
- src
  - main
    - resources
      - log4j.properties
    - java
      - org
        apache
        joshua
        zmert
        IntermediateOptimizer.java
        package-info.java
        ZMERT.java
        MertCore.java
        mira
        MIRACore.java
        MIRA.java
        Optimizer.java
        subsample
        PhrasePair.java
        Subsampler.java
        AlignedSubsampler.java
        Alignment.java
        SubsamplerCLI.java
        package-info.java
        PhraseReader.java
        BiCorpusFactory.java
        PhraseWriter.java
        BiCorpus.java
        corpus
        SymbolTable.java
        Span.java
        AbstractPhrase.java
        TerminalIterator.java
        Phrase.java
        Corpus.java
        ContiguousPhrase.java
        syntax
        ArraySyntaxTree.java
        SyntaxTree.java
        Vocabulary.java
        BasicPhrase.java
        decoder
        chart_parser
        ComputeNodeResult.java
        CubePruneState.java
        Chart.java
        DotChart.java
        Cell.java
        package-info.java
        StateConstraint.java
        SuperNode.java
        SourcePath.java
        BLEU.java
        JoshuaConfiguration.java
        hypergraph
        OutputStringExtractor.java
        HyperGraph.java
        FeatureVectorExtractor.java
        GrammarBuilderWalkerFunction.java
        StringToTreeConverter.java
        DefaultInsideOutside.java
        ViterbiExtractor.java
        WalkerFunction.java
        AllSpansWalker.java
        TrivialInsideOutside.java
        HyperEdge.java
        ForestWalker.java
        package-info.java
        HGNode.java
        WordAlignmentState.java
        AlignedSourceTokens.java
        WordAlignmentExtractor.java
        KBestExtractor.java
        HyperGraphPruning.java
        TranslationResponseStream.java
        Translation.java
        Support.java
        Decoder.java
        NbestMinRiskReranker.java
        ff
        state_maintenance
        KenLMState.java
        NgramDPState.java
        DPState.java
        RuleLength.java
        LabelCombinationFF.java
        RulePropertiesQuerying.java
        StatefulFF.java
        TargetBigram.java
        FeatureFunction.java
        StatelessFF.java
        OOVPenalty.java
        lm
        ArpaFile.java
        AbstractLM.java
        DefaultNGramLanguageModel.java
        buildin_lm
        TrieLM.java
        package-info.java
        ClassMap.java
        ArpaNgram.java
        package-info.java
        NGramLanguageModel.java
        KenLM.java
        LanguageModelFF.java
        StateMinimizingLanguageModel.java
        bloomfilter_lm
        BloomFilter.java
        package-info.java
        BloomFilterLanguageModel.java
        berkeley_lm
        LICENSE
        README
        SymbolTableWrapper.java
        LMGrammarBerkeley.java
        RuleShape.java
        RuleCountBin.java
        tm
        Trie.java
        hash_based
        MemoryBasedRuleBin.java
        MemoryBasedTrie.java
        ExtensionIterator.java
        package-info.java
        MemoryBasedBatchGrammar.java
        Rule.java
        OwnerId.java
        CreateGlueGrammar.java
        format
        HieroFormatReader.java
        MosesFormatReader.java
        OwnerMap.java
        BasicRuleCollection.java
        package-info.java
        RuleCollection.java
        Grammar.java
        GrammarReader.java
        packed
        SliceAggregatingTrie.java
        PackedGrammar.java
        AbstractGrammar.java
        UnsortedRuleCollectionException.java
        fragmentlm
        ConcatenationIterator.java
        PennTreebankReader.java
        Tree.java
        Trees.java
        FragmentLMFF.java
        WordPenalty.java
        package-info.java
        LabelSubstitutionFF.java
        PhrasePenalty.java
        LexicalFeatures.java
        SourcePathFF.java
        ArityPhrasePenalty.java
        FeatureVector.java
        SourceDependentFF.java
        phrase
        Distortion.java
        PhraseModel.java
        RuleFF.java
        similarity
        EdgePhraseSimilarityFF.java
        package-info.java
        LmPool.java
        JoshuaDecoder.java
        io
        DeNormalize.java
        TranslationRequestStream.java
        JSONMessage.java
        LanguageModelStateManager.java
        DecoderTask.java
        StructuredTranslationFactory.java
        ArgsParser.java
        StructuredTranslation.java
        phrase
        Coverage.java
        Header.java
        PhraseNodes.java
        Note.java
        Hypothesis.java
        Stacks.java
        PhraseTable.java
        Stack.java
        Future.java
        Candidate.java
        PhraseChart.java
        segment_file
        Token.java
        ParseTreeInput.java
        ConstraintSpan.java
        package-info.java
        Sentence.java
        ConstraintRule.java
        ParsedSentence.java
        ui
        StartupWindow.java
        package-info.java
        Orientation.java
        tree_visualizer
        DerivationTreeTransformer.java
        DerivationTreeEdge.java
        Node.java
        DerivationViewer.java
        browser
        TranslationInfo.java
        Browser.java
        DerivationTreeFrame.java
        DerivationViewerApplet.java
        DerivationTree.java
        tree
        Tree.java
        adagrad
        Optimizer.java
        AdaGradCore.java
        AdaGrad.java
        oracle
        OracleExtractionHG.java
        package-info.java
        SplitHg.java
        OracleExtractor.java
        util
        Ngram.java
        FormatUtils.java
        PackedGrammarServer.java
        StreamGobbler.java
        JoshuaEval.java
        Platform.java
        quantization
        QuantizerFactory.java
        QuantizerConfiguration.java
        BooleanQuantizer.java
        package-info.java
        Quantizer.java
        StatelessQuantizer.java
        Constants.java
        Counted.java
        Regex.java
        package-info.java
        Bits.java
        ListUtil.java
        io
        IndexedReader.java
        Reader.java
        LineReader.java
        BinaryOut.java
        ExistingUTF8EncodedTextFile.java
        package-info.java
        BinaryIn.java
        ProgressInputStream.java
        ExtractTopCand.java
        Algorithms.java
        ChartSpan.java
        Pair.java
        Counts.java
        FileUtility.java
        NBestListUtility.java
        encoding
        PrimitiveIntEncoder.java
        EightBitQuantizer.java
        Analyzer.java
        IntEncoder.java
        VariableQuantizer.java
        FeatureTypeAnalyzer.java
        EncoderFactory.java
        EncoderConfiguration.java
        FloatEncoder.java
        PrimitiveFloatEncoder.java
        Cache.java
        pro
        ClassifierMegaM.java
        ClassifierInterface.java
        Optimizer.java
        PRO.java
        ClassifierPerceptron.java
        PROCore.java
        ClassifierSVM.java
        lattice
        Lattice.java
        NodeIdentifierComparator.java
        Arc.java
        Node.java
        package-info.java
        server
        ServerThread.java
        TcpServer.java
        tools
        GrammarPackerCli.java
        TestSetFilter.java
        LabelPhrases.java
        GrammarPacker.java
        metrics
        Precis.java
        BLEU.java
        TERMinusBLEU.java
        CHRF.java
        METEOR.java
        EvaluationMetric.java
        ZeroOneLoss.java
        MinimumChangeBLEU.java
        GradeLevelBLEU.java
        SourceBLEU.java
        NewMetric.java.template
        BLEU_SBP.java
        TER.java
        SARI.java
        PrecisMinusSourceBLEU.java
        TercomRunner.java
    - assembly
      - src.xml
  - test
    - resources
      - grammar.glue
      - prune-equivalent-translations.py
      - wa_grammar
      - wa_grammar.packed
        vocabulary
        config
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        slice_00000.alignments
        encoding
        slice_00000.target
      - decoder
        oov-list
        output.gold
        grammar
        joshua.config
        input.txt
        glue-grammar
        rescoring
        output.gold
        grammar.gz
        joshua.config
        input.txt
        glue-grammar
        constrained
        output.gold
        joshua.config
        input.bn
        .gitignore
        glue-grammar
        num_translation_options
        output.gold
        output-packed.gold
        grammar.packed
        vocabulary
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        encoding
        slice_00000.target
        README
        grammar.gz
        joshua.config
        joshua-packed.config
        output-no-dot-chart.gold
        glue-grammar
        input
        source-annotations
        grammar.glue
        output.gold
        grammar
        joshua.config
        input.txt
        lowercaser
        grammar.glue
        grammar.test
        config
        joshua.config
        target-bigram
        vocab
        tree-output
        output.gold
        grammar.gz
        joshua.config
        glue-grammar
        input
        moses-compat
        n-best.txt
        test.sh
        NEEDS_UPDATING
        output.expected
        n-ary
        output.gold
        weights
        grammar
        joshua.config
        input.txt
        glue-grammar
        left-state
        output.gold
        joshua.config
        input.bn
        glue-grammar
        phrase
        unique-hypotheses
        joshua.config
        lm.1.gz
        dont-crash
        input
      - lattice-short
        test.sh
        README
        grammar.test
        test.lm
        joshua.config
        glue-grammar
        input
        output.expected
      - joshua
        README.broken
      - phrase_decoder
        config.packed
        output.gold
        constrained.config
        constrained.output.gold
        config
        lm.1.gz
        rules.packed
        vocabulary
        config
        slice_00000.target.lookup
        encoding
      - lm
        class_lm
        class.map
        berkeley
        lm.gz
        lm.berkeleylm.gz
        lm.berkeleylm
        lm
      - grammar
        sparse-features
        grammar.glue
        grammar.packed
        vocabulary
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        encoding
        slice_00000.target
        grammar
        joshua.config
        joshua-packed.config
      - thrax
        extraction
        test.sh
        input
        train.en
        train.ps
        thrax.conf
        train.a
        filtering
        grammar.de
        loose.log.gold
        fast.log.gold
        input.de
        test-fast.sh
        dev.hi-en.hi.1
        test-exact.sh
        exact.log.gold
        fast.gold
        grammar.filtered.gz
        exact.gold
        test-loose.sh
        .gitignore
      - packed-grammar
        reference.en.3
        test-multiple.sh
        output.gold
        test.sh
        README
        reference.en.1
        joshua.config
        input.bn
        reference.en.2
        reference.en.0
        .gitignore
      - lm_oov
        joshua.config
      - lattice
        test.sh
        README
        grammar.test
        test.lm
        joshua.config
        test.plf
        .gitignore
        glue-grammar
        output.expected
      - data
        tiny.en
      - testng.xml
      - scripts
        support
        moses_grammar
        test.sh
        input
        output.expected
        run_bundler_test.py
        .gitignore
        merge_lms_test.py
        normalization
        test.sh
        data
        train.en
        train.en.norm
        .gitignore
      - server
        tcp-text
        test.sh
        expected
        http
        test.sh
        expected
      - pipeline
        Makefile
        test.sh
        test-ghkm.sh
        .gitignore
        input
        devtest.en.3
        train.en
        train.ur
        devtest.ur
        devtest.en.1
        tune.ur
        devtest.en.2
        tune.en.3
        tune.en.0
        tune.en.1
        devtest.en.0
        tune.en.2
        final-bleu.gold
      - bn-en
        hiero
        output.gold
        joshua.config
        joshua-classlm.config
        input.bn
        class.map
        output-berkeleylm.gold
        output-classlm.gold
        .gitignore
        glue-grammar
        joshua-berkeleylm.config
        samt
        output.gold
        joshua.config
        input.bn
        packed
        output.gold
        grammar.packed
        vocabulary
        slice_00000.target.lookup
        encoding
        slice_00000.target
        joshua.config
        input.bn
        .gitignore
      - run-all-tests.sh
      - kenlm
        oilers.kenlm
      - kbest_extraction
        grammar
        joshua.config
        output.scores.gold
        glue-grammar
      - parser
        grammar.glue
        output.gold
        parse.config
        weights
        test.sh
        grammar
        input
      - berkeley_lm
        lm
    - java
      - org
        apache
        joshua
        zmert
        BLEUTest.java
        corpus
        VocabularyTest.java
        SpanTest.java
        decoder
        ff
        lm
        class_lm
        ClassBasedLanguageModelTest.java
        ClassMapTest.java
        LanguageModelFFTest.java
        ArpaFileTest.java
        berkeley_lm
        LMBerkeleySentenceProbablityTest.java
        LMGrammarBerkeleyTest.java
        tm
        OwnerMapTest.java
        io
        TranslationRequestStreamTest.java
        DeNormalizeTest.java
        phrase
        constrained
        ConstrainedPhraseDecodingTest.java
        CoverageTest.java
        decode
        PhraseDecodingTest.java
        kbest_extraction
        KBestExtractionTest.java
        TestTranslation.java
        segment_file
        AlmostTooLongSentenceTest.java
        SentenceTest.java
        cky
        DoNotCrashTest.java
        LeftStateTest.java
        RescoringTest.java
        UniqueHypothesesTest.java
        OOVListTest.java
        NAryTest.java
        TestUtil.java
        TargetBigram.java
        LowercaseTest.java
        BnEnDecodingTest.java
        TreeOutputTest.java
        ConstrainedTest.java
        SourceAnnotationsTest.java
        SparseFeatureTest.java
        TooLongTest.java
        NoGrammarTest.java
        DenormalizationTest.java
        NumTranslationOptionsTest.java
        ui
        tree_visualizer
        tree
        TreeTest.java
        util
        BitsTest.java
        FormatUtilsTest.java
        io
        KenLmTestUtil.java
        BinaryTest.java
        CacheTest.java
        CountsTest.java
        lattice
        NodeTest.java
        ArcTest.java
        LatticeTest.java
        system
        MultithreadedTranslationTests.java
        KenLmTest.java
        StructuredTranslationTest.java
        AlignmentMapTest.java
        LmOovFeatureTest.java
        StructuredOutputTest.java
        packed
        README
        PrintRules.java
        Benchmark.java
        packer.config
        CountRules.java
  - overview.html
- demo
  - bootstrap
    - fonts
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.woff2
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - js
      - bootstrap.min.js
      - bootstrap.js
      - npm.js
      - jquery-2.2.0.min.js
    - css
      - bootstrap.min.css.map
      - bootstrap-theme.css.map
      - bootstrap.min.css
      - bootstrap.css
      - bootstrap-theme.min.css
      - bootstrap-theme.css
      - bootstrap-theme.min.css.map
  - demo.config
  - demo.js
  - README.md
  - scripts
    - joshua.sh
    - web_server.py
  - index.html
- examples
  - training
    - hiero-europarl.sh
    - README
    - hiero.sh
    - ghkm.sh
    - samt.sh
    - phrase.sh
  - old
    - PRO
      - sparse_feat
      - libsvm_command
      - run.sh
      - joshua.config
      - params.txt
      - pro.config
      - megam_command
    - ZMERT
      - ref.3
      - README_ZMERT.txt
      - ref.2
      - src.txt
      - decoder_command_ex2
      - ref.0
      - ZMERT_config_ex2.txt
      - ref.1
      - params.txt
      - ZMERT.out.verbosity1
      - config_ex2.txt
  - README.md
  - tree_visualizer
    - tree_visualizer.cmd
    - tree.en.2
    - tree.fr
    - README
    - tree.en
    - tree.ref
  - download.sh
- pom.xml
- .gitmodules
- CHANGES.md
- jni
  - build_kenlm.sh
  - kenlm_wrap.cc
- eclipse-codeformat.xml
- distribution
  - docker
    - dev
      - Dockerfile
    - README.md
    - kenlm
      - README.md
      - Dockerfile
  - joshua-runtime
    - reactive
      - joshua_runtime.py
    - icon.svg
    - actions
      - add-language-pack
      - remove-language-pack
    - config.yaml
    - actions.yaml
    - metadata.yaml
    - README.md
    - tests
      - 00-setup
      - 10-deploy
    - copyright
    - layer.yaml
  - joshua-full
    - reactive
      - joshua_runtime.py
    - icon.svg
    - actions
      - add-language-pack
      - remove-language-pack
    - config.yaml
    - actions.yaml
    - metadata.yaml
    - README.md
    - tests
      - 00-setup
      - 10-deploy
    - copyright
    - layer.yaml
- .travis.yml
- README.md
- scripts
  - distributedLM
    - get_grammar_eng_voc.pl
    - create_remote_sym_tbl.pl
    - get_grammar_eng_voc_from_cn_voc.pl
    - lm.list.withweights
    - filter_lm.pl
    - job_start_lmserver.sh
    - config.template
    - global_symol_list
  - training
    - scat
    - TODO
    - parmbr.sh
    - cachepipe
      - CachePipe.pm
      - bashrc
      - README
    - filter-rules.pl
    - parallelize
      - parallelize.pl
      - Makefile
      - LocalConfig.pm
      - sentclient.c
      - sentserver.c
      - sentserver.h
    - lowercase-leaves.pl
    - mira
      - run-mira.pl
      - feature_label_munger.pl
    - unmap-html.pl
    - get_grammar_features.pl
    - filter-empty-lines.pl
    - class-lm
      - replaceTokensWithClasses.py
    - templates
      - thrax-phrase.conf
      - thrax-hiero.conf
      - thrax-samt.conf
      - hadoop
        hdfs-site.xml
        slaves
        masters
        mapred-site.xml
        core-site.xml
      - thrax-phrasal.conf
      - tune
        joshua.config
        decoder_command.qsub
        decoder_command
      - alignment
        jacana
        resources
        freedict
        en-fr.fr-en.dict.gz
        fr-en.dict.gz
        en-fr.dict.gz
        wiktionary
        model
        fr-en.model
        EnglishSD.bin.gz
        word-align.conf
      - glue-grammar.itg
      - thrax-phrase-gt.conf
      - glue-grammar
    - run_tuner.py
    - paste
    - pipeline.pl
    - summarize.pl
    - paralign.pl
    - add-OOVs.pl
    - run-giza.pl
    - trim_parallel_corpus.pl
    - build-vocab.pl
  - ems
    - config.hiero
    - config.phrase
    - experiment.meta
    - config.ghkm
  - support
    - make-release.sh
    - create_glue_grammar.sh
    - split2files
    - phrase2hiero.py
    - merge_lms.py
    - filter_grammar.sh
    - moses2joshua.pl
    - bbn2plf.pl
    - grammar-packer.pl
    - write-version.sh
    - extract-1best
    - moses2joshua_grammar.pl
    - prepare.sh
    - query_http.py
    - .gitignore
    - run_bundler.py
    - score-hypothesis.pl
  - misc
    - canonical_path
    - iso639
  - lm
    - compile_berkeley.py
  - thrax
    - run_thrax.py
    - strip_label.py
  - toolkit
    - chunki.py
    - shorti.py
    - extract_references.py
    - joini.py
  - copy-config.pl
  - language-pack
    - README.template
    - copy_model.py
    - test_lp.sh
    - prepare.sh
    - VERSIONS
    - build_lp.sh
  - analysis
    - sentence-by-sentence.pl
    - tree_visualizer
  - filter_grammar_to_sentences.sh
  - features
    - addSparseFeatures.py
  - samt
    - postprocessSAMT.sh
    - pipeline.sh
    - selectFeatures.py
    - filterGrammar.py
    - lexprob2samt.py
  - preparation
    - tokenize.pl
    - detokenize.pl
    - nonbreaking_prefixes
      - nonbreaking_prefix.ca
      - nonbreaking_prefix.ru
      - nonbreaking_prefix.ro
      - nonbreaking_prefix.sv
      - nonbreaking_prefix.hu
      - nonbreaking_prefix.sk
      - nonbreaking_prefix.it
      - nonbreaking_prefix.es
      - nonbreaking_prefix.nl
      - nonbreaking_prefix.cs
      - nonbreaking_prefix.pt
      - nonbreaking_prefix.sl
      - nonbreaking_prefix.fr
      - nonbreaking_prefix.lv
      - nonbreaking_prefix.en
      - nonbreaking_prefix.de
      - nonbreaking_prefix.pl
      - nonbreaking_prefix.el
      - nonbreaking_prefix.is
    - preprocess.sh
    - normalize.pl
    - lowercase.pl
- download-deps.sh
- KEYS
- bin
  - meteor
  - joshua
  - bleu
  - extract-1best
  - debug-joshua
  - pipeline.pl
  - joshua-decoder
- doap_joshua.rdf
- .gitignore
- LICENSE.txt
- doc
  - zmert_release
  - release.md
  - Doxyfile
  - sparse_features.md
  - mainpage.md
  - Eclipse.howto
  - documentation.md
  - troubleshooting.md

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *  http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package org.apache.joshua.decoder.io;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Denormalize a(n English) string in a collection of ways listed below.
 * <UL>
 * <LI>Capitalize the first character in the string</LI>
 * <LI>Detokenize</LI>
 * <LI>Delete whitespace in front of periods and commas</LI>
 * <LI>Join contractions</LI>
 * <LI>Capitalize name titles (Mr Ms Miss Dr etc.)</LI>
 * <LI>TODO: Handle surrounding characters ([{&lt;"''"&gt;}])</LI>
 * <LI>TODO: Join multi-period abbreviations (e.g. M.Phil. i.e.)</LI>
 * <LI>TODO: Handle ambiguities like "st.", which can be an abbreviation for both "Saint" and
 * "street"</LI>
 * <LI>TODO: Capitalize both the title and the name of a person, e.g. Mr. Morton (named entities
 * should be demarcated).</LI>
 * </UL>
 * <b>N.B.</b> These methods all assume that every translation result that will be
 * denormalized has the following format:
 * <UL>
 * <LI>There is only one space between every pair of tokens</LI>
 * <LI>There is no whitespace before the first token</LI>
 * <LI>There is no whitespace after the final token</LI>
 * <LI>Standard spaces are the only type of whitespace</LI>
 * </UL>
 */

public class DeNormalize {

  /**
   * Apply all the denormalization methods to the normalized input line.
   * 
   * @param normalized a normalized input line
   * @return the denormalized String
   */
  public static String processSingleLine(String normalized) {
    // The order in which the methods are applied could matter in some situations. E.g., a token to
    // be matched is "phd", but if it is the first token in the line, it might have already been
    // capitalized to "Phd" by the capitalizeFirstLetter method, and because the "phd" token won't
    // match, "Phd" won't be corrected to "PhD".
    String deNormalized = normalized;
    deNormalized = capitalizeNameTitleAbbrvs(deNormalized);
    deNormalized = replaceBracketTokens(deNormalized);
    deNormalized = joinPunctuationMarks(deNormalized);
    deNormalized = joinHyphen(deNormalized);
    deNormalized = joinContractions(deNormalized);
    deNormalized = capitalizeLineFirstLetter(deNormalized);
    return deNormalized;
  }

  /**
   * Capitalize the first letter of a line. This should be the last denormalization step applied to
   * a line.
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String capitalizeLineFirstLetter(String line) {
    String result = null;
    Pattern regexp = Pattern.compile("[^\\p{Punct}\\p{Space}¡¿]");
    Matcher matcher = regexp.matcher(line);
    if (matcher.find()) {
      String match = matcher.group(0);
      result = line.replaceFirst(match, match.toUpperCase());
    } else {
      result = line;
    }
    return result;
  }

  /**
   * Scanning from left-to-right, a comma or period preceded by a space will become just the
   * comma/period.
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String joinPunctuationMarks(String line) {
    String result = line;
    result = result.replace(" ,", ",");
    result = result.replace(" ;", ";");
    result = result.replace(" :", ":");
    result = result.replace(" .", ".");
    result = result.replace(" !", "!");
    result = result.replace("¡ ", "¡");
    result = result.replace(" ?", "?");
    result = result.replace("¿ ", "¿");
    result = result.replace(" )", ")");
    result = result.replace(" ]", "]");
    result = result.replace(" }", "}");
    result = result.replace("( ", "(");
    result = result.replace("[ ", "[");
    result = result.replace("{ ", "{");
    return result;
  }

  /**
   * Scanning from left-to-right, a hyphen surrounded by a space before and after it will become
   * just the hyphen.
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String joinHyphen(String line) {
    return line.replace(" - ", "-");
  }

  /**
   * Scanning the line from left-to-right, a contraction suffix preceded by a space will become just
   * the contraction suffix. <br>
   * <br>
   * I.e., the preceding space will be deleting, joining the prefix to the suffix. <br>
   * <br>
   * E.g.
   * 
   * <pre>wo n't</pre>
   * 
   * becomes
   * 
   * <pre>won't</pre>
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String joinContractions(String line) {
    String result = line;
    for (String suffix : new String[] {"'d", "'ll", "'m", "n't", "'re", "'s", "'ve",}) {
      result = result.replace(" " + suffix, suffix);
    }
    return result;
  }

  /**
   * Capitalize the first character of the titles of names: Mr Mrs Ms Miss Dr Prof
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String capitalizeNameTitleAbbrvs(String line) {
    String result = line;

    // Capitalize only the first character of certain name titles.
    for (String title : new String[] {"dr", "miss", "mr", "mrs", "ms", "prof"}) {
      result =
          result.replaceAll("\\b" + title + "\\b",
              Character.toUpperCase(title.charAt(0)) + title.substring(1));
    }
    // Capitalize the relevant characters of certain name titles.
    result = result.replaceAll("\\b" + "phd" + "\\b", "PhD");
    result = result.replaceAll("\\b" + "mphil" + "\\b", "MPhil");
    return result;
  }

  public static String capitalizeI(String line) {
    // Capitalize only the first character of certain name titles.
    return line.replaceAll("\\b" + "i" + "\\b", "I");
  }

  /**
   * Case-insensitively replace all of the character sequences that represent a bracket character.
   * 
   * Keys are token representations of abbreviations of titles for names that capitalize more than
   * just the first letter.<br>
   * Bracket token sequences: -lrb- -rrb- -lsb- -rsb- -lcb- -rcb- <br>
   * <br>
   * See http://www.cis.upenn.edu/~treebank/tokenization.html
   * 
   * @param line The single-line input string
   * @return The input string modified as described above
   */
  public static String replaceBracketTokens(String line) {
    String result = line;
    result = result.replaceAll("(?iu)" + "-lrb-", "(");
    result = result.replaceAll("(?iu)" + "-rrb-", ")");
    result = result.replaceAll("(?iu)" + "-lsb-", "[");
    result = result.replaceAll("(?iu)" + "-rsb-", "]");
    result = result.replaceAll("(?iu)" + "-lcb-", "{");
    result = result.replaceAll("(?iu)" + "-rcb-", "}");
    return result;
  }

}