java source code of ImprovedLuceneInMemorySentenceRetrievalExecutor

bioasq-master
- src
  - main
    - script
      - bioasq-dev-fixer.py
    - resources
      - log4j.properties
      - properties
        direct-gopubmed-document.properties
        direct-gopubmed-document.properties.old
        direct-gopubmed-concept.properties.old
        direct-gopubmed-triple.properties
        direct-gopubmed-concept.properties
      - dictionaries
        stoplist-top5k.txt
        noun-tags.txt
        stoplist-gene-top5k.txt
        bioconcept-uri-prefix.tsv
        stoplist.txt
        negative-words.txt
        stoplist-gene.txt
        quantity-question-words.txt
        allowed-umls-types.txt
        stoplist-gene-modified.txt
        stoplist-top5k.tsv
        pos-tags.txt
        negation-cues.txt
        positive-words.txt
      - models
        bioqa
        answer
        score
        4b-dev-weka-cvr.dataset-schema
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        collective_score
        4b-dev-weka-cvr.dataset-schema
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        yesno
        4b-dev-weka-logistic.dataset-schema
        4b-dev-weka-cvr.dataset-schema
        4b-dev-liblinear.lindex
        4b-dev-weka-other.dataset-schema
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        document
        rerank
        4b-dev-weka-logistic.dataset-schema
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        passage
        rerank
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        answer_type
        4b-dev-liblinear-null.lindex
        4b-dev-liblinear.lindex
        4b-dev-liblinear-null.findex
        4b-dev-liblinear.findex
        concept
        rerank
        4b-dev-weka-logistic.dataset-schema
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
        bioasq
        concept
        rerank
        4b-dev-liblinear.cv
        4b-dev-liblinear.lindex
        4b-dev-liblinear.model
        4b-dev-liblinear.findex
      - bioqa
        providers
        kb
        lingpipe-genia.yaml
        concept-search-uts.yaml.template
        synonym-uts-cached.yaml.template
        metamap.yaml.template
        lingpipe-genetag.yaml
        concept-search-uts-cached.yaml.template
        tmtool.yaml
        tmtool-cached.yaml
        metamap-cached.yaml.template
        synonym-uts.yaml.template
        .gitignore
        parser
        lingpipe-regex-genia.yaml
        lingpipe-indoeuro-medpost.yaml
        lingpipe-indoeuro-genia.yaml
        clearnlp-bioinformatics.yaml
        clearnlp-medical.yaml
        lingpipe-regex-medpost.yaml
        question
        parse
        lingpipe-regex-genia.yaml
        lingpipe-indoeuro-medpost.yaml
        lingpipe-indoeuro-genia.yaml
        clearnlp-bioinformatics.yaml
        clearnlp-medical.yaml
        lingpipe-regex-medpost.yaml
        concept
        lingpipe-genia.yaml
        metamap.yaml
        metamap-cached.yaml
        lingpipe-genetag.yaml
        tmtool.yaml
        tmtool-cached.yaml
        answer
        score
        weka-cvr.yaml
        weka-cvr-train.yaml
        cv-load-liblinear.yaml
        liblinear.yaml
        weka-cvr-predict.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        concept-proximity.yaml
        token-proximity.yaml
        stopword-count.yaml
        parsehead-proximity.yaml
        classifier-predict.yaml
        classifier-train.yaml
        collective_score
        weka-cvr.yaml
        weka-cvr-train.yaml
        liblinear.yaml
        weka-cvr-predict.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        generate
        generate.yaml
        generators
        concept.yaml
        cao
        predict-hmm.yaml
        predict-crf.yaml
        train-hmm.yaml
        train-crf.yaml
        transducer-hmm.yaml
        transducer-crf.yaml
        yesno
        predict.yaml
        weka-cvr.yaml
        weka-logistic.yaml
        train.yaml
        weka-logistic-train.yaml
        weka-cvr-train.yaml
        liblinear.yaml
        weka-cvr-predict.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        token-overlap.yaml
        alternate-answer.yaml
        weka-logistic-predict.yaml
        document
        retrieval
        lucene-medline.yaml.template
        rerank
        weka-logistic.yaml
        logreg-pubmed.yaml
        weka-logistic-train.yaml
        cv-load-liblinear.yaml
        liblinear.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        lucene-medline.yaml.template
        logreg-params.txt
        classifier-predict.yaml
        classifier-train.yaml
        weka-logistic-predict.yaml
        .gitignore
        passage
        retrieval
        lucene-sentence-medline.yaml
        lucene-sentence-medline-improve.yaml
        rerank
        liblinear.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        lucene.yaml
        classifier-predict.yaml
        classifier-train.yaml
        evidence
        parse
        lingpipe-regex-genia.yaml
        lingpipe-indoeuro-medpost.yaml
        lingpipe-indoeuro-genia.yaml
        clearnlp-bioinformatics.yaml
        clearnlp-medical.yaml
        lingpipe-regex-medpost.yaml
        concept
        lingpipe-genia.yaml
        metamap-cached.yaml
        lingpipe-genetag.yaml
        search-uts.yaml
        tmtool.yaml
        tmtool-cached.yaml
        search-uts-cached.yaml
        abstract_query
        token-concept.yaml
        answer_type
        load-cv-liblinear-null.yaml
        meka-pcc-null.yaml
        meka-pcc.yaml
        liblinear-null-train.yaml
        weka-knn-null-predict.yaml
        weka-reptree.yaml
        meka-pcc-predict.yaml
        meka-pcc-null-train.yaml
        weka-knn-null.yaml
        gslabel-uts.yaml
        liblinear.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        gslabel-tmtool.yaml
        weka-reptree-null-train.yaml
        weka-reptree-null.yaml
        weka-knn-train.yaml
        load-cv-liblinear.yaml
        meka-pcc-train.yaml
        weka-reptree-train.yaml
        weka-knn-predict.yaml
        weka-reptree-null-predict.yaml
        weka-knn-null-train.yaml
        weka-knn.yaml
        liblinear-null-predict.yaml
        weka-reptree-predict.yaml
        meka-pcc-null-predict.yaml
        liblinear-null.yaml
        concept
        retrieval
        lucene-bioconcept.yaml.template
        rerank
        weka-logistic.yaml
        weka-logistic-train.yaml
        liblinear.yaml
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        lucene-bioconcept.yaml.template
        classifier-predict.yaml
        classifier-train.yaml
        weka-logistic-predict.yaml
        .gitignore
        preprocess
        question-kb-cache.yaml
        passage-kb-cache.yaml
      - bioasq
        phase-a-test.yaml
        phase-b-evaluate-yesno.yaml
        phase-b-train-answer-score.yaml
        phase-a-train-concept-document.yaml
        phase-a-train-snippet.yaml
        preprocess-kb-cache.yaml
        phase-b-train-answer-collective-score.yaml
        phase-b-test-factoid-list.yaml
        phase-b-train-answer-type.yaml
        phase-b-train-yesno.yaml
        eval
        calculator
        answer-eval-calculator.yaml
        document
        retrieval
        dixu-proprietary.yaml
        gopubmed.yaml
        phase-a-evaluate.yaml
        gs
        bioasq-qa-gs-decorator.yaml
        collection
        json
        json-cas-consumer.yaml
        passage
        retrieval
        document-to-passage.yaml
        pmc-content.yaml.template
        phase-b-test-yesno.yaml
        preprocess-answer-type-gslabel.yaml
        triple
        retrieval
        gopubmed.yaml
        yesno-evidence-alternate.yaml
        concept
        retrieval
        gopubmed.yaml
        gopubmed-separate.yaml
        rerank
        searchid-weight.yaml
        liblinear.yaml
        ontology-logreg-params.txt
        liblinear-train.yaml
        liblinear-predict.yaml
        scorers
        gopubmed.yaml
        classifier-predict.yaml
        classifier-train.yaml
        phase-b-evaluate-factoid-list.yaml
      - baseqa
        providers
        ml
        classifiers
        weka-cvr.yaml
        meka-pcc.yaml
        libsvm.yaml
        weka-logistic.yaml
        feature-constructor.yaml
        meka.yaml
        weka-reptree.yaml
        liblinear.yaml
        weka.yaml
        weka-knn.yaml
        kb
        opennlp-np.yaml
        opennlp-npppnp.yaml
        frequent-phrase.yaml
        opennlp.yaml
        parser
        lingpipe-regex-brown.yaml
        clearnlp-general.yaml
        lingpipe-indoeuro-brown.yaml
        question
        parse
        lingpipe-regex-brown.yaml
        clearnlp-general.yaml
        lingpipe-indoeuro-brown.yaml
        focus.yaml
        yesno
        yesno-to-factoid.yaml
        concept
        opennlp-np.yaml
        opennlp-npppnp.yaml
        learning_base
        classifier-predict.yaml
        classifier-train.yaml
        cv-load.yaml
        cas-serialize.yaml
        answer
        modify
        modify.yaml
        pruner.yaml
        modifiers
        ratio-88.yaml
        list-50.yaml
        list-70.yaml
        ratio-72.yaml
        merge.yaml
        score
        scorers
        concept-proximity.yaml
        name-count.yaml
        cao-count.yaml
        focus-overlap-count.yaml
        concept-overlap-count.yaml
        answer-type.yaml
        focus.yaml
        focus-proximity.yaml
        token-overlap-count.yaml
        token-proximity.yaml
        avg-covered-token-count.yaml
        stopword-count.yaml
        concept-type.yaml
        parsehead-proximity.yaml
        parse.yaml
        type-coercion.yaml
        classifier-predict.yaml
        classifier-train.yaml
        simple.yaml
        cv-load.yaml
        candidate-provider.yaml
        collective_score
        scorers
        edit-distance.yaml
        original.yaml
        distance.yaml
        shape-distance.yaml
        type-coercion.yaml
        classifier-predict.yaml
        classifier-train.yaml
        generate
        generate.yaml
        generators
        covering-phrase.yaml
        cav-covering-concept.yaml
        quantity.yaml
        concept.yaml
        choice.yaml
        yesno
        predict.yaml
        all-yes.yaml
        train.yaml
        scorers
        token-overlap.yaml
        sentiment.yaml
        alternate-answer.yaml
        negation.yaml
        concept-overlap.yaml
        expected-answer-overlap.yaml
        document
        retrieval
        lucene.yaml
        rerank
        logreg.yaml
        scorers
        original-score.yaml
        lucene.yaml
        classifier-predict.yaml
        classifier-train.yaml
        cv-load.yaml
        candidate-provider.yaml
        passage
        retrieval
        lucene-sentence-improve.yaml
        document-to-passage.yaml
        lucene-sentence.yaml
        rerank
        scorers
        original-score.yaml
        lucene.yaml
        meta-info.yaml
        classifier-predict.yaml
        classifier-train.yaml
        candidate-provider.yaml
        evidence
        passage-to-view.yaml
        parse
        lingpipe-regex-brown.yaml
        clearnlp-general.yaml
        lingpipe-indoeuro-brown.yaml
        concept
        opennlp-np.yaml
        search.yaml
        opennlp-npppnp.yaml
        frequent-phrase.yaml
        merge.yaml
        abstract_query
        bag-of-token.yaml
        token-concept.yaml
        token-selection-pos-stoplist.yaml
        concept-required.yaml
        token-selection-pos.yaml
        concept.yaml
        token-selection.yaml
        answer_type
        predict.yaml
        load-cv.yaml
        gslabel-concept.yaml
        feature-constructor.yaml
        train.yaml
        gslabel-concept-search.yaml
        concept
        retrieval
        lucene.yaml
        rerank
        name-match.yaml
        searchid-weight.yaml
        scorers
        name-match.yaml
        original-score.yaml
        lucene.yaml
        classifier-predict.yaml
        classifier-train.yaml
        score-sum.yaml
        candidate-provider.yaml
        lucene.yaml
        preprocess
        passage-concept-cache.yaml
        question-concept-cache.yaml
    - java
      - edu
        cmu
        lti
        oaqa
        bioqa
        providers
        query
        PubMedQueryStringConstructorExample.java
        PubMedQueryStringConstructor.java
        kb
        MetaMapObject.java
        MetaMapConceptProvider.java
        UtsSynonymExpansionProvider.java
        TmToolConceptProviderException.java
        CachedUtsConceptSearchProvider.java
        PubAnnotation.java
        CachedTmToolConceptProvider.java
        CachedUtsSynonymExpansionProvider.java
        CachedMetaMapConceptProvider.java
        PubAnnotationConvertUtil.java
        MetaMapConceptConvertUtil.java
        TmToolConceptProvider.java
        UtsConceptSearchProvider.java
        bioasq
        util
        BioASQUtil.java
        eval
        calculator
        AnswerEvalMeasure.java
        AnswerEvalCalculator.java
        document
        retrieval
        GoPubMedDocumentRetrievalExecutor.java
        DiXuProprietaryDocumentRetrievalClient.java
        passage
        PmcContentSetter.java
        triple
        retrieval
        GoPubMedTripleRetrievalExecutor.java
        concept
        retrieval
        GoPubMedSeparateConceptRetrievalExecutor.java
        GoPubMedConceptRetrievalExecutor.java
        rerank
        scorers
        GoPubMedConceptRetrievalScorer.java
        baseqa
        providers
        ml
        classifiers
        ClassifierProvider.java
        LibLinearProvider.java
        MekaProvider.java
        WekaProvider.java
        FeatureConstructorProvider.java
        FeatureConstructorProviderImpl.java
        LibSvmProvider.java
        query
        BooleanBagOfPhraseQueryStringConstructor.java
        QueryStringConstructor.java
        BagOfPhraseQueryStringConstructor.java
        LuceneQueryStringConstructor.java
        kb
        OpenNlpChunkerConceptProvider.java
        ConceptProvider.java
        SynonymExpansionProvider.java
        FrequentPhraseConceptProvider.java
        ConceptSearchProvider.java
        LingPipeNerConceptProvider.java
        parser
        LingPipeParserProvider.java
        ClearParserProvider.java
        ParserProvider.java
        question
        parse
        QuestionParser.java
        QuestionLemmaDedowncaserDenormalizer.java
        QuestionRegExProperNounTagger.java
        yesno
        YesNoToFactoidQuestionConverter.java
        focus
        QuestionFocusExtractor.java
        concept
        QuestionConceptRecognizer.java
        learning_base
        AbstractScorer.java
        AbstractCandidateProvider.java
        CandidateProvider.java
        ClassifierPredictor.java
        ClassifierTrainer.java
        CVPredictLoader.java
        Scorer.java
        answer
        CavUtil.java
        modify
        CavModificationManager.java
        AnswerModificationManager.java
        modifiers
        AnswerModifier.java
        ListAnswerPruner.java
        CavMerger.java
        CavModifier.java
        score
        SimpleAnswerScorer.java
        AnswerCandidateProvider.java
        scorers
        TypeCoercionAnswerScorer.java
        ParseAnswerScorer.java
        FocusAnswerScorer.java
        CaoCountAnswerScorer.java
        ConceptOverlappingCountAnswerScorer.java
        ConceptTypeAnswerScorer.java
        TokenProximityAnswerScorer.java
        ConceptProximityAnswerScorer.java
        AnswerTypeAnswerScorer.java
        StopwordCountAnswerScorer.java
        FocusOverlappingCountAnswerScorer.java
        ParseHeadProximityAnswerScorer.java
        FocusProximityAnswerScorer.java
        AvgCoveredTokenCountAnswerScorer.java
        TokenOverlappingCountAnswerScorer.java
        NameCountAnswerScorer.java
        collective_score
        scorers
        OriginalCollectiveAnswerScorer.java
        TypeCoercionCollectiveAnswerScorer.java
        DistanceCollectiveAnswerScorer.java
        EditDistanceCollectiveAnswerScorer.java
        ShapeDistanceCollectiveAnswerScorer.java
        generate
        CavGenerationManager.java
        generators
        CoveringPhraseCavGenerator.java
        CavCoveringConceptCavGenerator.java
        ConceptCavGenerator.java
        QuantityCavGenerator.java
        CavGenerator.java
        ChoiceCavGenerator.java
        yesno
        YesNoAnswerPredictor.java
        scorers
        ExpectedAnswerOverlapYesNoScorer.java
        YesNoScorer.java
        SentimentYesNoScorer.java
        NegationYesNoScorer.java
        AlternateAnswerYesNoScorer.java
        TokenOverlapYesNoScorer.java
        ConceptOverlapYesNoScorer.java
        YesNoAnswerTrainer.java
        AllYesYesNoAnswerPredictor.java
        document
        retrieval
        LuceneDocumentRetrievalExecutor.java
        rerank
        LogRegDocumentReranker.java
        scorers
        OriginalScoreDocumentScorer.java
        LuceneDocumentScorer.java
        DocumentCandidateProvider.java
        passage
        retrieval
        DocumentToPassageConverter.java
        LuceneInMemorySentenceRetrievalExecutor.java
        ImprovedLuceneInMemorySentenceRetrievalExecutor.java
        rerank
        PassageCandidateProvider.java
        scorers
        OriginalScorePassageScorer.java
        LuceneInMemoryPassageScorer.java
        MetaInfoPassageScorer.java
        RetrievalUtil.java
        evidence
        PassageToViewCopier.java
        parse
        PassageParser.java
        concept
        ConceptSearcher.java
        PassageConceptRecognizer.java
        ConceptMerger.java
        abstract_query
        TokenConceptAbstractQueryGenerator.java
        BagOfTokenAbstractQueryGenerator.java
        TokenSelectionAbstractQueryGenerator.java
        ConceptAbstractQueryGenerator.java
        answer_type
        QuestionAnswerTypes.java
        AnswerTypeCVPredictLoader.java
        AnswerTypeClassifierTrainer.java
        AnswerTypeClassifierPredictor.java
        ConceptSearchGSAnswerTypeLabeler.java
        GSAnswerTypeLabeler.java
        ConceptGSAnswerTypeLabeler.java
        CasSerializer.java
        concept
        retrieval
        LuceneConceptRetrievalExecutor.java
        rerank
        ScoreSummationConceptReranker.java
        scorers
        OriginalScoreConceptScorer.java
        MatchingNameConceptScorer.java
        LuceneConceptScorer.java
        LuceneInMemoryConceptReranker.java
        WeightingSearchIdConceptReranker.java
        MatchingNameConceptReranker.java
        ConceptSearchResultCandidateProvider.java
        preprocess
        ConceptCacheUtil.java
        QuestionConceptCache.java
        PassageConceptCache.java
- INTERNAL_INSTRUCTION.md
- pom.xml
- README.md
- .gitignore
- LICENSE.txt
- input
  - one-question.json

/*
 * Open Advancement Question Answering (OAQA) Project Copyright 2016 Carnegie Mellon University
 *
 * Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except
 * in compliance with the License. You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software distributed under the License
 * is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express
 * or implied. See the License for the specific language governing permissions and limitations
 * under the License.
 */

package edu.cmu.lti.oaqa.baseqa.passage.retrieval;

import com.aliasi.sentences.IndoEuropeanSentenceModel;
import com.aliasi.sentences.SentenceChunker;
import com.aliasi.sentences.SentenceModel;
import com.aliasi.tokenizer.IndoEuropeanTokenizerFactory;
import com.aliasi.tokenizer.TokenizerFactory;
import edu.cmu.lti.oaqa.baseqa.providers.parser.ParserProvider;
import edu.cmu.lti.oaqa.baseqa.providers.query.BagOfPhraseQueryStringConstructor;
import edu.cmu.lti.oaqa.baseqa.providers.query.QueryStringConstructor;
import edu.cmu.lti.oaqa.baseqa.passage.RetrievalUtil;
import edu.cmu.lti.oaqa.baseqa.util.ProviderCache;
import edu.cmu.lti.oaqa.baseqa.util.UimaContextHelper;
import edu.cmu.lti.oaqa.type.nlp.Token;
import edu.cmu.lti.oaqa.type.retrieval.AbstractQuery;
import edu.cmu.lti.oaqa.type.retrieval.Passage;
import edu.cmu.lti.oaqa.util.TypeUtil;
import edu.stanford.nlp.process.Morphology;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.similarities.BM25Similarity;
import org.apache.lucene.store.RAMDirectory;
import org.apache.uima.UIMAException;
import org.apache.uima.UimaContext;
import org.apache.uima.analysis_component.JCasAnnotator_ImplBase;
import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
import org.apache.uima.fit.factory.JCasFactory;
import org.apache.uima.jcas.JCas;
import org.apache.uima.resource.ResourceInitializationException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.util.*;
import java.util.regex.Pattern;

import static java.util.stream.Collectors.toList;

/**
 * An improved version of {@link LuceneInMemorySentenceRetrievalExecutor} that is used in BioASQ 3B.
 *
 * @see LuceneInMemorySentenceRetrievalExecutor
 *
 * @author <a href="mailto:[email protected]">Xiangyu Sun</a> created on 10/23/14
 */
public class ImprovedLuceneInMemorySentenceRetrievalExecutor extends JCasAnnotator_ImplBase {

  private Analyzer analyzer;

  private int hits;

  private QueryParser parser;

  private SentenceChunker chunker;

  private QueryStringConstructor queryStringConstructor;

  private ParserProvider parserProvider;

  private StanfordLemmatizer lemma;

  //private static GoldQuestions questions;

  //private static HashMap<String, HashSet<Snippet>> gold;

  private static final Logger LOG = LoggerFactory
          .getLogger(ImprovedLuceneInMemorySentenceRetrievalExecutor.class);

  @Override
  public void initialize(UimaContext context) throws ResourceInitializationException {
    super.initialize(context);
    TokenizerFactory tokenizerFactory = UimaContextHelper.createObjectFromConfigParameter(context,
            "tokenizer-factory", "tokenizer-factory-params", IndoEuropeanTokenizerFactory.class,
            TokenizerFactory.class);
    SentenceModel sentenceModel = UimaContextHelper.createObjectFromConfigParameter(context,
            "sentence-model", "sentence-model-params", IndoEuropeanSentenceModel.class,
            SentenceModel.class);
    chunker = new SentenceChunker(tokenizerFactory, sentenceModel);
    // initialize hits
    hits = UimaContextHelper.getConfigParameterIntValue(context, "hits", 200);
    // initialize query analyzer, index writer config, and query parser
    analyzer = UimaContextHelper.createObjectFromConfigParameter(context, "query-analyzer",
            "query-analyzer-params", StandardAnalyzer.class, Analyzer.class);
    parser = new QueryParser("text", analyzer);
    // initialize query string constructor
    queryStringConstructor = UimaContextHelper.createObjectFromConfigParameter(context,
            "query-string-constructor", "query-string-constructor-params",
            BagOfPhraseQueryStringConstructor.class, QueryStringConstructor.class);
    String parserProviderName = UimaContextHelper
            .getConfigParameterStringValue(context, "parser-provider");
    parserProvider = ProviderCache.getProvider(parserProviderName, ParserProvider.class);

    lemma = new StanfordLemmatizer();
  }

  @Override
  public void process(JCas jcas) throws AnalysisEngineProcessException {
    // create lucene documents for all sentences in all sections and delete the duplicate ones
    Map<Integer, Passage> hash2passage = new HashMap<Integer, Passage>();
    for (Passage d : TypeUtil.getRankedPassages(jcas)) {
      for (Passage s : RetrievalUtil.extractSentences(jcas, d, chunker)) {
        if (!hash2passage.containsKey(TypeUtil.hash(s))) {
          hash2passage.put(TypeUtil.hash(s), s);
        }
      }
    }
    // remove the documents from pipeline
    TypeUtil.getRankedPassages(jcas).forEach(Passage::removeFromIndexes);
    List<Document> luceneDocs = hash2passage.values().stream()
            .map(RetrievalUtil::createLuceneDocument).collect(toList());
    // create lucene index
    RAMDirectory index = new RAMDirectory();
    try (IndexWriter writer = new IndexWriter(index, new IndexWriterConfig(analyzer))) {
      writer.addDocuments(luceneDocs);
    } catch (IOException e) {
      throw new AnalysisEngineProcessException(e);
    }
    // search in the index
    AbstractQuery aquery = TypeUtil.getAbstractQueries(jcas).stream().findFirst().get();
    Map<Integer, Float> hash2score = new HashMap<>();
    try (IndexReader reader = DirectoryReader.open(index)) {
      IndexSearcher searcher = new IndexSearcher(reader);
      String queryString = queryStringConstructor.construct(aquery).replace("\"", " ")
              .replace("/", " ").replace("[", " ").replace("]", " ");
      LOG.info("Search for query: {}", queryString);

      // construct the query
      Query query = parser.parse(queryString);
      LOG.trace(query.toString());
      searcher.setSimilarity(new BM25Similarity());
      ScoreDoc[] scoreDocs = searcher.search(query, hits).scoreDocs;
      for (ScoreDoc scoreDoc : scoreDocs) {
        float score = scoreDoc.score;
        int hash;
        hash = Integer.parseInt(searcher.doc(scoreDoc.doc).get("hash"));
        hash2score.put(hash, score);
      }
    } catch (IOException | ParseException e) {
      throw new AnalysisEngineProcessException(e);
    }
    LOG.info("The size of Returned Sentences: {}", hash2score.size());
    // add to CAS
    hash2score.entrySet().stream().map(entry -> {
      Passage passage = hash2passage.get(entry.getKey());
      passage.setScore(entry.getValue());
      return passage;
    }).sorted(Comparator.comparing(Passage::getScore).reversed()).forEach(Passage::addToIndexes);

    Collection<Passage> snippets = TypeUtil.getRankedPassages(jcas);

    // rank the snippet and add them to pipeline
    rankSnippets(jcas, calSkip(jcas, hash2passage),
            calBM25(jcas, hash2passage),
            calAlignment(jcas, hash2passage),
            calSentenceLength(hash2passage),
            hash2passage
    );

  }

  /* 
   * Combine all the evidence of snippet and rank them
   *  */
  private void rankSnippets(JCas jcas, Map<Integer, Float> skip_bigram, Map<Integer, Float> bm25,
          Map<Integer, Float> alignment, Map<Integer, Float> length,
          Map<Integer, Passage> hash2passage) throws AnalysisEngineProcessException {
    HashMap<Integer, Float> hash2score = new HashMap<Integer, Float>();
    double[] params = { -3, -3436.8, -0.2, 0, 0.3 };
    for (Integer it : hash2passage.keySet()) {
      double wT = skip_bigram.get(it) * params[0] +
              alignment.get(it) * params[1] +
              length.get(it) * params[2] +
              (bm25.get(it) == null ? 0 : bm25.get(it)) * params[3] + params[4];
      hash2score.put(it, (float) Math.exp(wT) / (float) (1 + Math.exp(wT)));
    }
    hash2score.entrySet().stream().map(entry -> {
      Passage passage = hash2passage.get(entry.getKey());
      passage.setScore(entry.getValue());
      return passage;
    }).sorted(Comparator.comparing(Passage::getScore).reversed()).forEach(Passage::addToIndexes);

  }

  /*
   * Use dependency relations to calculate skip-bigram score
   * */
  private Map<Integer, Float> calSkip(JCas jcas, Map<Integer, Passage> hash2passage)
          throws AnalysisEngineProcessException {
    HashMap<Integer, Float> skip_bigram = new HashMap<Integer, Float>();
    String question = TypeUtil.getQuestion(jcas).getText();
    // question sentence analysis
    HashMap<String, String> questionTokens = sentenceAnalysis(question);
    for (Map.Entry<Integer, Passage> iter : hash2passage.entrySet()) {
      String text = iter.getValue().getText();
      HashMap<String, String> snippetTokens = sentenceAnalysis(text);
      int count = 0;
      for (String child : snippetTokens.keySet()) {
        if (questionTokens.containsKey(child) &&
                questionTokens.get(child) == snippetTokens.get(child))
          count++;
      }
      float scoreP = (float) count / (float) snippetTokens.size();
      float scoreQ = (float) count / (float) questionTokens.size();
      float score = scoreP * scoreQ / (scoreP + scoreQ);
      if (count == 0)
        score = 0;
      skip_bigram.put(iter.getKey(), score);
    }
    return skip_bigram;
  }

  /*
   * Dynamic programming to cal the algiment score
   * */
  private Map<Integer, Float> calAlignment(JCas jcas, Map<Integer, Passage> hash2passage)
          throws AnalysisEngineProcessException {
    HashMap<Integer, Float> alignment = new HashMap<Integer, Float>();
    String question = TypeUtil.getQuestion(jcas).getText();
    String[] questionTokens = lemma.stemText(question).split(" ");
    for (Integer it : hash2passage.keySet()) {
      String[] text = hash2passage.get(it).getText().split(" ");
      int[][] score = new int[text.length][questionTokens.length];
      // initate score
      for (int i = 0; i < text.length; i++) {
        if (text[i].equals(questionTokens[0]))
          score[i][0] = 1;
      }
      for (int i = 0; i < questionTokens.length; i++) {
        if (text[0].equals(questionTokens[i]))
          score[0][i] = 1;
      }
      // start calculating
      for (int i = 1; i < text.length; i++) {
        for (int j = 1; j < questionTokens.length; j++) {
          if (text[i].equals(questionTokens[j]))
            score[i][j] = Integer.max(score[i][j], score[i - 1][j - 1] + 1);
          else
            score[i][j] = Integer.max(score[i - 1][j], score[i][j - 1]);
        }
      }
      alignment.put(it, (float) score[text.length - 1][questionTokens.length - 1]);
    }
    return alignment;
  }

  private Map<Integer, Float> calBM25(JCas jcas, Map<Integer, Passage> hash2passage)
          throws AnalysisEngineProcessException {
    // index the documents using lucene
    List<Document> luceneDocs = hash2passage.values().stream()
            .map(RetrievalUtil::createLuceneDocument).collect(toList());
    // create lucene index
    RAMDirectory index = new RAMDirectory();
    try (IndexWriter writer = new IndexWriter(index,
            new IndexWriterConfig(analyzer))) {
      writer.addDocuments(luceneDocs);
    } catch (IOException e) {
      throw new AnalysisEngineProcessException(e);
    }
    // search in the index
    AbstractQuery aquery = TypeUtil.getAbstractQueries(jcas).stream().findFirst().get();
    Map<Integer, Float> hash2score = new HashMap<>();
    try (IndexReader reader = DirectoryReader.open(index)) {
      IndexSearcher searcher = new IndexSearcher(reader);
      String queryString = queryStringConstructor.construct(aquery).replace("\"", " ")
              .replace("/", " ").replace("[", " ").replace("]", " ");
      LOG.info("Search for query: {}", queryString);

      // construct the query
      Query query = parser.parse(queryString);
      searcher.setSimilarity(new BM25Similarity());
      ScoreDoc[] scoreDocs = searcher.search(query, hits).scoreDocs;
      for (ScoreDoc scoreDoc : scoreDocs) {
        float score = scoreDoc.score;
        int hash;
        hash = Integer.parseInt(searcher.doc(scoreDoc.doc).get("hash"));
        hash2score.put(hash, score);
      }
    } catch (IOException | ParseException e) {
      throw new AnalysisEngineProcessException(e);
    }
    return hash2score;
  }

  /* 
   * Dependency Analysis for all the snippets and questions 
   * */
  private HashMap<String, String> sentenceAnalysis(String sentence) {
    HashMap<String, String> dependency = new HashMap<String, String>();
    try {
      JCas snippetJcas = JCasFactory.createJCas();
      snippetJcas.setDocumentText(sentence);
      List<Token> tokens = parserProvider.parseDependency(snippetJcas);
      for (Token tok : tokens) {
        if (tok.getHead() == null)
          continue;
        dependency.put(tok.getLemmaForm(), tok.getHead().getLemmaForm());
      }
      snippetJcas.release();
    } catch (UIMAException err) {
      err.printStackTrace();
    }
    return dependency;
  }

  /* 
   * calculating the length of all the snippet 
   * */
  private HashMap<Integer, Float> calSentenceLength(Map<Integer, Passage> hash2passage) {
    HashMap<Integer, Float> ret = new HashMap<Integer, Float>();
    for (Integer it : hash2passage.keySet()) {
      ret.put(it, (float) hash2passage.get(it).getText().length());
    }
    return ret;
  }

}

class StanfordLemmatizer
{

  private static Morphology morph = new Morphology();
  private static final Pattern p = Pattern.compile("[^a-z0-9 ]", Pattern.CASE_INSENSITIVE);
  public static int MAX_WORD_LEN = 128;

  public static String stemWord(String w) {
    String t = null;
    try {
      if (w.length() <= MAX_WORD_LEN)
        t = morph.stem(w);
    } catch( StackOverflowError e) {
			/*
			 *  TODO should we ignore stack overflow here?
			 *       so far it happens only for very long
			 *       tokens, but how knows, there might
			 *       be some other reasons as well. In that,
			 *       if stemming failed, we can simply
			 *       return the origina, unmodified, string.
			 */
      e.printStackTrace();
      System.err.println("Stack overflow for string: '" + w + "'");
      System.exit(1);
    }
    return t != null ? t:"";
  }

  public static String lemma(String w, String tag) {
    return morph.lemma(w, tag);
  }

  /**
   * Split the text into token (assuming tokens are separated by whitespaces),
   * then stem each token separately.
   *
   */
  public static String stemText(String text) {
    if(text==null || "".equals(text))
      return text;
    text = text.replaceAll("[-+.^:,?]","");
    StringBuilder sb = new StringBuilder();
    for (String s: text.split("\\s+"))
    {
      if((p.matcher(s).find()))
        continue;
      sb.append(stemWord(s));
      sb.append(' ');
    }

    return sb.toString();
  }


}