java source code of PorterAnalyzer

Project: semanticvectors (GitHub Link)

semanticvectors-master
- src
  - main
    - java
      - ch
        akuhn
        edu
        mit
        tedlab
        DMat.java
        SVDRec.java
        Svdlib.java
        SMat.java
      - README
      - pitt
        search
        lucene
        LuceneSearch.java
        IndexBilingualFiles.java
        LuceneIndexFromTriples.java
        LuceneIndexFromSemrepTriples.java
        PorterAnalyzer.java
        IndexFlatFilePositions.java
        LuceneTokenizer.java
        package-info.java
        FilePositionDoc.java
        IndexFilePositions.java
        semanticvectors
        VectorStoreReader.java
        IncrementalTermVectors.java
        VectorStoreUtils.java
        ClusterResults.java
        utils
        PsiUtils.java
        Bobcat.java
        SigmoidTable.java
        VerbatimLogger.java
        VectorStoreSubset.java
        StatUtils.java
        package-info.java
        Distribution.java
        MatrixUtils.java
        StringUtils.java
        VectorSearcher.java
        ObjectVector.java
        VectorStoreRAM.java
        viz
        PrincipalComponents.java
        PathFinder.java
        package-info.java
        Plot2dVectors.java
        ESPperm.java
        SRI.java
        Search.java
        ElementalVectorStore.java
        CompareTerms.java
        tables
        TypeSpec.java
        package-info.java
        TableIndexer.java
        DyadicIndexer.java
        Table.java
        SearchResult.java
        ESP.java
        CompressedVectorStoreRAM.java
        FlagConfig.java
        VectorStoreTranslater.java
        VectorStoreReaderText.java
        LSA.java
        BuildPositionalIndex.java
        CompareTermsBatch.java
        CloseableVectorStore.java
        experiments
        Retrofit.java
        VectorStoreTruncater.java
        AnalogyTest.java
        GenerateProximityData.java
        PSITypeLister.java
        PairwiseCorrelation.java
        VectorStoreOrthographical.java
        package-info.java
        PSI.java
        BuildIndex.java
        TermTermVectorsFromLucene.java
        ClusterVectorStore.java
        BuildBilingualIndex.java
        CompoundVectorBuilder.java
        IncrementalDocVectors.java
        SearchBatch.java
        VectorStoreWriter.java
        LuceneUtils.java
        vectors
        RealVectorUtils.java
        VectorFactory.java
        VectorUtils.java
        IncompatibleVectorsException.java
        VectorType.java
        PermutationVector.java
        CircleLookupTable.java
        ComplexVectorUtils.java
        package-info.java
        BinaryVectorUtils.java
        Vector.java
        BinaryVector.java
        SemanticVectorCollider.java
        PermutationUtils.java
        ZeroVectorException.java
        RealVector.java
        ComplexVector.java
        TermVectorsFromLucene.java
        VectorStoreReaderLucene.java
        VectorStoreDeterministic.java
        DocVectors.java
        VectorStore.java
        orthography
        StringEdit.java
        CharRepresentation.java
        package-info.java
        SentenceVectors.java
        NumberRepresentation.java
        ProportionVectors.java
  - test
    - resources
      - testdata
        README
        nationalfacts
        nationalfacts.txt
        presidents
        presidents.csv
        presidents_years_only.csv
        John
        Chapter_16
        Chapter_21
        Chapter_1
        Chapter_17
        Chapter_18
        Chapter_6
        Chapter_19
        Chapter_5
        Chapter_14
        Chapter_10
        Chapter_13
        Chapter_15
        Chapter_3
        Chapter_11
        Chapter_8
        Chapter_4
        Chapter_20
        Chapter_12
        Chapter_7
        Chapter_9
        Chapter_2
    - java
      - pitt
        search
        semanticvectors
        VectorStoreReaderLuceneTest.java
        VectorStoreRAMTest.java
        utils
        MatrixUtilsTest.java
        DistributionTest.java
        StatUtilsTest.java
        integrationtests
        LSATest.java
        PSITest.java
        MyTestUtils.java
        ESPTest.java
        ThreadSafetyTest.java
        RunTests.java
        RegressionTests.java
        VectorStoreWriterTest.java
        CompoundVectorBuilderTest.java
        tables
        TypeSpecTest.java
        TableTest.java
        CompareTermsTest.java
        ElementalVectorStoreTest.java
        FlagConfigTest.java
        MyTestUtils.java
        VectorStoreDeterministicTest.java
        AllTests.java
        vectors
        ComplexVectorTest.java
        VectorStoreOrthographicalTest.java
        VectorUtilsTest.java
        RealVectorTest.java
        BinaryVectorTest.java
        PermutationUtilsTest.java
        RealVectorUtilsTest.java
        orthography
        StringEditTestUnused.java
        NumberRepresentationTest.java
- build.xml
- AUTHORS
- src-ext
  - purposefulchoice
    - DogOnLine.java
    - PurposefulChoiceDemo.java
    - DogOnCurve.java
    - Dog.java
    - package-info.java
  - README
  - qut
    - beagle
      - BeagleVectorSearcher.java
      - BeagleNGramVectors.java
      - TermFilter.java
      - TermCharacterFilter.java
      - TermStopListFilter.java
      - BeagleUtils.java
      - BeagleTest.java
      - BeagleCompoundVecBuilder.java
      - TermFreqFilter.java
      - BeagleNGramBuilder.java
      - CustomTermFilter.java
      - ObjectCache.java
- pom.xml
- update-release-docs.sh
- LICENSE
- thirdparty
  - ch
    - akuhn
      - edu
        mit
        tedlab
        DMat.java
        SVDRec.java
        Svdlib.java
        SMat.java
  - README
- exampleclient
  - src
    - main
      - java
        pitt
        search
        examples
        MarkedUpDocumentAnalyzer.java
        NarrativeRelationsIndexer.java
        ExampleVectorSearcherClient.java
    - test
      - resources
  - pom.xml
- README.md
- scripts
  - europarl
    - chapters-as-files-align.perl
  - RAMIndexTester.java
  - count-downloads.py
- .gitignore

package pitt.search.lucene;

import org.apache.lucene.analysis.*;
import org.apache.lucene.analysis.core.LowerCaseTokenizer;
import org.apache.lucene.analysis.en.PorterStemFilter;

import java.io.*;
import java.util.logging.Logger;

import static pitt.search.semanticvectors.LuceneUtils.LUCENE_VERSION;

public class PorterAnalyzer  extends Analyzer {

  @Override
  protected TokenStreamComponents createComponents(String s) {
    Tokenizer source = new LowerCaseTokenizer();
    return new TokenStreamComponents(source, new PorterStemFilter(source));
  }

  /**
   * Performs Porter stemming on a query String passed as a parameter
   * @param query string
   * @return query string with each word replaced with a stemmed version
   */
  public String stemQuery(String query) {
    Logger logger = Logger.getLogger("pitt.search.lucene");

    String stemmedQuery = "";
    TokenStream theTS = createComponents(query).getTokenStream();

    try {
      while (theTS.incrementToken()) {
        String theTS_s = theTS.toString().replaceAll(".*term=", "");
        stemmedQuery += theTS_s.substring(0, theTS_s.length()-1) + " ";
      }
    }
    catch (IOException e) {
      logger.info("Error while stemming query "+query);
    }

    return stemmedQuery;
  }


  /**
   * convenience method: takes text file name as argument, produces stemmed version of this text file
   * as command line output
   * @param args : name of text file
   */
  public static void main(String[] args) throws Exception {
    PorterAnalyzer thePorterAnalyzer = new PorterAnalyzer();
    System.err.println("Attempting to perform Porter stemming on file "+args[0]);

    BufferedReader inReader = new BufferedReader(new FileReader(args[0]));
    String inLine = inReader.readLine();

    while (inLine != null) {
      System.out.println(thePorterAnalyzer.stemQuery(inLine));
      inLine = inReader.readLine();
    }
    thePorterAnalyzer.close();
    inReader.close();
  }
}