java source code of LindenWordDelimiterAnalyzer

linden-master
- linden-thrift
  - src
    - main
      - java
        com
        xiaomi
        linden
        thrift
        builder
        query
        LindenBooleanQueryBuilder.java
        LindenDisMaxQueryBuilder.java
        LindenQueryBuilder.java
        LindenQueryStringQueryBuilder.java
        LindenRangeQueryBuilder.java
        LindenFlexibleQueryBuilder.java
        filter
        LindenQueryFilterBuilder.java
        LindenBooleanFilterBuilder.java
        LindenRangeFilterBuilder.java
        LindenTermFilterBuilder.java
        LindenNotNullFieldFilterBuilder.java
        LindenSpatialFilterBuilder.java
      - thrift
        LindenRequest.thrift
        LindenCommon.thrift
        LindenResponse.thrift
        LindenService.thrift
  - pom.xml
- NOTICE.txt
- linden-common
  - src
    - main
      - java
        com
        xiaomi
        linden
        common
        ZKClientFactory.java
        compiler
        JavaCompilerHelper.java
        ClassFileManager.java
        CharSequenceJavaFileObject.java
        util
        FileChangeWatcher.java
        CommonUtils.java
        LindenZKPathManager.java
        DirectoryChangeWatcher.java
        LindenZKListener.java
        EmbeddedZooKeeper.java
        schema
        LindenSchemaConf.java
    - test
      - java
        com
        xiaomi
        linden
        common
        TestLindenZKPathManager.java
  - pom.xml
- demo
  - cars
    - src
      - main
        java
        com
        xiaomi
        linden
        demo
        cars
        HttpAPIDemo.java
    - pom.xml
    - data
    - bin
      - cars.sh
    - conf
      - log4j2.xml
      - linden.properties
      - schema.xml
  - pom.xml
  - hadoop-indexing
    - src
      - main
        java
        com
        xiaomi
        linden
        demo
        hadoop
        indexing
        TestHadoopIndexingInOneBox.java
        assembly
        with-dependencies.xml
    - pom.xml
    - data
    - bin
      - cars-local.sh
    - conf
      - log4j2.xml
      - linden.properties
      - hadoop-indexing-local.xml
      - schema.xml
- resources
  - release.xml
  - com.twitter.common
- CHANGES.txt
- development
  - idea
    - codeStyleSettings.xml
  - eclipse
    - Eclipse-Linden-Codestyle.xml
- linden-java-client
  - src
    - main
      - java
        com
        xiaomi
        linden
        client
        LindenClient.java
  - pom.xml
- pom.xml
- linden-hadoop-indexing
  - src
    - main
      - java
        com
        xiaomi
        linden
        hadoop
        indexing
        keyvalueformat
        IntermediateForm.java
        Shard.java
        util
        MRJobConfig.java
        LindenConfigBuilder.java
        LuceneUtil.java
        LindenJobConfig.java
        job
        LindenJob.java
        reduce
        FileSystemDirectory.java
        ShardWriter.java
        IndexUpdateOutputFormat.java
        LindenReducer.java
        LindenCombiner.java
        RAMDirectoryUtil.java
        map
        LindenMapper.java
        DefaultShardingStrategy.java
        ShardingStrategy.java
    - test
      - resources
        linden.properties
        schema.xml
      - java
        com
        xiaomi
        linden
        hadoop
        indexing
        LindenMapredTest.java
  - pom.xml
- linden-parent
  - pom.xml
- config
  - zookeeper.properties
- linden-bql
  - src
    - main
      - antlr4
        com
        xiaomi
        linden
        bql
        BQL.g4
  - pom.xml
- linden-plugins
  - src
    - main
      - java
        com
        xiaomi
        linden
        plugin
        LindenPluginFactory.java
        warmer
        LindenWarmer.java
        LindenPluginFactoryWrapper.java
        PluginHolder.java
        LindenPlugin.java
        ClassLoaderUtils.java
        metrics
        MetricsManager.java
  - pom.xml
- VERSION
- README.md
- bin
  - start-zk-server.sh
  - start-zk-server.cmd
  - start-linden-server.sh
  - start-linden-server.cmd
- linden-core
  - src
    - main
      - resources
        applicationContext.xml
      - java
        com
        xiaomi
        linden
        plugin
        gateway
        kafka
        KafkaGateway.java
        KafkaDataProvider.java
        file
        SimpleFileDataProvider.java
        SimpleFileGateway.java
        DataProvider.java
        LindenGateway.java
        StringDataProvider.java
        warmer
        LindenWarmerFactory.java
        LindenPluginManager.java
        metrics
        MetricsManagerFactory.java
        lucene
        merge
        SortingMergePolicyFactory.java
        TieredMergePolicyFactory.java
        SortingMergePolicyDecorator.java
        collector
        LindenDocsCollector.java
        EarlyTerminationCollector.java
        search
        LindenFieldCacheImpl.java
        NotNullFieldFilter.java
        query
        flexiblequery
        FlexibleScoreModelStrategy.java
        TermDocsEnum.java
        MatchedInfoMatrix.java
        FlexibleQuery.java
        FlexibleScorer.java
        FlexibleWeight.java
        BestMatchQuery.java
        analyzer
        LindenWordDelimiterAnalyzerFactory.java
        LindenJiebaAnalyzer.java
        LindenJiebaAnalyzerFactory.java
        CommonJiebaSegmenter.java
        LindenStandardAnalyzerFactory.java
        CommonMMSeg4jSegmenter.java
        LindenMMSeg4jAnalyzerFactory.java
        LindenMMSeg4jAnalyzer.java
        LindenWordDelimiterAnalyzer.java
        LindenSegmenter.java
        similarity
        LindenSimilarity.java
        LindenSimilarityFactory.java
        IDFManager.java
        bql
        BQLCompiler.java
        SemanticException.java
        BQLCompilerAnalyzer.java
        util
        ResponseUtils.java
        DateUtils.java
        PrefixNameFileFilter.java
        FileNameUtils.java
        service
        resource
        LindenDomainFilter.java
        LindenHttpResource.java
        LindenServer.java
        admin
        LindenAdmin.java
        controller
        LindenController.java
        CoreLindenServiceImpl.java
        core
        LindenDocumentBuilder.java
        search
        HotSwapLindenCoreImpl.java
        CommitStrategy.java
        LindenSnippetGenerator.java
        LindenDocParser.java
        query
        QueryConstructor.java
        MatchAllQueryConstructor.java
        DisMaxQueryConstructor.java
        sort
        SortConstructor.java
        WildcardQueryConstructor.java
        QueryStringQueryConstructor.java
        FlexibleQueryConstructor.java
        RangeQueryConstructor.java
        TermQueryConstructor.java
        model
        CustomCacheWrapper.java
        LindenScoreQuery.java
        LindenScoreModelStrategy.java
        LindenScoreModelStrategyBuilder.java
        FilteredQueryConstructor.java
        filter
        NotNullFieldFilterConstructor.java
        TermFilterConstructor.java
        RangeFilterConstructor.java
        FilterConstructor.java
        QueryFilterConstructor.java
        SpatialFilterConstructor.java
        BooleanFilterConstructor.java
        LindenQueryParser.java
        BooleanQueryConstructor.java
        LindenNRTSearcherManager.java
        ParallelSearcherFactory.java
        LindenCoreImpl.java
        LindenResultParser.java
        MultiLindenCoreImpl.java
        LindenCore.java
        LindenConfigBuilder.java
        LindenConfig.java
        LindenSchemaBuilder.java
        RuntimeInfoUtils.java
        indexing
        StringIndexingManager.java
        TimeLimitMultiIndexStrategy.java
        IndexingManager.java
        KafkaIndexingManager.java
        IndexNameCustomizedMultiIndexStrategy.java
        LindenIndexRequestParser.java
        DocNumLimitMultiIndexStrategy.java
        IndexingMangerUtil.java
        DefaultShardingStrategy.java
        ShardingStrategy.java
        MultiIndexStrategy.java
        LindenUtil.java
        cluster
        ClusterAnnouncer.java
        ResultMerger.java
        LindenCluster.java
        LindenHitCmp.java
        CoreLindenCluster.java
        ShardClient.java
      - webapp
        resources
        libs
        bootstrap
        fonts
        glyphicons-halflings-regular.woff
        glyphicons-halflings-regular.eot
        glyphicons-halflings-regular.woff2
        glyphicons-halflings-regular.ttf
        glyphicons-halflings-regular.svg
        js
        bootstrap.min.js
        bootstrap.js
        npm.js
        css
        bootstrap-theme.css.map
        bootstrap.min.css
        bootstrap.css
        bootstrap-theme.min.css
        bootstrap-theme.css
        angular
        angular.min.js
        angular-ui-ace
        bower.json
        ui-ace.min.js
        CHANGELOG.md
        .bower.json
        ui-ace.js
        .travis.yml
        font-awesome
        fonts
        fontawesome-webfont.woff
        fontawesome-webfont.eot
        FontAwesome.otf
        fontawesome-webfont.ttf
        css
        font-awesome.css
        font-awesome.min.css
        jquery
        1.11.0
        jquery.min.js
        angular-route
        angular-route.js
        angular-route.min.js
        angular-route.min.js.map
        ace-builds
        src-min-noconflict
        mode-rust.js
        mode-curly.js
        worker-json.js
        ext-statusbar.js
        mode-jade.js
        theme-tomorrow_night_bright.js
        mode-autohotkey.js
        ext-language_tools.js
        mode-groovy.js
        theme-dawn.js
        theme-clouds_midnight.js
        theme-solarized_light.js
        theme-xcode.js
        mode-twig.js
        theme-textmate.js
        mode-stylus.js
        ext-searchbox.js
        worker-javascript.js
        mode-json.js
        mode-ftl.js
        worker-php.js
        mode-jack.js
        theme-solarized_dark.js
        mode-c_cpp.js
        mode-lua.js
        mode-yaml.js
        theme-tomorrow_night.js
        theme-merbivore_soft.js
        mode-svg.js
        mode-typescript.js
        mode-xml.js
        mode-matlab.js
        mode-javascript.js
        mode-perl.js
        mode-space.js
        mode-gitignore.js
        theme-tomorrow_night_blue.js
        mode-django.js
        mode-scala.js
        mode-r.js
        snippets
        yaml.js
        haml.js
        rust.js
        scheme.js
        pgsql.js
        cirru.js
        html.js
        pascal.js
        jsoniq.js
        coldfusion.js
        csharp.js
        java.js
        powershell.js
        logiql.js
        toml.js
        snippets.js
        asciidoc.js
        glsl.js
        php.js
        haxe.js
        textile.js
        lucene.js
        space.js
        sjs.js
        scad.js
        vala.js
        xquery.js
        jack.js
        rdoc.js
        less.js
        mysql.js
        makefile.js
        forth.js
        vbscript.js
        tcl.js
        dot.js
        mushcode.js
        matlab.js
        javascript.js
        jade.js
        properties.js
        css.js
        curly.js
        sass.js
        lisp.js
        tex.js
        autohotkey.js
        diff.js
        gitignore.js
        scala.js
        typescript.js
        prolog.js
        coffee.js
        verilog.js
        actionscript.js
        soy_template.js
        lua.js
        ada.js
        text.js
        julia.js
        ocaml.js
        jsp.js
        django.js
        dart.js
        mel.js
        objectivec.js
        c9search.js
        livescript.js
        twig.js
        erlang.js
        ini.js
        rhtml.js
        perl.js
        golang.js
        cobol.js
        plain_text.js
        velocity.js
        clojure.js
        groovy.js
        sh.js
        nix.js
        assembly_x86.js
        markdown.js
        ruby.js
        gherkin.js
        c_cpp.js
        applescript.js
        python.js
        jsx.js
        ejs.js
        protobuf.js
        sql.js
        html_ruby.js
        abap.js
        batchfile.js
        vhdl.js
        haskell.js
        dockerfile.js
        handlebars.js
        lsl.js
        liquid.js
        luapage.js
        svg.js
        d.js
        xml.js
        apache_conf.js
        r.js
        smarty.js
        stylus.js
        json.js
        scss.js
        latex.js
        ftl.js
        mode-applescript.js
        theme-kr.js
        mode-csharp.js
        mode-html_ruby.js
        theme-twilight.js
        mode-glsl.js
        mode-haml.js
        ext-linking.js
        mode-abap.js
        mode-sass.js
        mode-mysql.js
        theme-tomorrow.js
        mode-cobol.js
        mode-liquid.js
        mode-mel.js
        mode-coffee.js
        mode-powershell.js
        mode-scss.js
        mode-protobuf.js
        mode-livescript.js
        mode-ini.js
        mode-python.js
        mode-tcl.js
        ext-error_marker.js
        mode-erlang.js
        mode-luapage.js
        mode-gherkin.js
        theme-idle_fingers.js
        mode-rdoc.js
        ext-emmet.js
        mode-batchfile.js
        mode-tex.js
        mode-forth.js
        mode-cirru.js
        mode-markdown.js
        mode-diff.js
        mode-logiql.js
        mode-ruby.js
        mode-vala.js
        mode-lisp.js
        mode-coldfusion.js
        mode-prolog.js
        ext-static_highlight.js
        mode-sql.js
        mode-smarty.js
        mode-php.js
        mode-jsx.js
        mode-haskell.js
        mode-vbscript.js
        ext-elastic_tabstops_lite.js
        mode-assembly_x86.js
        theme-kuroir.js
        mode-less.js
        ext-settings_menu.js
        mode-toml.js
        theme-katzenmilch.js
        ext-keybinding_menu.js
        mode-asciidoc.js
        mode-scad.js
        ext-whitespace.js
        mode-nix.js
        ext-spellcheck.js
        theme-monokai.js
        theme-eclipse.js
        ext-old_ie.js
        mode-java.js
        mode-html.js
        theme-mono_industrial.js
        mode-properties.js
        ext-split.js
        ext-beautify.js
        mode-actionscript.js
        mode-dart.js
        mode-dot.js
        mode-apache_conf.js
        mode-latex.js
        mode-julia.js
        ext-chromevox.js
        mode-sjs.js
        theme-github.js
        mode-objectivec.js
        theme-terminal.js
        mode-ada.js
        worker-css.js
        ext-textarea.js
        mode-dockerfile.js
        theme-dreamweaver.js
        theme-crimson_editor.js
        mode-snippets.js
        mode-sh.js
        theme-merbivore.js
        mode-verilog.js
        mode-textile.js
        mode-golang.js
        theme-ambiance.js
        mode-vhdl.js
        mode-scheme.js
        mode-plain_text.js
        theme-cobalt.js
        mode-ejs.js
        ext-themelist.js
        theme-vibrant_ink.js
        theme-tomorrow_night_eighties.js
        mode-jsp.js
        mode-pgsql.js
        keybinding-emacs.js
        mode-handlebars.js
        mode-text.js
        worker-lua.js
        mode-lucene.js
        mode-soy_template.js
        ext-modelist.js
        mode-ocaml.js
        theme-clouds.js
        mode-css.js
        theme-chrome.js
        mode-mushcode.js
        mode-d.js
        mode-c9search.js
        mode-rhtml.js
        theme-pastel_on_dark.js
        theme-chaos.js
        mode-haxe.js
        keybinding-vim.js
        mode-pascal.js
        mode-lsl.js
        mode-clojure.js
        mode-velocity.js
        mode-makefile.js
        js
        linden.js
        partials
        config.html
        mf_result_table.html
        search.html
        css
        sb-admin-2.css
        main.css
        WEB-INF
        views
        index.jsp
        dispatcher-servlet.xml
        web.xml
    - test
      - resources
        test_builder_schema.xml
        service2
        log4j2.xml
        linden.properties
        schema.xml
        facet-service1
        log4j.properties
        linden.properties
        schema.xml
        facet-service2
        log4j.properties
        linden.properties
        schema.xml
        sanity.data
        service1
        log4j2.xml
        linden.properties
        schema.xml
        conf_test.properties
      - java
        com
        xiaomi
        linden
        lucene
        query
        flexiblequery
        TestFlexibleQuery.java
        TestGlobalIDF.java
        analyzer
        TestLindenJiebaAnalyzerSearchMode.java
        TestLindenWordDelimiterAnalyzer.java
        TestLindenJiebaAnalyzerIndexMode.java
        TestLindenMMSeg4jAnalyzer.java
        bql
        TestBQL.java
        file
        TestFileChangeWatcher.java
        server
        TestLindenServer.java
        TestLindenServerWithFacet.java
        core
        TestLindenIndexRequestParser.java
        TestLindenSchemaBuilder.java
        TestLindenSnippet.java
        TestMultiLindenCore.java
        TestLindenConfigBuilder.java
        TestLindenSortingMergePolicy.java
        plugin
        TestCacheObject.java
        MockedScoreModelV1.java
        TestCustomCacheWrapper.java
        TestLindenMetricPlugin.java
        TestLindenMetricBase.java
        MockedSleepScoreModel.java
        TestScoreModelStrategy.java
        TestLindenUpdate.java
        TestSpatialSearch.java
        TestHotSwapLindenCore.java
        TestLindenCoreBase.java
        TestLindenFacet.java
        TestLindenCore.java
        ZooKeeperService.java
        TestLindenDynamicField.java
        TestLindenAggregation.java
        TestLindenFieldCache.java
        TestLindenGroupSearch.java
        cluster
        TestResultMerger.java
  - pom.xml
- .gitignore
- docs
  - LindenDemo.md
  - LindenWorkMode.md
  - LindenProperties.md
  - LindenOverview.md
  - images
  - LindenClient.md
  - BQL.md
  - LindenSchema.md
  - LindenPlugin.md
  - LindenFlexibleQuery.md
  - LindenPerformanceTest.md
  - LindenHTTPAPI.md
- LICENSE.txt

// Copyright 2016 Xiaomi, Inc.
//
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this file except in compliance with the License.
// You may obtain a copy of the License at
//
//     http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.

package com.xiaomi.linden.lucene.analyzer;

import java.io.Reader;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.LowerCaseFilter;
import org.apache.lucene.analysis.core.StopAnalyzer;
import org.apache.lucene.analysis.core.StopFilter;
import org.apache.lucene.analysis.miscellaneous.WordDelimiterFilterFactory;
import org.apache.lucene.analysis.standard.StandardTokenizer;

public class LindenWordDelimiterAnalyzer extends Analyzer {

  private static final String SET_STOP_WORDS = "set.stopwords";
  private static final String TO_LOWER_CASE = "lower.case";

  private boolean toLowerCase = true;
  private boolean setStopWords = true;

  private WordDelimiterFilterFactory factoryDefault;

  /**
   * generateWordParts
   * Causes parts of words to be generated:
   * <p/>
   * "PowerShot" => "Power" "Shot"
   * <p>
   * generateNumberParts
   * Causes number subwords to be generated:
   * <p/>
   * "500-42" => "500" "42"
   * <p>
   * catenateWords
   * Causes maximum runs of word parts to be catenated:
   * <p/>
   * "wi-fi" => "wifi"
   * <p>
   * catenateNumbers
   * Causes maximum runs of word parts to be catenated:
   * <p/>
   * "500-42" => "50042"
   * <p>
   * catenateAll
   * Causes all subword parts to be catenated:
   * <p/>
   * "wi-fi-4000" => "wifi4000"
   * <p>
   * preserveOriginal
   * Causes original words are preserved and added to the subword list (Defaults to false)
   * <p/>
   * "500-42" => "500" "42" "500-42"
   * <p>
   * splitOnCaseChange
   * If not set, causes case changes to be ignored (subwords will only be generated
   * given SUBWORD_DELIM tokens)
   * <p>
   * splitOnNumerics
   * If not set, causes numeric changes to be ignored (subwords will only be generated
   * given SUBWORD_DELIM tokens).
   * <p>
   * stemEnglishPossessive
   * Causes trailing "'s" to be removed for each subword
   * <p/>
   * "O'Neil's" => "O", "Neil"
   */

  public LindenWordDelimiterAnalyzer(Map<String, String> params) {
    if (params.containsKey(SET_STOP_WORDS)) {
      this.setStopWords = Boolean.parseBoolean(params.get(SET_STOP_WORDS));
      params.remove(SET_STOP_WORDS);
    }
    if (params.containsKey(TO_LOWER_CASE)) {
      this.toLowerCase = Boolean.parseBoolean(params.get(TO_LOWER_CASE));
      params.remove(TO_LOWER_CASE);
    }
    factoryDefault = new WordDelimiterFilterFactory(params);
  }


  @Override
  protected TokenStreamComponents createComponents(String s, Reader reader) {
    final Tokenizer source = new StandardTokenizer(reader);

    TokenStream ts = factoryDefault.create(source);
    if (this.toLowerCase) {
      ts = new LowerCaseFilter(ts);
    }
    if (this.setStopWords) {
      ts = new StopFilter(ts, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
    }
    return new TokenStreamComponents(source, ts);
  }
}