java source code of HanLpQueryAnalyzerTestCase

jstarcraft-nlp-master
- src
  - main
    - resources
      - languages.shorttext
        en
        pt
        it
        pl
        nl
        fi
        tr
        sv
        es
        da
        vi
        cs
        fr
        de
        ro
        id
        no
      - languages
        en
        ca
        cy
        ms
        te
        ml
        pt
        it
        gl
        ast
        fa
        ru
        hu
        so
        sr
        sq
        lt
        an
        pl
        sw
        mk
        ur
        nl
        is
        tl
        fi
        wa
        mr
        hr
        th
        tr
        ga
        sv
        sl
        es
        da
        vi
        kn
        br
        mt
        cs
        zh-TW
        fr
        oc
        de
        el
        ro
        he
        hi
        eu
        pa
        et
        km
        yi
        id
        sk
        ar
        bn
        no
        uk
        ta
        bg
        zh-CN
        af
        lv
        gu
        ne
        ja
        ht
        be
      - README.md
      - com
        jstarcraft
        nlp
        detection
        regulation-187.json
        regulation-82.json
        dictionary-82.json
        regulation-406.json
        optimaize
        langdetect
        cybozu
        util
        messages.properties
    - java
      - io
        github
        yizhiru
        thulac4j
        ThulacAdapter.java
      - com
        jstarcraft
        nlp
        extraction
        extraction.txt
        entity
        entity.txt
        kg.txt
        recognition
        RecognitionMode.java
        NlpRecognizer.java
        relation
        relation.txt
        nlp.txt
        dictionary
        ansj
        AnsjDictionary.java
        jieba
        JiebaDictionary.java
        corenlp
        CoreNlpDictionary.java
        NlpDictionary.java
        dictionary.txt
        mynlp
        MynlpDictionary.java
        word
        WordDictionary.java
        ik
        IkDictionary.java
        hanlp
        HanLpDictionary.java
        jcseg
        JcsegDictionary.java
        thulac
        ThulacDictionary.java
        mmseg
        MmsegDictionary.java
        detection
        language.txt
        LanguageDetector.java
        DetectionPattern.java
        DetectionLanguage.java
        DetectionTrie.java
        tokenization
        ansj
        ansj.txt
        AnsjTokenizer.java
        AnsjToken.java
        jieba
        JiebaToken.java
        JiebaTokenizer.java
        JiebaTag.java
        jieba.txt
        corenlp
        corenlp.txt
        CoreNlpToken.java
        CoreNlpTokenizer.java
        NlpToken.java
        NlpTokenizer.java
        lucene
        LuceneToken.java
        LuceneTokenizer.java
        mynlp
        MynlpToken.java
        MynlpTokenizer.java
        mynlp.txt
        word
        WordToken.java
        WordTokenizer.java
        word.txt
        ik
        IkTokenizer.java
        ik.txt
        IkToken.java
        hanlp
        hanlp.txt
        HanLpToken.java
        HanLpTokenizer.java
        jcseg
        JcsegTokenizer.java
        JcsegToken.java
        jcseg.txt
        thulac
        ThulacTokenizer.java
        thulac.txt
        ThulacToken.java
        mmseg
        mmseg.txt
        MmsegToken.java
        MmsegTokenizer.java
        lucene
        NlpSegmenter.java
        ansj
        AnsjAnalyzer.java
        AnsjTokenizerFactory.java
        AnsjTokenizer.java
        jieba
        JiebaTokenizerFactory.java
        JiebaAnalyzer.java
        JiebaTokenizer.java
        corenlp
        CoreNlpTokenizer.java
        CoreNlpTokenizerFactory.java
        mynlp
        MynlpTokenizer.java
        MynlpAnalyzer.java
        word
        WordAnalyzer.java
        WordTokenizerFactory.java
        WordTokenizer.java
        ik
        IkAnalyzer.java
        IkTokenizerFactory.java
        UpdateThread.java
        IkTokenizer.java
        hanlp
        HanLpTokenizerFactory.java
        HanLpPinyinTokenFilterFactory.java
        HanLpPinyinConverter.java
        SegmentWrapper.java
        HanLpIndexAnalyzer.java
        HanLpTokenizer.java
        HanLpPinyinTokenFilter.java
        HanLpQueryAnalyzer.java
        jcseg
        JcsegTokenizer.java
        JcsegAnalyzer.java
        JcsegTokenizerFactory.java
        mmseg
        Utils.java
        MmsegAnalyzer.java
        MmsegTokenizer.java
        MMSegTokenizerFactory.java
        regulation
        regular.txt
        bloomfilter
        BloomFilter.java
        BitNumberBloomFilter.java
        bloom-filter.txt
        GlobalBloomFilter.java
        BitMapBloomFilter.java
        LocalBloomFilter.java
        StringHashFamily.java
        BitSetBloomFilter.java
        IntegerMapBloomFilter.java
        bit
        IntegerMap.java
        BitMap.java
        LongMap.java
        LongMapBloomFilter.java
        locale
        locale.txt
        analysis
        sentence
        sentence.txt
        lexical
        tag
        PekingUniversityTagger.java
        PennTreebankTagger.java
        NlpTag.java
        NlpTagger.java
        lexical.txt
        solr
        ansj
        AnsjSegmentFactory.java
        jieba
        JiebaSegmentFactory.java
        corenlp
        CoreNlpSegmentFactory.java
        NlpFactory.java
        mynlp
        MynlpSegmentFactory.java
        word
        WordSegmentFactory.java
        ik
        IkSegmentFactory.java
        hanlp
        HanLpSegmentFactory.java
        jcseg
        JcsegSegmentFactory.java
        NlpSegmentFactory.java
        thulac
        ThulacSegmentFactory.java
        mmseg
        MmsegSegmentFactory.java
        huaban
        analysis
        jieba
        JiebaSegment.java
        optimaize
        langdetect
        profiles
        LanguageProfileReader.java
        util
        LanguageProfileValidator.java
        LanguageLister.java
        LanguageProfile.java
        LanguageProfileImpl.java
        LanguageProfileWriter.java
        BuiltInLanguages.java
        LanguageProfileBuilder.java
        OldLangProfileConverter.java
        LanguageDetector.java
        NgramFrequencyData.java
        frma
        LangProfileWriter.java
        GenProfile.java
        LangProfileReader.java
        IOUtils.java
        LanguageDetectorBuilder.java
        cybozu
        GenProfile.java
        util
        NGram.java
        LangProfile.java
        TagExtractor.java
        Messages.java
        Util.java
        CharNormalizer.java
        CommandLineInterface.java
        DetectedLanguage.java
        text
        TextObjectFactory.java
        CharNormalizerTextFilterImpl.java
        TextObject.java
        TextObjectFactoryBuilder.java
        RemoveMinorityScriptsTextFilter.java
        CommonTextObjectFactories.java
        MultiTextFilter.java
        UrlTextFilter.java
        TextFilter.java
        ngram
        OldNgramExtractor.java
        NgramExtractor.java
        BackwardsCompatibleNgramFilter.java
        NgramExtractors.java
        NgramFilter.java
        StandardNgramFilter.java
      - org
        apache
        lucene
        analysis
        LuceneAdapter.java
        wltea
        analyzer
        dic
        IkSegment.java
  - test
    - resources
      - log4j2.xml
      - texts
        it-wikipedia-Italia.txt
        fr-wikipedia-France.txt
        README.txt
        de-wikipedia-Deutschland.txt
      - com
        jstarcraft
        nlp
        solr
        ik.properties
        hanlp.properties
        mynlp.properties
        mmseg.properties
        word.properties
        ansj.properties
        jieba.properties
        thulac.properties
      - word.local.conf
    - java
      - com
        jstarcraft
        nlp
        dictionary
        HanLpDictionaryTestCase.java
        IkDictionaryTestCase.java
        JcsegDictionaryTestCase.java
        ThulacDictionaryTestCase.java
        MmsegDictionaryTestCase.java
        WordDictionaryTestCase.java
        JiebaDictionaryTestCase.java
        NlpDictionaryTestCase.java
        AnsjDictionaryTestCase.java
        MynlpDictionaryTestCase.java
        NlpDictionaryTestSuite.java
        CoreNlpDictionaryTestCase.java
        detection
        DetectionTestCase.java
        tokenization
        ThulacTokenizerTestCase.java
        JcsegTokenizerTestCase.java
        NlpTokenizerTestSuite.java
        IkTokenizerTestCase.java
        CoreNlpTokenizerTestCase.java
        MynlpTokenizerTestCase.java
        LuceneTokenizerTestCase.java
        JiebaTokenizerTestCase.java
        HanLpTokenizerTestCase.java
        WordTokenizerTestCase.java
        NlpTokenizerTestCase.java
        MmsegTokenizerTestCase.java
        AnsjTokenizerTestCase.java
        lucene
        AnsjSegmenterTestCase.java
        ansj
        TestToken.java
        CoreNlpSegmenterTestCase.java
        corenlp
        CoreNlpTokenizerTest.java
        JiebaSegmenterTestCase.java
        NlpSegmenterTestCase.java
        MynlpSegmenterTestCase.java
        JcsegSegmenterTestCase.java
        WordSegmenterTestCase.java
        mynlp
        LuceneAnalyzerTest.java
        word
        ChineseWordAnalyzerTest.java
        NlpSegmenterTestSuite.java
        HanlpSegmenterTestCase.java
        hanlp
        HanLpTokenizerFactoryTestCase.java
        HanLpQueryAnalyzerTestCase.java
        HanLpTokenizerTestCase.java
        HanLpIndexAnalyzerTestCase.java
        IkSegmenterTestCase.java
        MmsegSegmenterTestCase.java
        regulation
        UrlTestCase.java
        bloomfilter
        LocalBloomFilterTestCase.java
        IntegerMapBloomFilterTestCase.java
        BitSetBloomFilterTestCase.java
        GlobalBloomFilterTestCase.java
        BitNumberBloomFilterTestCase.java
        BloomFilterTestSuite.java
        BloomFilterTestCase.java
        LongMapBloomFilterTestCase.java
        bit
        BitMapTestCase.java
        solr
        WordSegmenterFactoryTestCase.java
        HanLpSegmenterFactoryTestCase.java
        MynlpSegmenterFactoryTestCase.java
        IkSegmenterFactoryTestCase.java
        AnsjSegmenterFactoryTestCase.java
        ThulacSegmenterFactoryTestCase.java
        NlpSegmenterFactoryTestCase.java
        MmsegSegmenterFactoryTestCase.java
        JiebaSegmenterFactoryTestCase.java
        JcsegSegmenterFactoryTestCase.java
        CoreNlpSegmenterFactoryTestCase.java
        optimaize
        langdetect
        LanguageDetectorImplTest.java
        profiles
        LanguageProfileValidatorTest.java
        LanguageProfileReaderTest.java
        LanguageProfileBuilderTest.java
        LanguageProfileWriterTest.java
        NgramFrequencyDataTest.java
        frma
        GenProfileTest.java
        LangProfileReaderTest.java
        LangProfileWriterTest.java
        DataLanguageDetectorImplTest.java
        cybozu
        DetectedLanguageTest.java
        util
        TagExtractorTest.java
        LangProfileTest.java
        CharNormalizerTest.java
        NGramTest.java
        TechnicalLanguageDetectorImplTest.java
        text
        RemoveMinorityScriptsTextFilterTest.java
        MultiTextFilterTest.java
        TextObjectTest.java
        ngram
        StandardNgramFilterTest.java
        BackwardsCompatibleNgramFilterTest.java
        OldNgramExtractorTest.java
        NgramExtractorTest.java
- library
  - ambiguity.dic
  - default.dic
- pom.xml
- LICENSE
- README.md

package com.jstarcraft.nlp.lucene.hanlp;

import java.io.StringReader;
import java.util.Map;
import java.util.TreeMap;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.store.ByteBuffersDirectory;
import org.apache.lucene.store.Directory;
import org.junit.Assert;
import org.junit.jupiter.api.Test;

public class HanLpQueryAnalyzerTestCase {

    @Test
    public void testCreateComponents() throws Exception {
        String text = "中华人民共和国很辽阔";
        for (int i = 0; i < text.length(); ++i) {
            System.out.print(text.charAt(i) + "" + i + " ");
        }
        System.out.println();
        try (Analyzer analyzer = new HanLpQueryAnalyzer("viterbi")) {
            TokenStream tokenStream = analyzer.tokenStream("field", text);
            tokenStream.reset();
            while (tokenStream.incrementToken()) {
                CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
                // 偏移量
                OffsetAttribute offsetAtt = tokenStream.getAttribute(OffsetAttribute.class);
                // 距离
                PositionIncrementAttribute positionAttr = tokenStream.getAttribute(PositionIncrementAttribute.class);
                // 词性
                TypeAttribute typeAttr = tokenStream.getAttribute(TypeAttribute.class);
                System.out.printf("[%d:%d %d] %s/%s\n", offsetAtt.startOffset(), offsetAtt.endOffset(), positionAttr.getPositionIncrement(), attribute, typeAttr.type());
            }
        }
    }

    @Test
    public void testIndexAndSearch() throws Exception {
        Analyzer analyzer = new HanLpQueryAnalyzer("viterbi");////////////////////////////////////////////////////
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        config.setOpenMode(IndexWriterConfig.OpenMode.CREATE);
        Directory directory = new ByteBuffersDirectory();
        IndexWriter indexWriter = new IndexWriter(directory, config);

        Document document = new Document();
        document.add(new TextField("content", "[新闻]服务大众。", Field.Store.YES));
        indexWriter.addDocument(document);

        document = new Document();
        document.add(new TextField("content", "[经济学]商品和服务", Field.Store.YES));
        indexWriter.addDocument(document);

        document = new Document();
        document.add(new TextField("content", "[服装店]和服的价格是每镑15便士", Field.Store.YES));
        indexWriter.addDocument(document);

        indexWriter.commit();
        indexWriter.close();

        IndexReader ireader = DirectoryReader.open(directory);
        IndexSearcher isearcher = new IndexSearcher(ireader);
        QueryParser parser = new QueryParser("content", analyzer);
        Query query = parser.parse("和服");
        ScoreDoc[] hits = isearcher.search(query, 300000).scoreDocs;
        Assert.assertEquals(1, hits.length);
        for (ScoreDoc scoreDoc : hits) {
            Document targetDoc = isearcher.doc(scoreDoc.doc);
            System.out.println(targetDoc.getField("content").stringValue());
        }
    }

    @Test
    public void testIssue() throws Exception {
        Map<String, String> args = new TreeMap<>();
        args.put("enableTraditionalChineseMode", "true");
        args.put("enableNormalization", "true");
        HanLpTokenizerFactory factory = new HanLpTokenizerFactory(args);
        Tokenizer tokenizer = factory.create();
        String text = "會辦台星保證最低價的原因？";

        tokenizer.setReader(new StringReader(text));
        tokenizer.reset();
        while (tokenizer.incrementToken()) {
            CharTermAttribute attribute = tokenizer.getAttribute(CharTermAttribute.class);
            // 偏移量
            OffsetAttribute offsetAtt = tokenizer.getAttribute(OffsetAttribute.class);
            // 距离
            PositionIncrementAttribute positionAttr = tokenizer.getAttribute(PositionIncrementAttribute.class);
            // 词性
            TypeAttribute typeAttr = tokenizer.getAttribute(TypeAttribute.class);
            System.out.printf("[%d:%d %d] %s/%s\n", offsetAtt.startOffset(), offsetAtt.endOffset(), positionAttr.getPositionIncrement(), attribute, typeAttr.type());
        }
    }

}