java source code of KuromojiUDF

Project: incubator-hivemall (GitHub Link)

incubator-hivemall-master
- .github
  - PULL_REQUEST_TEMPLATE
- src
  - site
    - resources
      - images
        favicon.ico
      - fonts
        fontawesome-webfont.woff2
        fontawesome-webfont.woff
        fontawesome-webfont.eot
        FontAwesome.otf
        fontawesome-webfont.ttf
      - LICENSE-font_awesome-css.txt
      - LICENSE-font_awesome-fonts.txt
      - js
        misc.js
      - css
        font-awesome.css
        font-awesome.min.css
    - xdoc
      - index.xml.vm
    - markdown
      - faq.md
      - poweredby.md
      - 404.md
      - repository.md
      - download.md
      - release-guide.md
      - contributing.md
      - overview.md
      - release-setup.md
      - userguide.md
      - verify_artifacts.md
    - site.xml
- mixserv
  - src
    - main
      - resources
        .gitkeep
      - java
        hivemall
        mix
        store
        SessionObject.java
        PartialResult.java
        PartialArgminKLD.java
        SessionStore.java
        PartialAverage.java
        server
        MixServerInitializer.java
        MixServer.java
        MixServerHandler.java
        metrics
        MetricsRegistry.java
        ThroughputCounter.java
        MixServerMetricsMBean.java
        MixServerMetrics.java
    - test
      - resources
        log4j.properties
      - java
        hivemall
        mix
        server
        PartialResultTest.java
        MixServerHandlerTest.java
        MixServerTest.java
        test
        HivemallTestBase.java
  - pom.xml
- resources
  - logo
    - hivemall.svg
  - ddl
    - define-all.deprecated.hive
    - define-all.spark
    - define-additional.hive
    - define-all.hive
    - define-macros.hive
    - define-all-as-permanent.deprecated.hive
    - define-all-as-permanent.hive
  - examples
    - movielens
      - generate_cv.sh
    - lof
      - hundred_balls.txt
    - kddtrack2
      - kddconv.awk
  - hivemall-checkstyle.xml
  - misc
    - one-vs-rest.awk
    - conv.awk
    - dual_table.hive
    - conv_pig.awk
    - emr_hivemall_bootstrap.sh
  - eclipse-style.xml
  - docker
    - home
      - bin
        prepare_iris.sh
        init.sh
      - .hiverc
    - Dockerfile
    - etc
      - hadoop
        hdfs-site.xml
        mapred-site.xml
        yarn-site.xml
        core-site.xml
    - docker-compose.yml
  - header-definition.xml
  - license-header.txt
- nlp
  - src
    - main
      - java
        hivemall
        nlp
        tokenizer
        SmartcnUDF.java
        KuromojiUDF.java
        StoptagsExcludeUDF.java
    - test
      - resources
        log4j.properties
      - java
        hivemall
        nlp
        tokenizer
        SmartcnUDFTest.java
        KuromojiUDFTest.java
        StoptagsExcludeUDFTest.java
        TestUtils.java
  - pom.xml
- pom.xml
- dist
  - pom.xml
- LICENSE
- xgboost
  - src
    - main
      - java
        hivemall
        xgboost
        XGBoostVersionUDF.java
        utils
        DenseDMatrixBuilder.java
        SparseDMatrixBuilder.java
        DMatrixBuilder.java
        XGBoostUtils.java
        NativeLibLoader.java
        XGBoostTrainUDTF.java
        XGBoostBatchPredictUDTF.java
        XGBoostOnlinePredictUDTF.java
        XGBoostPredictTripleUDTF.java
        XGBoostPredictOneUDTF.java
    - test
      - java
        hivemall
        TestUtils.java
        xgboost
        utils
        DMatrixBuilderTest.java
        XGBoostVersionUDFTest.java
        XGBoostTrainUDTFTest.java
        TestBase.java
  - pom.xml
- DISCLAIMER
- VERSION
- .travis.yml
- README.md
- KEYS
- bin
  - mixserv_cluster.sh
  - merge_pr.py
  - update_ddls.sh
  - update_func_md.sh
  - set_version.sh
  - format_header.sh
  - stop_mixserv.sh
  - run_travis_tests.sh
  - start_mixserv.sh
  - mixserv_daemon.sh
  - format_code.sh
  - build_site.sh
  - build.sh
- tools
  - hivemall-docs
    - src
      - main
        java
        hivemall
        docs
        utils
        MarkdownUtils.java
        FuncsListGeneratorMojo.java
        IncludeProjectDependenciesComponentConfigurator.java
    - pom.xml
  - pom.xml
- core
  - src
    - main
      - resources
        log4j.properties
        META-INF
        LICENSE-ALv2.txt
      - java
        hivemall
        ensemble
        MaxRowUDAF.java
        ArgminKLDistanceUDAF.java
        MaxValueLabelUDAF.java
        bagging
        VotedAvgUDAF.java
        WeightVotedAvgUDAF.java
        UDFWithOptions.java
        utils
        hashing
        MurmurHash3.java
        MurmurHash3Function.java
        HashFunction.java
        HashFunctionFactory.java
        HashUtils.java
        codec
        Base91.java
        CompressionCodec.java
        ZigZagLEB128Codec.java
        DeflateCodec.java
        VariableByteCodec.java
        stream
        StreamUtils.java
        IntStream.java
        IntIterator.java
        function
        IntPredicate.java
        Consumer.java
        hadoop
        Text3.java
        Text2.java
        SerdeUtils.java
        HadoopUtils.java
        HiveJsonStructReader.java
        WritableUtils.java
        JsonSerdeUtils.java
        HiveUtils.java
        net
        NetUtils.java
        geospatial
        GeoSpatialUtils.java
        sampling
        IntReservoirSampler.java
        ReservoirSampler.java
        lang
        FloatAccumulator.java
        RandomUtils.java
        PrivilegedAccessor.java
        Preconditions.java
        NaturalComparator.java
        CommandLineUtils.java
        Copyable.java
        Identifier.java
        NumberUtils.java
        ObjectUtils.java
        LongCounter.java
        Primitives.java
        mutable
        MutableFloat.java
        MutableLong.java
        MutableBoolean.java
        MutableInt.java
        MutableDouble.java
        MutableObject.java
        HalfFloat.java
        OptionUtils.java
        SizeOf.java
        ExceptionUtils.java
        StringUtils.java
        Counter.java
        ArrayUtils.java
        UnsafeUtils.java
        BitUtils.java
        datetime
        DateTimeFormatter.java
        StopWatch.java
        struct
        ValueSortablePair.java
        KeySortablePair.java
        Pair.java
        HivemallUtils.java
        io
        FastByteArrayOutputStream.java
        FinishableOutputStream.java
        HttpUtils.java
        Base91OutputStream.java
        NIOUtils.java
        FinishableOutputStreamAdapter.java
        NioSegment.java
        FileUtils.java
        Segments.java
        FastMultiByteArrayOutputStream.java
        LimitedInputStream.java
        FastByteArrayInputStream.java
        NioStatefulSegment.java
        DeflaterOutputStream.java
        IOUtils.java
        NioFixedSegment.java
        CompressionStreamFactory.java
        Base91InputStream.java
        collections
        Fastutil.java
        lists
        LongArrayList.java
        DoubleArrayList.java
        FloatArrayList.java
        IntArrayList.java
        IMapIterator.java
        RingBuffer.java
        IndexedSet.java
        maps
        Long2IntOpenHashTable.java
        OpenHashTable.java
        Long2DoubleOpenHashTable.java
        Long2FloatOpenHashTable.java
        BoundedSortedMap.java
        arrays
        SparseFloatArray.java
        SparseDoubleArray.java
        IntArray.java
        DoubleArray3D.java
        DoubleArray.java
        DenseDoubleArray.java
        FloatArray.java
        DenseIntArray.java
        SparseIntArray.java
        DoubleRingBuffer.java
        BoundedPriorityQueue.java
        sets
        IntArraySet.java
        IntSet.java
        math
        StatsUtils.java
        FastMath.java
        MathUtils.java
        Primes.java
        MatrixUtils.java
        concurrent
        ExecutorFactory.java
        NamedThreadFactory.java
        lock
        Lock.java
        TTASLock.java
        random
        JavaRandom.java
        CommonsMathRandom.java
        PRNG.java
        RandomNumberGeneratorFactory.java
        SmileRandom.java
        stats
        MovingAverage.java
        OnlineVariance.java
        buffer
        HeapBuffer.java
        DynamicByteArray.java
        sketch
        bloom
        BloomAndUDF.java
        BloomFilterUDAF.java
        BloomContainsUDF.java
        BloomContainsAnyUDF.java
        BloomFilterUtils.java
        BloomNotUDF.java
        BloomOrUDF.java
        hll
        ApproxCountDistinctUDAF.java
        HivemallVersionUDF.java
        mix
        MixMessageEncoder.java
        MixedModel.java
        client
        MixClientInitializer.java
        MixClient.java
        MixClientHandler.java
        MixRequestRouter.java
        MixEnv.java
        MixedWeight.java
        NodeInfo.java
        MixMessageDecoder.java
        MixMessage.java
        ftvec
        hashing
        MurmurHash3UDF.java
        ArrayHashValuesUDF.java
        FeatureHashingUDF.java
        ArrayPrefixedHashValuesUDF.java
        Sha1UDF.java
        trans
        QuantifiedFeaturesUDTF.java
        OnehotEncodingUDAF.java
        VectorizeFeaturesUDF.java
        AddFieldIndicesUDF.java
        IndexedFeatures.java
        CategoricalFeaturesUDF.java
        QuantitativeFeaturesUDF.java
        FFMFeaturesUDF.java
        BinarizeLabelUDTF.java
        SortByFeatureUDF.java
        FeatureUDF.java
        scaling
        ZScoreUDF.java
        RescaleUDF.java
        L2NormalizationUDF.java
        L1NormalizationUDF.java
        selection
        ChiSquareUDF.java
        SignalNoiseRatioUDAF.java
        amplify
        RandomAmplifierUDTF.java
        AmplifierUDTF.java
        binning
        BuildBinsUDAF.java
        FeatureBinningUDF.java
        NumericHistogram.java
        AddBiasUDF.java
        AddFeatureIndexUDF.java
        conv
        ToLibSVMFormatUDF.java
        ToDenseFeaturesUDF.java
        ConvertToDenseModelUDAF.java
        ToSparseFeaturesUDF.java
        QuantifyColumnsUDTF.java
        text
        TermFrequencyUDAF.java
        OkapiBM25UDF.java
        ExtractFeatureUDF.java
        FeatureIndexUDF.java
        ranking
        PositiveOnlyFeedback.java
        PerEventPositiveOnlyFeedback.java
        PopulateNotInUDTF.java
        BprSamplingUDTF.java
        ItemPairsSamplingUDTF.java
        pairing
        PolynomialFeaturesUDF.java
        FeaturePairsUDTF.java
        PoweredFeaturesUDF.java
        ExtractWeightUDF.java
        topicmodel
        ProbabilisticTopicModelBaseUDTF.java
        IncrementalPLSAModel.java
        AbstractProbabilisticTopicModel.java
        LDAUDTF.java
        OnlineLDAModel.java
        PLSAPredictUDAF.java
        PLSAUDTF.java
        LDAPredictUDAF.java
        smile
        utils
        SmileTaskExecutor.java
        SmileExtUtils.java
        VariableOrder.java
        vm
        Operation.java
        StackMachine.java
        VMRuntimeException.java
        classification
        RandomForestClassifierUDTF.java
        DecisionTree.java
        PredictionHandler.java
        GradientTreeBoostingClassifierUDTF.java
        regression
        RandomForestRegressionUDTF.java
        RegressionTree.java
        tools
        TreePredictUDF.java
        TreeExportUDF.java
        TreePredictUDFv1.java
        RandomForestEnsembleUDAF.java
        DecisionPathUDF.java
        GuessAttributesUDF.java
        dataset
        LogisticRegressionDataGeneratorUDTF.java
        anomaly
        SingularSpectrumTransform.java
        ChangeFinder2D.java
        SDAR2D.java
        ChangeFinderUDF.java
        SDAR1D.java
        SingularSpectrumTransformUDF.java
        ChangeFinder1D.java
        factorization
        fm
        FFMStringFeatureMapModel.java
        FactorizationMachineUDTF.java
        FMPredictGenericUDAF.java
        Entry.java
        FieldAwareFactorizationMachineModel.java
        FFMPredictGenericUDAF.java
        FactorizationMachineModel.java
        FieldAwareFactorizationMachineUDTF.java
        IntFeature.java
        StringFeature.java
        FMIntFeatureMapModel.java
        FMStringFeatureMapModel.java
        Feature.java
        FMArrayModel.java
        FMHyperParameters.java
        mf
        Rating.java
        OnlineMatrixFactorizationUDTF.java
        BPRMFPredictionUDF.java
        BPRMatrixFactorizationUDTF.java
        MatrixFactorizationAdaGradUDTF.java
        MFPredictionUDF.java
        FactorizedModel.java
        RatingInitializer.java
        MatrixFactorizationSGDUDTF.java
        UDTFWithOptions.java
        geospatial
        Lon2TileXUDF.java
        MapURLUDF.java
        Lat2TileYUDF.java
        TileY2LatUDF.java
        TileUDF.java
        TileX2LonUDF.java
        HaversineDistanceUDF.java
        common
        RandomizedAmplifier.java
        ConversionState.java
        GeneralLearnerBaseUDTF.java
        UDAFEvaluatorWithOptions.java
        evaluation
        AUCUDAF.java
        F1ScoreUDAF.java
        HitRateUDAF.java
        GradedResponsesMeasures.java
        MeanSquaredErrorUDAF.java
        MeanAbsoluteErrorUDAF.java
        PrecisionUDAF.java
        LogarithmicLossUDAF.java
        NDCGUDAF.java
        MAPUDAF.java
        R2UDAF.java
        RootMeanSquaredErrorUDAF.java
        RecallUDAF.java
        FMeasureUDAF.java
        MRRUDAF.java
        BinaryResponsesMeasures.java
        optimizer
        DenseOptimizerFactory.java
        EtaEstimator.java
        Optimizer.java
        SparseOptimizerFactory.java
        OptimizerOptions.java
        Regularization.java
        LossFunctions.java
        classifier
        PassiveAggressiveUDTF.java
        AROWClassifierUDTF.java
        BinaryOnlineClassifierUDTF.java
        AdaGradRDAUDTF.java
        KernelExpansionPassiveAggressiveUDTF.java
        ConfidenceWeightedUDTF.java
        KPAPredictUDAF.java
        multiclass
        MulticlassOnlineClassifierUDTF.java
        MulticlassPassiveAggressiveUDTF.java
        MulticlassAROWClassifierUDTF.java
        MulticlassPerceptronUDTF.java
        MulticlassConfidenceWeightedUDTF.java
        MulticlassSoftConfidenceWeightedUDTF.java
        SoftConfideceWeightedUDTF.java
        GeneralClassifierUDTF.java
        PerceptronUDTF.java
        recommend
        SlimUDTF.java
        regression
        AROWRegressionUDTF.java
        PassiveAggressiveRegressionUDTF.java
        RegressionBaseUDTF.java
        GeneralRegressorUDTF.java
        LogressUDTF.java
        AdaDeltaUDTF.java
        AdaGradUDTF.java
        annotations
        VisibleForTesting.java
        InternalAPI.java
        Experimental.java
        Immutable.java
        Since.java
        Mutable.java
        Issue.java
        Cite.java
        BackwardCompatibility.java
        knn
        lsh
        MinHashesUDF.java
        MinHashUDTF.java
        bBitMinHashUDF.java
        distance
        EuclidDistanceUDF.java
        AngularDistanceUDF.java
        ManhattanDistanceUDF.java
        CosineDistanceUDF.java
        HammingDistanceUDF.java
        JaccardDistanceUDF.java
        MinkowskiDistanceUDF.java
        KLDivergenceUDF.java
        PopcountUDF.java
        similarity
        JaccardIndexUDF.java
        DIMSUMMapperUDTF.java
        CosineSimilarityUDF.java
        AngularSimilarityUDF.java
        EuclidSimilarity.java
        Distance2SimilarityUDF.java
        tools
        bits
        BitsCollectUDAF.java
        BitsORUDF.java
        ToBitsUDF.java
        UnBitsUDF.java
        GenerateSeriesUDTF.java
        RankSequenceUDF.java
        aggr
        MinByUDAF.java
        MaxByUDAF.java
        MajorityVoteUDAF.java
        compress
        DeflateUDF.java
        InflateUDF.java
        timeseries
        MovingAverageUDTF.java
        TryCastUDF.java
        array
        SelectKBestUDF.java
        ArangeUDF.java
        ArrayAppendUDF.java
        ArrayFlattenUDF.java
        AllocFloatArrayUDF.java
        FirstElementUDF.java
        ArrayToStrUDF.java
        SubarrayStartWithUDF.java
        ConditionalEmitUDTF.java
        ArgsortUDF.java
        ArrayRemoveUDF.java
        ArrayUnionUDF.java
        ArgrankUDF.java
        ArrayConcatUDF.java
        ArrayAvgGenericUDAF.java
        ToStringArrayUDF.java
        SubarrayUDF.java
        ArgminUDF.java
        CollectAllUDAF.java
        SortAndUniqArrayUDF.java
        ArrayElementAtUDF.java
        ArraySliceUDF.java
        LastElementUDF.java
        ArrayIntersectUDF.java
        ArgmaxUDF.java
        ArraySumUDAF.java
        SubarrayEndWithUDF.java
        mapred
        DistributedCacheLookupUDF.java
        JobConfGetsUDF.java
        TaskIdUDF.java
        RowIdUDF.java
        JobIdUDF.java
        RowNumberUDF.java
        ConvertLabelUDF.java
        strings
        StrContainsUDF.java
        datetime
        SessionizeUDF.java
        sanity
        AssertUDF.java
        RaiseErrorUDF.java
        map
        MapKeyValuesUDF.java
        MapGetUDF.java
        MapExcludeKeysUDF.java
        MapRouletteUDF.java
        UDAFToOrderedMap.java
        MergeMapsUDAF.java
        MapIncludeKeysUDF.java
        MapTailNUDF.java
        UDAFToMap.java
        MapGetSumUDF.java
        vector
        VectorDotUDF.java
        VectorAddUDF.java
        math
        L2NormUDAF.java
        IsFiniteUDF.java
        NanUDF.java
        IsInfiniteUDF.java
        SigmoidGenericUDF.java
        IsNanUDF.java
        InfinityUDF.java
        list
        UDAFToOrderedList.java
        text
        Base91UDF.java
        NormalizeUnicodeUDF.java
        StopwordUDF.java
        WordNgramsUDF.java
        TokenizeUDF.java
        SplitWordsUDF.java
        SingularizeUDF.java
        Unbase91UDF.java
        json
        ToJsonUDF.java
        FromJsonUDF.java
        EachTopKUDTF.java
        matrix
        TransposeAndDotUDAF.java
        LearnerBaseUDTF.java
        model
        WeightValue.java
        NewSpaceEfficientDenseModel.java
        ModelUpdateHandler.java
        WeightValueWithClock.java
        SynchronizedModelWrapper.java
        FeatureValue.java
        SpaceEfficientDenseModel.java
        NewSparseModel.java
        SparseModel.java
        PredictionResult.java
        DenseModel.java
        PredictionModel.java
        AbstractPredictionModel.java
        Margin.java
        NewDenseModel.java
        IWeightValue.java
        HivemallConstants.java
        org
        apache
        hadoop
        hive
        ql
        exec
        MapredContextAccessor.java
    - test
      - resources
        log4j.properties
        hivemall
        smile
        tools
        dtv1_serialized.csv.gz
        anomaly
        cf1d.csv.gz
        synthetic5d.t.gz
        twitter.csv.gz
        factorization
        fm
        5107786.txt.gz
        bigdata.tr.txt.gz
        mf
        ml1k.test.gz
        classifier
        news20-small.binary.gz
        regression
        clipping_data.tsv.gz
      - java
        hivemall
        utils
        hashing
        MurmurHash3Test.java
        codec
        DeflateCodecTest.java
        ZigZagLEB128CodecTest.java
        Base91Test.java
        stream
        StreamUtilsTest.java
        hadoop
        HadoopUtilsTest.java
        JsonSerdeUtilsTest.java
        Text2Test.java
        BitUtilsTest.java
        geospatial
        GeoSpatialUtilsTest.java
        lang
        PreconditionsTest.java
        HalfFloatTest.java
        NumberUtilsTest.java
        ArrayUtilsTest.java
        struct
        ValueSortablePairTest.java
        KeySortablePairTest.java
        io
        Base91OutputStreamTest.java
        LimitedInputStreamTest.java
        IOUtilsTest.java
        collections
        lists
        LongArrayListTest.java
        DoubleArrayListTest.java
        IntArrayListTest.java
        FloatArrayListTest.java
        BoundedPriorityQueueTest.java
        maps
        OpenHashTableTest.java
        Long2DoubleOpenHashTableTest.java
        Long2FloatOpenHashTableTest.java
        Long2IntOpenHashTableTest.java
        BoundedSortedMapTest.java
        DoubleRingBufferTest.java
        arrays
        DoubleArray3DTest.java
        DoubleArrayTest.java
        IntArrayTest.java
        SparseIntArrayTest.java
        math
        MatrixUtilsTest.java
        FastMathTest.java
        stats
        OnlineVarianceTest.java
        MovingAverageTest.java
        buffer
        HeapBufferTest.java
        sketch
        bloom
        BloomAndUDFTest.java
        BloomOrUDFTest.java
        BloomNotUDFTest.java
        BloomFilterUtilsTest.java
        BloomContainsUDFTest.java
        mix
        client
        MixRequestRouterTest.java
        ftvec
        hashing
        Sha1UDFTest.java
        FeatureHashingUDFTest.java
        MurmurHash3UDFTest.java
        trans
        QuantifiedFeaturesUDTFTest.java
        VectorizeFeaturesUDFTest.java
        BinarizeLabelUDTFTest.java
        scaling
        RescaleUDFTest.java
        L2NormalizationUDFTest.java
        L1NormalizationUDFTest.java
        selection
        SignalNoiseRatioUDAFTest.java
        ChiSquareUDFTest.java
        binning
        FeatureBinningUDFTest.java
        conv
        ToLibSVMFormatUDFTest.java
        FeatureUDFTest.java
        ExtractWeightUDFTest.java
        text
        OkapiBM25UDFTest.java
        pairing
        PoweredFeaturesUDFTest.java
        PolynomialFeaturesUDFTest.java
        topicmodel
        IncrementalPLSAModelTest.java
        LDAPredictUDAFTest.java
        LDAUDTFTest.java
        OnlineLDAModelTest.java
        PLSAPredictUDAFTest.java
        PLSAUDTFTest.java
        smile
        utils
        SmileExtUtilsTest.java
        classification
        RandomForestClassifierUDTFTest.java
        GradientTreeBoostingClassifierUDTFTest.java
        DecisionTreeTest.java
        regression
        RandomForestRegressionUDTFTest.java
        RegressionTreeTest.java
        tools
        TreePredictUDFv1Test.java
        TreePredictUDFTest.java
        anomaly
        SingularSpectrumTransformTest.java
        ChangeFinder2DTest.java
        ChangeFinder1DTest.java
        factorization
        fm
        IntFeatureMapModelTest.java
        FieldAwareFactorizationMachineUDTFTest.java
        StringFeatureMapModelTest.java
        ArrayModelTest.java
        FeatureTest.java
        FactorizationMachineUDTFTest.java
        mf
        BPRMatrixFactorizationUDTFTest.java
        MatrixFactorizationSGDUDTFTest.java
        MatrixFactorizationAdaGradUDTFTest.java
        geospatial
        HaversineDistanceUDFTest.java
        Lon2TileXUDFTest.java
        TileX2LonUDFTest.java
        TileY2LatUDFTest.java
        Lat2TileYUDFTest.java
        common
        RandomizedAmplifierTest.java
        TestUtils.java
        evaluation
        AUCUDAFTest.java
        BinaryResponsesMeasuresTest.java
        GradedResponsesMeasuresTest.java
        FMeasureUDAFTest.java
        optimizer
        OptimizerTest.java
        classifier
        GeneralClassifierUDTFTest.java
        PassiveAggressiveUDTFTest.java
        KernelExpansionPassiveAggressiveUDTFTest.java
        PerceptronUDTFTest.java
        recommend
        SlimUDTFTest.java
        regression
        PassiveAggressiveRegressionUDTFTest.java
        GeneralRegressorUDTFTest.java
        AdaGradUDTFTest.java
        knn
        lsh
        bBitMinHashUDFTest.java
        MinHashUDFTest.java
        distance
        EuclidDistanceUDFTest.java
        similarity
        CosineSimilarityUDFTest.java
        DIMSUMMapperUDTFTest.java
        tools
        TryCastUDFTest.java
        timeseries
        MovingAverageUDTFTest.java
        array
        ArrayElementAtUDFTest.java
        ArrayToStrUDFTest.java
        ArrayAppendUDFTest.java
        ToStringArrayUDFTest.java
        ConditionalEmitUDTFTest.java
        ArraySliceUDFTest.java
        SelectKBestUDFTest.java
        ArrayFlattenUDFTest.java
        FirstElementUDFTest.java
        ArrayUnionUDFTest.java
        LastElementUDFTest.java
        datetime
        SessionizeUDFTest.java
        GenerateSeriesUDTFTest.java
        sanity
        AssertUDFTest.java
        RaiseErrorUDFTest.java
        map
        UDAFToOrderedMapTest.java
        MapKeyValuesUDFTest.java
        MapRouletteUDFTest.java
        vector
        VectorAddUDFTest.java
        VectorDotUDFTest.java
        math
        L2NormUDAFTest.java
        InfinityUDFTest.java
        IsFiniteUDFTest.java
        IsNanUDFTest.java
        IsInfiniteUDFTest.java
        NanUDFTest.java
        list
        UDAFToOrderedListTest.java
        text
        SingularizeUDFTest.java
        WordNgramsUDFTest.java
        json
        FromJsonUDFTest.java
        ToJsonUDFTest.java
        matrix
        TransposeAndDotUDAFTest.java
        model
        FeatureValueTest.java
        NewSpaceEfficientNewDenseModelTest.java
  - pom.xml
- .rat-excludes
- ChangeLog.md
- NOTICE
- .gitignore
- docs
  - gitbook
    - resources
      - images
    - SUMMARY.md
    - binaryclass
      - news20b_xgboost.md
      - titanic_rf.md
      - kdd2010a_dataset.md
      - criteo_dataset.md
      - kdd2010a.md
      - webspam_dataset.md
      - news20_adagrad.md
      - kdd2010b_arow.md
      - news20_generic.md
      - a9a_dataset.md
      - kdd2010b.md
      - news20_rf.md
      - news20_scw.md
      - news20_pa.md
      - a9a.md
      - a9a_lr.md
      - news20.md
      - criteo_ffm.md
      - criteo.md
      - general.md
      - kdd2010b_dataset.md
      - kdd2010a_scw.md
      - webspam_scw.md
      - news20_dataset.md
      - a9a_generic.md
      - a9a_minibatch.md
      - webspam.md
    - getting_started
      - input-format.md
      - permanent-functions.md
      - installation.md
      - README.md
    - anomaly
      - changefinder.md
      - sst.md
      - lof.md
    - ft_engineering
      - tfidf.md
      - scaling.md
      - binarize.md
      - bm25.md
      - pairing.md
      - ft_trans.md
      - polynomial.md
      - term_vector.md
      - binning.md
      - quantify.md
      - onehot.md
      - hashing.md
      - selection.md
      - vectorization.md
    - geospatial
      - latlon.md
    - eval
      - auc.md
      - multilabel_classification_measures.md
      - binary_classification_measures.md
      - lr_datagen.md
      - datagen.md
      - rank.md
      - regression.md
    - misc
      - generic_funcs.md
      - approx.md
      - topk.md
      - funcs.md
      - tokenizer.md
    - clustering
      - plsa.md
      - lda.md
    - spark
      - binaryclass
        index.md
        a9a_sql.md
      - getting_started
        installation.md
      - .gitkeep
      - regression
        index.md
        e2006_sql.md
    - book.json
    - docker
      - getting_started.md
    - pig
      - .gitkeep
    - recommend
      - movielens.md
      - news20_bbit_minhash.md
      - movielens_slim.md
      - movielens_dataset.md
      - item_based_cf.md
      - news20.md
      - movielens_fm.md
      - movielens_mf.md
      - news20_knn.md
      - cf.md
      - movielens_cf.md
      - news20_jaccard.md
      - movielens_cv.md
    - regression
      - kddcup12tr2_lr_amplify.md
      - kddcup12tr2_adagrad.md
      - e2006_arow.md
      - e2006_dataset.md
      - e2006_generic.md
      - kddcup12tr2_lr.md
      - kddcup12tr2.md
      - general.md
      - kddcup12tr2_dataset.md
      - e2006_xgboost.md
      - e2006.md
    - README.md
    - multiclass
      - news20_ensemble.md
      - news20_one-vs-the-rest.md
      - news20_one-vs-the-rest_dataset.md
      - iris_xgboost.md
      - news20_scw.md
      - news20_pa.md
      - iris_dataset.md
      - news20.md
      - iris_randomforest.md
      - news20_dataset.md
      - news20_xgboost.md
      - iris.md
      - iris_scw.md
    - supervised_learning
      - tutorial.md
      - prediction.md
    - FOOTER.md
    - troubleshooting
      - mapjoin_classcastex.md
      - asterisk.md
      - mapjoin_task_error.md
      - README.md
      - oom.md
      - num_mappers.md
    - tips
      - rowid.md
      - general_tips.md
      - addbias.md
      - rand_amplify.md
      - emr.md
      - README.md
      - rt_prediction.md
      - mixserver.md
      - ensemble_learning.md
      - hadoop_tuning.md
    - .gitignore
- .dockerignore
- conf
  - MIXSERV_LIST
  - mixserv_env.sh

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package hivemall.nlp.tokenizer;

import hivemall.UDFWithOptions;
import hivemall.utils.hadoop.HiveUtils;
import hivemall.utils.io.HttpUtils;
import hivemall.utils.io.IOUtils;
import hivemall.utils.lang.ExceptionUtils;
import hivemall.utils.lang.Preconditions;

import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.io.StringReader;
import java.net.HttpURLConnection;
import java.nio.charset.CharsetDecoder;
import java.nio.charset.CodingErrorAction;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashSet;
import java.util.List;
import java.util.Objects;
import java.util.Set;

import javax.annotation.Nonnull;
import javax.annotation.Nullable;

import org.apache.commons.cli.CommandLine;
import org.apache.commons.cli.Options;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.UDFType;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.io.Text;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.ja.JapaneseAnalyzer;
import org.apache.lucene.analysis.ja.JapaneseTokenizer;
import org.apache.lucene.analysis.ja.JapaneseTokenizer.Mode;
import org.apache.lucene.analysis.ja.dict.UserDictionary;
import org.apache.lucene.analysis.ja.tokenattributes.PartOfSpeechAttribute;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.util.CharArraySet;

@Description(name = "tokenize_ja",
        value = "_FUNC_(String line [, const string mode = \"normal\", const array<string> stopWords, const array<string> stopTags, const array<string> userDict (or string userDictURL)])"
                + " - returns tokenized strings in array<string>",
        extended = "select tokenize_ja(\"kuromojiを使った分かち書きのテストです。第二引数にはnormal/search/extendedを指定できます。デフォルトではnormalモードです。\");\n"
                + "\n"
                + "> [\"kuromoji\",\"使う\",\"分かち書き\",\"テスト\",\"第\",\"二\",\"引数\",\"normal\",\"search\",\"extended\",\"指定\",\"デフォルト\",\"normal\",\" モード\"]\n")
@UDFType(deterministic = true, stateful = false)
public final class KuromojiUDF extends UDFWithOptions {
    private static final int CONNECT_TIMEOUT_MS = 10000; // 10 sec
    private static final int READ_TIMEOUT_MS = 60000; // 60 sec
    private static final long MAX_INPUT_STREAM_SIZE = 32L * 1024L * 1024L; // ~32MB

    private Mode _mode;
    private boolean _returnPos;
    private transient Object[] _result;
    @Nullable
    private String[] _stopWordsArray;
    private Set<String> _stopTags;
    @Nullable
    private Object _userDictObj; // String[] or String

    // workaround to avoid org.apache.hive.com.esotericsoftware.kryo.KryoException: java.util.ConcurrentModificationException
    private transient JapaneseAnalyzer _analyzer;

    @Override
    protected Options getOptions() {
        Options opts = new Options();
        opts.addOption("mode", true,
            "The tokenization mode. One of ['normal', 'search', 'extended', 'default' (normal)]");
        opts.addOption("pos", false, "Return part-of-speech information");
        return opts;
    }

    @Override
    protected CommandLine processOptions(String optionValue) throws UDFArgumentException {
        CommandLine cl = parseOptions(optionValue);
        if (cl.hasOption("mode")) {
            String modeStr = cl.getOptionValue("mode");
            this._mode = tokenizationMode(modeStr);
        }
        this._returnPos = cl.hasOption("pos");
        return cl;
    }

    @Override
    public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
        final int arglen = arguments.length;
        if (arglen < 1 || arglen > 5) {
            showHelp("Invalid number of arguments for `tokenize_ja`: " + arglen);
        }

        this._mode = Mode.NORMAL;
        if (arglen >= 2) {
            String arg1 = HiveUtils.getConstString(arguments[1]);
            if (arg1 != null) {
                if (arg1.startsWith("-")) {
                    processOptions(arg1);
                } else {
                    this._mode = tokenizationMode(arg1);
                }
            }
        }

        if (arglen >= 3 && !HiveUtils.isVoidOI(arguments[2])) {
            this._stopWordsArray = HiveUtils.getConstStringArray(arguments[2]);
        }

        this._stopTags =
                (arglen >= 4) ? stopTags(arguments[3]) : JapaneseAnalyzer.getDefaultStopTags();

        if (arglen >= 5) {
            if (HiveUtils.isConstListOI(arguments[4])) {
                this._userDictObj = HiveUtils.getConstStringArray(arguments[4]);
            } else if (HiveUtils.isConstString(arguments[4])) {
                this._userDictObj = HiveUtils.getConstString(arguments[4]);
            } else {
                throw new UDFArgumentException(
                    "User dictionary MUST be given as an array of constant string or constant string (URL)");
            }
        }

        this._analyzer = null;

        if (_returnPos) {
            this._result = new Object[2];
            ArrayList<String> fieldNames = new ArrayList<String>();
            ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
            fieldNames.add("tokens");
            fieldOIs.add(ObjectInspectorFactory.getStandardListObjectInspector(
                PrimitiveObjectInspectorFactory.writableStringObjectInspector));
            fieldNames.add("pos");
            fieldOIs.add(ObjectInspectorFactory.getStandardListObjectInspector(
                PrimitiveObjectInspectorFactory.writableStringObjectInspector));
            return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
        } else {
            return ObjectInspectorFactory.getStandardListObjectInspector(
                PrimitiveObjectInspectorFactory.writableStringObjectInspector);
        }
    }

    @Override
    public Object evaluate(DeferredObject[] arguments) throws HiveException {
        if (_analyzer == null) {
            CharArraySet stopWords = stopWords(_stopWordsArray);

            UserDictionary userDict = null;
            if (_userDictObj instanceof String[]) {
                userDict = userDictionary((String[]) _userDictObj);
            } else if (_userDictObj instanceof String) {
                userDict = userDictionary((String) _userDictObj);
            }

            this._analyzer = new JapaneseAnalyzer(userDict, _mode, stopWords, _stopTags);
        }

        Object arg0 = arguments[0].get();
        if (arg0 == null) {
            return null;
        }
        String line = arg0.toString();

        if (_returnPos) {
            return parseLine(_analyzer, line, _result);
        } else {
            return parseLine(_analyzer, line);
        }
    }

    @Nonnull
    private static Object[] parseLine(@Nonnull JapaneseAnalyzer analyzer, @Nonnull String line,
            @Nonnull Object[] result) throws HiveException {
        Objects.requireNonNull(result);
        Preconditions.checkArgument(result.length == 2);

        final List<Text> tokens = new ArrayList<Text>(32);
        final List<Text> pos = new ArrayList<Text>(32);
        TokenStream stream = null;
        try {
            stream = analyzer.tokenStream("", line);
            if (stream != null) {
                analyzeTokens(stream, tokens, pos);
            }
        } catch (IOException e) {
            IOUtils.closeQuietly(analyzer);
            throw new HiveException(e);
        } finally {
            IOUtils.closeQuietly(stream);
        }
        result[0] = tokens;
        result[1] = pos;
        return result;
    }

    @Nonnull
    private static List<Text> parseLine(@Nonnull JapaneseAnalyzer analyzer, @Nonnull String line)
            throws HiveException {
        final List<Text> tokens = new ArrayList<Text>(32);
        TokenStream stream = null;
        try {
            stream = analyzer.tokenStream("", line);
            if (stream != null) {
                analyzeTokens(stream, tokens);
            }
        } catch (IOException e) {
            IOUtils.closeQuietly(analyzer);
            throw new HiveException(e);
        } finally {
            IOUtils.closeQuietly(stream);
        }
        return tokens;
    }

    @Override
    public void close() throws IOException {
        IOUtils.closeQuietly(_analyzer);
    }

    @Nonnull
    private static Mode tokenizationMode(@Nonnull final String arg) throws UDFArgumentException {
        final Mode mode;
        if ("NORMAL".equalsIgnoreCase(arg)) {
            mode = Mode.NORMAL;
        } else if ("SEARCH".equalsIgnoreCase(arg)) {
            mode = Mode.SEARCH;
        } else if ("EXTENDED".equalsIgnoreCase(arg)) {
            mode = Mode.EXTENDED;
        } else if ("DEFAULT".equalsIgnoreCase(arg)) {
            mode = JapaneseTokenizer.DEFAULT_MODE;
        } else {
            throw new UDFArgumentException(
                "Expected NORMAL|SEARCH|EXTENDED|DEFAULT but got an unexpected mode: " + arg);
        }
        return mode;
    }

    @Nonnull
    private static CharArraySet stopWords(@Nullable final String[] array)
            throws UDFArgumentException {
        if (array == null) {
            return JapaneseAnalyzer.getDefaultStopSet();
        }
        if (array.length == 0) {
            return CharArraySet.EMPTY_SET;
        }
        return new CharArraySet(Arrays.asList(array), /* ignoreCase */true);
    }

    @Nonnull
    private static Set<String> stopTags(@Nonnull final ObjectInspector oi)
            throws UDFArgumentException {
        if (HiveUtils.isVoidOI(oi)) {
            return JapaneseAnalyzer.getDefaultStopTags();
        }
        final String[] array = HiveUtils.getConstStringArray(oi);
        if (array == null) {
            return JapaneseAnalyzer.getDefaultStopTags();
        }
        final int length = array.length;
        if (length == 0) {
            return Collections.emptySet();
        }
        final Set<String> results = new HashSet<String>(length);
        for (int i = 0; i < length; i++) {
            String s = array[i];
            if (s != null) {
                results.add(s);
            }
        }
        return results;
    }

    @Nullable
    private static UserDictionary userDictionary(@Nullable final String[] userDictArray)
            throws UDFArgumentException {
        if (userDictArray == null) {
            return null;
        }

        final StringBuilder builder = new StringBuilder();
        for (String row : userDictArray) {
            builder.append(row).append('\n');
        }
        final Reader reader = new StringReader(builder.toString());
        try {
            return UserDictionary.open(reader); // return null if empty
        } catch (Throwable e) {
            throw new UDFArgumentException(
                "Failed to create user dictionary based on the given array<string>: "
                        + builder.toString() + '\n' + ExceptionUtils.prettyPrintStackTrace(e));
        }
    }

    @Nullable
    private static UserDictionary userDictionary(@Nullable final String userDictURL)
            throws UDFArgumentException {
        if (userDictURL == null) {
            return null;
        }

        final HttpURLConnection conn;
        try {
            conn = HttpUtils.getHttpURLConnection(userDictURL);
        } catch (IllegalArgumentException | IOException e) {
            throw new UDFArgumentException("Failed to create HTTP connection to the URL: "
                    + userDictURL + '\n' + ExceptionUtils.prettyPrintStackTrace(e));
        }

        // allow to read as a compressed GZIP file for efficiency
        conn.setRequestProperty("Accept-Encoding", "gzip");

        conn.setConnectTimeout(CONNECT_TIMEOUT_MS); // throw exception from connect()
        conn.setReadTimeout(READ_TIMEOUT_MS); // throw exception from getXXX() methods

        final int responseCode;
        try {
            responseCode = conn.getResponseCode();
        } catch (IOException e) {
            throw new UDFArgumentException("Failed to get response code: " + userDictURL + '\n'
                    + ExceptionUtils.prettyPrintStackTrace(e));
        }
        if (responseCode != 200) {
            throw new UDFArgumentException("Got invalid response code: " + responseCode);
        }

        final InputStream is;
        try {
            is = IOUtils.decodeInputStream(
                HttpUtils.getLimitedInputStream(conn, MAX_INPUT_STREAM_SIZE));
        } catch (NullPointerException | IOException e) {
            throw new UDFArgumentException("Failed to get input stream from the connection: "
                    + userDictURL + '\n' + ExceptionUtils.prettyPrintStackTrace(e));
        }

        CharsetDecoder decoder =
                StandardCharsets.UTF_8.newDecoder()
                                      .onMalformedInput(CodingErrorAction.REPORT)
                                      .onUnmappableCharacter(CodingErrorAction.REPORT);
        final Reader reader = new InputStreamReader(is, decoder);
        try {
            return UserDictionary.open(reader); // return null if empty
        } catch (Throwable e) {
            throw new UDFArgumentException(
                "Failed to parse the file in CSV format (UTF-8 encoding is expected): "
                        + userDictURL + '\n' + ExceptionUtils.prettyPrintStackTrace(e));
        }
    }

    private static void analyzeTokens(@Nonnull final TokenStream stream,
            @Nonnull final List<Text> tokens) throws IOException {
        // instantiate an attribute placeholder once
        CharTermAttribute termAttr = stream.getAttribute(CharTermAttribute.class);
        stream.reset();

        while (stream.incrementToken()) {
            String term = termAttr.toString();
            tokens.add(new Text(term));
        }
    }

    private static void analyzeTokens(@Nonnull final TokenStream stream,
            @Nonnull final List<Text> tokenResult, @Nonnull final List<Text> posResult)
            throws IOException {
        // instantiate an attribute placeholder once
        CharTermAttribute termAttr = stream.getAttribute(CharTermAttribute.class);
        PartOfSpeechAttribute posAttr = stream.addAttribute(PartOfSpeechAttribute.class);
        stream.reset();

        while (stream.incrementToken()) {
            String term = termAttr.toString();
            tokenResult.add(new Text(term));
            String pos = posAttr.getPartOfSpeech();
            posResult.add(new Text(pos));
        }
    }

    @Override
    public String getDisplayString(String[] children) {
        return "tokenize_ja(" + Arrays.toString(children) + ')';
    }

}