java source code of JavaStringIndexerExample

Project: SparkDemo (GitHub Link)

SparkDemo-master
- .github
  - workflows
    - maven.yml
- src
  - main
    - resources
      - log4j.properties
    - scala
      - com
        hyr
        spark
        sql
        JSONDataSource.scala
        HiveDataSource.scala
        DataFrameOperation.scala
        DataFrameCreate.scala
        SpecifyFormatLoadSave.scala
        LoadSave.scala
        RDD2DataFrameReflection.scala
        SaveModel.scala
        RDD2DataFrameReflectionDynamic.scala
        utils
        SparkUtils.scala
        sharedvariables
        AccumulatorValue.scala
        BroadCastValue.scala
        streaming
        NetworkWordCount.scala
        operator
        Cogroup.scala
        SortByKey.scala
        StorageLevel.scala
        MapPartitions.scala
        ReduceByKey.scala
        Map.scala
        SampleAndTake.scala
        Reduce.scala
        GroupByKeyAndCountByKey.scala
        FlatMap.scala
        SaveAsTextFile.scala
        Intersection.scala
        AggregateByKey.scala
        Join.scala
        Filter.scala
        MapPartitionsWithIndex.scala
        Distinct.scala
        Coalesce.scala
        Union.scala
        Cartesian.scala
        RepartitionAndSortWithinPartitions.scala
        WordCount.scala
    - java
      - com
        huangyueran
        spark
        sql
        JSONDataSource.java
        JDBCDataSource.java
        SpecifyFormatLoadSave.java
        RDD2DataFrameReflectionDynamic.java
        DataFrameOperation.java
        HiveDataSource.java
        SaveModelDemo.java
        DataFrameCreate.java
        LoadSave.java
        RDD2DataFrameReflection.java
        utils
        Constant.java
        SparkUtils.java
        sharedvariables
        AccumulatorValue.java
        BroadCastValue.java
        WordCount.java
        streaming
        JavaKafkaReceiverWordCount.java
        JavaKafkaDirectWordCount.java
        UpdateStateWordCount.java
        JavaHDFSWordCount.java
        JavaNetworkWordCount.java
        JavaKafkaDirectUpdateStateWordCount.java
        SparkALSByStreaming.java
        operator
        SaveAsTextFile.java
        Union.java
        Reduce.java
        ReduceByKey.java
        RepartitionAndSortWithinPartitions.java
        Filter.java
        FlatMap.java
        MapPartitionsWithIndex.java
        SampleAndTake.java
        AggregateByKey.java
        Cartesian.java
        Distinct.java
        Join.java
        GroupByKeyAndCountByKey.java
        Intersection.java
        Coalesce.java
        SortByKey.java
        MapPartitions.java
        TestStorageLevel.java
        MapTest.java
        Cogroup.java
      - org
        apache
        spark
        examples
        sql
        JavaSQLDataSourceExample.java
        JavaSparkSQLExample.java
        streaming
        JavaStructuredNetworkWordCount.java
        JavaStructuredNetworkWordCountWindowed.java
        JavaStructuredKafkaWordCount.java
        hive
        JavaSparkHiveExample.java
        JavaStatusTrackerDemo.java
        ml
        JavaRandomForestClassifierExample.java
        JavaOneVsRestExample.java
        JavaCountVectorizerExample.java
        JavaVectorIndexerExample.java
        JavaDocument.java
        JavaTokenizerExample.java
        JavaSQLTransformerExample.java
        JavaLabeledDocument.java
        JavaNormalizerExample.java
        JavaLogisticRegressionWithElasticNetExample.java
        JavaALSExample.java
        JavaRandomForestRegressorExample.java
        JavaMaxAbsScalerExample.java
        JavaAFTSurvivalRegressionExample.java
        JavaBucketizerExample.java
        JavaStopWordsRemoverExample.java
        JavaGeneralizedLinearRegressionExample.java
        JavaStandardScalerExample.java
        JavaMinHashLSHExample.java
        JavaEstimatorTransformerParamExample.java
        JavaLDAExample.java
        JavaModelSelectionViaCrossValidationExample.java
        JavaDecisionTreeRegressionExample.java
        JavaLogisticRegressionSummaryExample.java
        JavaElementwiseProductExample.java
        JavaQuantileDiscretizerExample.java
        JavaNGramExample.java
        JavaGaussianMixtureExample.java
        JavaStringIndexerExample.java
        JavaNaiveBayesExample.java
        JavaTfIdfExample.java
        JavaBucketedRandomProjectionLSHExample.java
        JavaBinarizerExample.java
        JavaOneHotEncoderExample.java
        JavaIndexToStringExample.java
        JavaVectorSlicerExample.java
        JavaRFormulaExample.java
        JavaDecisionTreeClassificationExample.java
        JavaMinMaxScalerExample.java
        JavaBisectingKMeansExample.java
        JavaPCAExample.java
        JavaPipelineExample.java
        JavaWord2VecExample.java
        JavaInteractionExample.java
        JavaVectorAssemblerExample.java
        JavaMultilayerPerceptronClassifierExample.java
        JavaIsotonicRegressionExample.java
        JavaMulticlassLogisticRegressionWithElasticNetExample.java
        JavaGradientBoostedTreeClassifierExample.java
        JavaKMeansExample.java
        JavaGradientBoostedTreeRegressorExample.java
        JavaLinearRegressionWithElasticNetExample.java
        JavaDCTExample.java
        JavaChiSqSelectorExample.java
        JavaPolynomialExpansionExample.java
        JavaModelSelectionViaTrainValidationSplitExample.java
        JavaSparkPi.java
        streaming
        JavaRecoverableNetworkWordCount.java
        JavaRecord.java
        JavaStatefulNetworkWordCount.java
        JavaSqlNetworkWordCount.java
        JavaKafkaWordCount.java
        JavaDirectKafkaWordCount.java
        JavaFlumeEventCount.java
        JavaQueueStream.java
        JavaNetworkWordCount.java
        JavaCustomReceiver.java
        JavaWordCount.java
        JavaPageRank.java
        JavaTC.java
        JavaLogQuery.java
        JavaHdfsLR.java
        mllib
        JavaMultiLabelClassificationMetricsExample.java
        JavaRankingMetricsExample.java
        JavaKernelDensityEstimationExample.java
        JavaHypothesisTestingExample.java
        JavaMulticlassClassificationMetricsExample.java
        JavaGradientBoostingClassificationExample.java
        JavaPowerIterationClusteringExample.java
        JavaALS.java
        JavaRegressionMetricsExample.java
        JavaDecisionTreeRegressionExample.java
        JavaSummaryStatisticsExample.java
        JavaElementwiseProductExample.java
        JavaCorrelationsExample.java
        JavaRandomForestRegressionExample.java
        JavaSVDExample.java
        JavaGaussianMixtureExample.java
        JavaNaiveBayesExample.java
        JavaSVMWithSGDExample.java
        JavaStratifiedSamplingExample.java
        JavaSimpleFPGrowth.java
        JavaHypothesisTestingKolmogorovSmirnovTestExample.java
        JavaDecisionTreeClassificationExample.java
        JavaAssociationRulesExample.java
        JavaLatentDirichletAllocationExample.java
        JavaRandomForestClassificationExample.java
        JavaRecommendationExample.java
        JavaBisectingKMeansExample.java
        JavaPCAExample.java
        JavaLogisticRegressionWithLBFGSExample.java
        JavaBinaryClassificationMetricsExample.java
        JavaIsotonicRegressionExample.java
        JavaStreamingTestExample.java
        JavaLBFGSExample.java
        JavaKMeansExample.java
        JavaPrefixSpanExample.java
        JavaLinearRegressionWithSGDExample.java
        JavaChiSqSelectorExample.java
        JavaGradientBoostingRegressionExample.java
- receivedBlockMetadata
  - log-1565088135013-1565088195013
- pom.xml
- LICENSE
- data
  - resources
    - wc_data
    - users.avro
    - users.parquet
    - user.avsc
    - people.txt
    - full_user.avsc
    - kv1.txt
    - test.txt
    - people.json
  - mllib
    - sample_lda_data.txt
    - sample_tree_data.csv
    - pagerank_data.txt
    - sample_libsvm_data.txt
    - pic_data.txt
    - kmeans_data.txt
    - sample_multiclass_classification_data.txt
    - sample_naive_bayes_data.txt
    - lr_data.txt
    - sample_fpgrowth.txt
    - gmm_data.txt
    - sample_binary_classification_data.txt
    - als
      - sample_movielens_movies.txt
      - sample_movielens_ratings.txt
      - test.data
    - sample_svm_data.txt
    - sample_linear_regression_data.txt
    - sample_isotonic_regression_data.txt
    - ridge-data
      - lpsa.data
    - lr-data
      - random.data
    - sample_movielens_data.txt
- README.md
- .gitignore

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package org.apache.spark.examples.ml;

import org.apache.spark.sql.SparkSession;

// $example on$
import java.util.Arrays;
import java.util.List;

import org.apache.spark.ml.feature.StringIndexer;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import static org.apache.spark.sql.types.DataTypes.*;
// $example off$

public class JavaStringIndexerExample {
  public static void main(String[] args) {
    SparkSession spark = SparkSession
      .builder()
      .appName("JavaStringIndexerExample")
      .getOrCreate();

    // $example on$
    List<Row> data = Arrays.asList(
      RowFactory.create(0, "a"),
      RowFactory.create(1, "b"),
      RowFactory.create(2, "c"),
      RowFactory.create(3, "a"),
      RowFactory.create(4, "a"),
      RowFactory.create(5, "c")
    );
    StructType schema = new StructType(new StructField[]{
      createStructField("id", IntegerType, false),
      createStructField("category", StringType, false)
    });
    Dataset<Row> df = spark.createDataFrame(data, schema);

    StringIndexer indexer = new StringIndexer()
      .setInputCol("category")
      .setOutputCol("categoryIndex");

    Dataset<Row> indexed = indexer.fit(df).transform(df);
    indexed.show();
    // $example off$

    spark.stop();
  }
}