java source code of RegexTokenizerBridgeTest

Project: spark-transformers (GitHub Link)

spark-transformers-master
- pom.xml
- LICENSE
- custom-transformer-2.0
  - src
    - main
      - scala
        com
        flipkart
        transformer
        ml
        StringSanitizer.scala
        StringMerge.scala
        CommonAddressFeatures.scala
        common
        HasOutputCol.scala
        HasRawInputCol.scala
        HasInputCol.scala
        org
        apache
        spark
        ml
        PopularWordsEstimator.scala
  - pom.xml
- adapters-1.6
  - src
    - main
      - java
        com
        flipkart
        fdp
        ml
        utils
        SchemaExporter.java
        Constants.java
        DecisionNodeAdapterUtils.java
        adapter
        StringIndexerModelInfoAdapter.java
        AlgebraicTransformModelInfoAdapter.java
        StandardScalerModelInfoAdapter.java
        LogisticRegressionModelInfoAdapter.java
        PipelineModelInfoAdapter.java
        Log1PScalerModelInfoAdapter.java
        ModelInfoAdapter.java
        IfZeroVectorModelInfoAdapter.java
        VectorAssemblerModelAdapter.java
        BucketizerModelInfoAdapter.java
        VectorBinarizerModelAdapter.java
        RegexTokenizerModelInfoAdapter.java
        OneHotEncoderModelInfoAdapter.java
        CustomOneHotEncoderModelInfoAdapter.java
        DecisionTreeRegressionModelInfoAdapter.java
        MinMaxScalerModelInfoAdapter.java
        LogisticRegressionModelInfoAdapter1.java
        GradientBoostClassificationModelInfoAdapter.java
        AbstractModelInfoAdapter.java
        ChiSqSelectorModelInfoAdapter.java
        FillNAValuesTransformerModelInfoAdapter.java
        RandomForestRegressionModelInfoAdapter.java
        RandomForestClassificationModelInfoAdapter.java
        CountVectorizerModelInfoAdapter.java
        ProbabilityTransformModelInfoAdapter.java
        HashingTFModelInfoAdapter.java
        DecisionTreeClassificationModelInfoAdapter.java
        export
        ModelExporter.java
        ModelInfoAdapterFactory.java
    - test
      - resources
        binary_classification_test.libsvm
        regression_test.libsvm
      - java
        com
        flipkart
        fdp
        ml
        util
        SchemaExporterTest.java
        adapter
        IfZeroVectorBridgeTest.java
        BucketizerBridgeTest.java
        LogisticRegressionBridgeTest.java
        RandomForestRegressionModelInfoAdapterBridgeTest.java
        AlgebraicTransformBridgeTest.java
        HashingTFBridgeTest.java
        FillNAValuesTransformerBridgeTest.java
        StringIndexerBridgeTest.java
        CustomOneHotEncoderBridgeTest.java
        OneHotEncoderBridgeTest.java
        CountVectorizerBridgeTest.java
        RegexTokenizerBridgeTest.java
        MinMaxScalerBridgeTest.java
        SparkTestBase.java
        Log1PScalerBridgeTest.java
        StandardScalerBridgeTest.java
        ChiSqSelectorBridgeTest.java
        LogisticRegression1BridgeTest.java
        PipelineBridgeTest.java
        DecisionTreeClassificationModelBridgeTest.java
        RandomForestClassificationModelInfoAdapterBridgeTest.java
        ProbabilityTransformBridgeTest.java
        VectorAssemblerBridgeTest.java
        VectorBinarizerBridgeTest.java
        DecisionTreeRegressionModelBridgeTest.java
        export
        LogisticRegressionExporterTest.java
        LogisticRegression1ExporterTest.java
  - pom.xml
- .travis.yml
- README.md
- custom-transformer
  - src
    - main
      - scala
        com
        flipkart
        fdp
        ml
        AlgebraicTransform.scala
        ProbabilityTransform.scala
        Log1PScaler.scala
        VectorBinarizer.scala
        FillNAValuesTransformer.scala
        CustomSchemaUtil.scala
        CustomOneHotEncoder.scala
        IfZeroVector.scala
  - pom.xml
- adapters-2.0
  - src
    - main
      - java
        com
        flipkart
        fdp
        ml
        utils
        Constants.java
        DecisionNodeAdapterUtils.java
        adapter
        StringIndexerModelInfoAdapter.java
        StandardScalerModelInfoAdapter.java
        CommonAddressFeaturesModelInfoAdapter.java
        LogisticRegressionModelInfoAdapter.java
        PipelineModelInfoAdapter.java
        StringSanitizerModelInfoAdapter.java
        ModelInfoAdapter.java
        VectorAssemblerModelAdapter.java
        BucketizerModelInfoAdapter.java
        RegexTokenizerModelInfoAdapter.java
        PopularWordsEstimatorModelInfoAdapter.java
        DecisionTreeRegressionModelInfoAdapter.java
        MinMaxScalerModelInfoAdapter.java
        LogisticRegressionModelInfoAdapter1.java
        GradientBoostClassificationModelInfoAdapter.java
        AbstractModelInfoAdapter.java
        ChiSqSelectorModelInfoAdapter.java
        CountVectorizerModelInfoAdapter.java
        HashingTFModelInfoAdapter.java
        DecisionTreeClassificationModelInfoAdapter.java
        StringMergeInfoAdapter.java
        export
        ModelExporter.java
        ModelInfoAdapterFactory.java
    - test
      - resources
        binary_classification_test.libsvm
        regression_test.libsvm
      - java
        com
        flipkart
        fdp
        ml
        adapter
        AISPipelineBridgeTest.java
        GradientBoostClassificationModelPipelineTest.java
        DecisionTreeClassificationModelBridgePipelineTest.java
        BucketizerBridgeTest.java
        LogisticRegressionBridgeTest.java
        GradientBoostClassificationModelTest.java
        HashingTFBridgeTest.java
        StringMergeBridgeTest.java
        PopularWordsEstimatorBridgeTest.java
        StringIndexerBridgeTest.java
        CountVectorizerBridgeTest.java
        DecisionTreeRegressionModelBridgePipelineTest.java
        RegexTokenizerBridgeTest.java
        CommonAddressFeaturesBridgeTest.java
        StringSanitizerBridgeTest.java
        MinMaxScalerBridgeTest.java
        SparkTestBase.java
        StandardScalerBridgeTest.java
        ChiSqSelectorBridgeTest.java
        LogisticRegression1BridgeTest.java
        PipelineBridgeTest.java
        DecisionTreeClassificationModelBridgeTest.java
        VectorAssemblerBridgeTest.java
        DecisionTreeRegressionModelBridgeTest.java
        export
        LogisticRegressionExporterTest.java
        LogisticRegression1ExporterTest.java
  - pom.xml
- .gitignore
- models-info
  - src
    - main
      - java
        com
        flipkart
        fdp
        ml
        modelinfo
        GradientBoostModelInfo.java
        RegexTokenizerModelInfo.java
        HashingTFModelInfo.java
        StringSanitizerModelInfo.java
        ProbabilityTransformModelInfo.java
        IfZeroVectorModelInfo.java
        MinMaxScalerModelInfo.java
        ChiSqSelectorModelInfo.java
        VectorAssemblerModelInfo.java
        StringMergeModelInfo.java
        RandomForestModelInfo.java
        OneHotEncoderModelInfo.java
        VectorBinarizerModelInfo.java
        Log1PScalerModelInfo.java
        DecisionTreeModelInfo.java
        FillNAValuesTransformerModelInfo.java
        CommonAddressFeaturesModelInfo.java
        LogisticRegressionModelInfo.java
        StringIndexerModelInfo.java
        ModelInfo.java
        StandardScalerModelInfo.java
        CountVectorizerModelInfo.java
        AbstractModelInfo.java
        PipelineModelInfo.java
        AlgebraicTransformModelInfo.java
        PopularWordsEstimatorModelInfo.java
        BucketizerModelInfo.java
        utils
        PipelineUtils.java
        transformer
        AlgebraicTransformTransformer.java
        Log1PScalerTransformer.java
        ProbabilityTransformTransformer.java
        FillNAValuesTransformer.java
        CountVectorizerTransformer.java
        StringIndexerTransformer.java
        MinMaxScalerTransformer.java
        DecisionTreeTransformer.java
        VectorBinarizerTranformer.java
        ChiSqSelectorTransformer.java
        LogisticRegressionTransformer.java
        CommonAddressFeaturesTransformer.java
        HashingTFTransformer.java
        GradientBoostClassificationTransformer.java
        OneHotEncoderTransformer.java
        RandomForestTransformer.java
        PipelineModelTransformer.java
        StringMergeTransformer.java
        BucketizerTransformer.java
        Transformer.java
        PopularWordsEstimatorTransformer.java
        RegexTokenizerTransformer.java
        VectorAssemblerTransformer.java
        IfZeroVectorTransformer.java
        StringSanitizerTransformer.java
        StandardScalerTransformer.java
        importer
        ModelImporter.java
        SerializationConstants.java
    - test
      - resources
        ExportedLRModel.txt
      - java
        com
        flipkart
        fdp
        ml
        utils
        PipelineUtilsTest.java
        importer
        ImportTest.java
  - pom.xml

package com.flipkart.fdp.ml.adapter;

import com.flipkart.fdp.ml.export.ModelExporter;
import com.flipkart.fdp.ml.importer.ModelImporter;
import com.flipkart.fdp.ml.transformer.Transformer;
import org.apache.commons.lang.ArrayUtils;
import org.apache.spark.ml.feature.RegexTokenizer;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.junit.Test;

import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import static org.apache.spark.sql.types.DataTypes.*;

/**
 * Created by akshay.us on 3/14/16.
 */
public class RegexTokenizerBridgeTest extends SparkTestBase {

    @Test
    public void testRegexTokenizer() {

        //prepare data
        StructType schema = createStructType(new StructField[]{
                createStructField("rawText", StringType, false),
        });
        List<Row> trainingData = Arrays.asList(
                cr("Test of tok."),
                cr("Te,st.  punct")
        );
        DataFrame dataset = sqlContext.createDataFrame(trainingData, schema);

        //train model in spark
        RegexTokenizer sparkModel = new RegexTokenizer()
                .setInputCol("rawText")
                .setOutputCol("tokens")
                .setPattern("\\s")
                .setGaps(true)
                .setToLowercase(false)
                .setMinTokenLength(3);

        //Export this model
        byte[] exportedModel = ModelExporter.export(sparkModel, dataset);

        //Import and get Transformer
        Transformer transformer = ModelImporter.importAndGetTransformer(exportedModel);

        Row[] pairs = sparkModel.transform(dataset).select("rawText", "tokens").collect();
        for (Row row : pairs) {

            Map<String, Object> data = new HashMap<String, Object>();
            data.put(sparkModel.getInputCol(), row.getString(0));
            transformer.transform(data);
            String[] output = (String[]) data.get(sparkModel.getOutputCol());

            Object sparkOp = row.get(1);
            System.out.println(ArrayUtils.toString(output));
            System.out.println(row.get(1));
        }
    }

}