scala source code of OpRandomForestClassifierTest

Project: TransmogrifAI (GitHub Link)

TransmogrifAI-master
- .github
  - pull_request_template.md
  - ISSUE_TEMPLATE
    - feature_request.md
    - bug_report.md
  - CODEOWNERS
- .circleci
  - config.yml
- repl
- utils
  - src
    - main
      - avro
        Passenger.avsc
        PassengerCSV.avsc
      - scala
        com
        salesforce
        op
        UID.scala
        utils
        avro
        RichGenericRecord.scala
        reflection
        ReflectionUtils.scala
        version
        VersionInfo.scala
        date
        DateTimeUtils.scala
        tuples
        RichTuple.scala
        table
        Table.scala
        spark
        OpSparkListener.scala
        SequenceAggregators.scala
        OpStep.scala
        RichMetadata.scala
        RichRDD.scala
        RichDataType.scala
        numeric
        Number.scala
        io
        avro
        AvroInOut.scala
        csv
        CSVToAvro.scala
        CSVInOut.scala
        kryo
        OpKryoRegistrator.scala
        GenericJavaCollectionSerializer.scala
        text
        NameEntityTagger.scala
        LanguageDetector.scala
        SentenceSplitter.scala
        TextAnalyzer.scala
        TextUtils.scala
        json
        SpecialDoubleSerializer.scala
        JsonUtils.scala
        EnumEntrySerializer.scala
        stats
        OpStatistics.scala
        RichStreamingHistogram.scala
        JaccardSim.scala
        test
        PrestigeData.scala
        TestCommon.scala
        TestSparkContext.scala
        SparkMatchers.scala
        TempDirectoryTest.scala
        SensitiveFeatureInformation.scala
        FeatureHistory.scala
        fasterxml
        jackson
        module
        scala
        OpDefaultScalaModule.scala
        deser
        OpSortedMapDeserializerModule.scala
        OpUnsortedMapDeserializerModule.scala
        org
        apache
        spark
        sql
        types
        MetadataWrapper.scala
        ml
        tree
        RichNode.scala
        util
        ClosureUtils.scala
        SparkUtils.scala
      - java
        com
        salesforce
        op
        utils
        stats
        StreamingHistogram.java
    - test
      - resources
        PassengerDataModifiedDataTypes.csv
        log4j.properties
        PassengerSchemaModifiedDataTypes.avsc
        Person.json
        PassengerSchemaInvalidField.avsc
        PassengerDataContentTypeMisMatch.csv
        Person.yml
        PassengerSchemaNestedTypeCSV.avsc
      - scala
        com
        salesforce
        op
        utils
        avro
        RichGenericRecordTest.scala
        reflection
        ReflectionUtilsTest.scala
        date
        DateTimeUtilsTest.scala
        tuples
        RichTupleTest.scala
        table
        TableTest.scala
        spark
        SequenceAggregatorsTest.scala
        RichMetadataTest.scala
        RichRDDTest.scala
        OpSparkListenerTest.scala
        numeric
        NumberTest.scala
        types
        TestPrivateType.scala
        io
        avro
        AvroInOutTest.scala
        csv
        CSVInOutTest.scala
        CSVToAvroTest.scala
        text
        TextUtilsTest.scala
        json
        JsonUtilsTest.scala
        EnumEntrySerializerTest.scala
        SpecialDoubleSerializerTest.scala
        stats
        OpStatisticsPropertyTest.scala
        StreamingHistogramTest.scala
        OpStatisticsTest.scala
        FeatureHistoryTest.scala
        UIDTest.scala
        SensitiveFeatureInformationTest.scala
  - build.gradle
- helloworld
  - src
    - main
      - avro
        Passenger.avsc
      - resources
        logback.xml
        log4j.properties
        IrisDataset
        bezdekIris.data
        iris.csv
        iris.data
        Index.txt
        iris.names
        TitanicDataset
        TitanicPassengersTrainData.csv
        WebVisitsDataset
        WebVisits.csv
        BostonDataset
        housingData.csv
        dl-url.txt
        housing.data
        Index
        housing.names
        HousingPricesDataset
        train_lf_la_ls_ys_st_sc.csv
        EmailDataset
        Clicks.csv
        Sends.csv
      - scala
        com
        salesforce
        hw
        boston
        BostonHouse.scala
        BostonFeatures.scala
        OpBoston.scala
        titanic
        TitanicFeatures.scala
        OpTitanicMini.scala
        OpTitanic.scala
        TitanicKryoRegistrator.scala
        OpTitanicSimple.scala
        dataprep
        JoinsAndAggregates.scala
        ConditionalAggregation.scala
        iris
        Iris.scala
        OpIris.scala
        IrisFeatures.scala
        OpIrisSimple.scala
        OpBostonSimple.scala
  - repl
  - gradle.properties
  - gradle
    - scalastyle-config.xml
    - wrapper
      - gradle-wrapper.properties
      - gradle-wrapper.jar
    - tests.gradle
    - intellij-codestyle-config.xml
    - spark.gradle
  - gradlew.bat
  - gradlew
  - notebooks
    - OpIris.ipynb
    - OpHousingPrices.ipynb
    - README.md
    - OpTitanicSimple.ipynb
  - build.gradle
  - README.md
  - settings.gradle
  - .gitignore
- gradle.properties
- gradle
  - version-properties.gradle
  - scalastyle-config.xml
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
  - tests.gradle
  - findbugs-include.xml
  - intellij-codestyle-config.xml
  - spark.gradle
  - findbugs-exclude.xml
- pom.xml
- testkit
  - src
    - main
      - resources
        states.txt
        streets.txt
        lastnames.txt
        npa_report.csv
        firstnames.txt
        README.md
        countries.txt
        imaginaryCountries.txt
        cities.txt
      - scala
        com
        salesforce
        op
        testkit
        FeatureFactoryOwner.scala
        InfiniteStream.scala
        RandomVector.scala
        ProbabilityOfEmpty.scala
        RandomData.scala
        RandomReal.scala
        RandomStream.scala
        RandomList.scala
        RandomMap.scala
        PartiallyDefined.scala
        RandomIntegral.scala
        DataSources.scala
        RandomSet.scala
        RandomBinary.scala
        StandardRandomData.scala
        RandomText.scala
        test
        FeatureTestBase.scala
        FeatureAsserts.scala
        TestFeatureBuilder.scala
    - test
      - resources
        log4j.properties
      - scala
        com
        salesforce
        op
        testkit
        RandomMapTest.scala
        RandomStreamTest.scala
        RandomRealTest.scala
        RandomBinaryTest.scala
        RandomSetTest.scala
        RandomTextTest.scala
        RandomVectorTest.scala
        InfiniteStreamTest.scala
        RandomIntegralTest.scala
        RandomListTest.scala
        test
        TestFeatureBuilderTest.scala
  - build.gradle
  - README.md
- gradlew.bat
- LICENSE
- cli
  - src
    - main
      - scala
        com
        salesforce
        op
        cli
        SchemaSource.scala
        CliExec.scala
        gen
        ProblemSchema.scala
        FileGenerator.scala
        ProjectGenerator.scala
        templates
        CategoricalFeatureTemplate.scala
        MultiClassificationTemplate.scala
        TextFeatureTemplate.scala
        BinaryFeatureTemplate.scala
        FeatureOps.scala
        IntegralFeatureTemplate.scala
        SampleObject.scala
        FeatureVectorTemplate.scala
        BinaryClassificationTemplate.scala
        RealFeatureTemplate.scala
        SimpleProject.scala
        RegressionTemplate.scala
        Ops.scala
        FileInProject.scala
        AvroField.scala
        ProblemKind.scala
        CliParameters.scala
        CommandParser.scala
    - test
      - scala
        com
        salesforce
        op
        cli
        CliFullCycleTest.scala
        gen
        AvroFieldTest.scala
        FileGeneratorTest.scala
        UserIOTest.scala
        OpsTest.scala
        CliCodeGenerationTest.scala
        CliTestBase.scala
  - passengers.answers
  - build.gradle
  - passengers_.answers
  - README.md
- gradlew
- models
  - src
    - main
      - resources
        OpenNLP
        vesion
  - build.gradle
  - README.md
- templates
  - simple
    - src
      - main
        avro
        Passenger.avsc
        scala
        com
        salesforce
        app
        Simple.scala
        Features.scala
    - gradle.properties
    - gradle
      - wrapper
        gradle-wrapper.properties
        gradle-wrapper.jar
    - build.gradle.template
    - gradlew.bat
    - gradlew
    - README.md
    - spark.gradle
    - project.gitignore
    - settings.gradle
- CONTRIBUTING.md
- .gitattributes
- CHANGELOG.md
- ROADMAP.md
- build.gradle
- test-data
  - PassengerDataWithHeader.csv
  - JoinTestData.csv
  - PassengerDataAll.parquet
  - PassengerData.csv
  - PassengerDataAll.avro
  - SparkExample.csv
  - PassengerDataAll.csv
  - PassengerDataAllWithHeader.csv
  - PassengerDataAll_.avsc
  - BigPassengerWithHeader.csv
  - BigPassenger.csv
  - DataGeneration.sc
  - PassengerDataAll.avsc
  - BigPassengerWithHeader.parquet
  - PassengerProfileData.csv
  - PassengerData.avro
  - SparkExampleJoin.csv
- static.json
- .travis.yml
- README.md
- features
  - src
    - main
      - scala
        com
        salesforce
        op
        stages
        impl
        feature
        CombinationStrategy.scala
        TimePeriod.scala
        TextVectorizationMethod.scala
        ScalingArgs.scala
        GenderDetectStrategy.scala
        HashAlgorithm.scala
        TextLengthType.scala
        HashSpaceStrategy.scala
        ScalingType.scala
        MetadataParam.scala
        TransientFeatureArrayParam.scala
        HasOut.scala
        OpPipelineStages.scala
        HasIn.scala
        package.scala
        FeatureGeneratorStage.scala
        OpPipelineStageParams.scala
        base
        binary
        BinaryTransformer.scala
        BinaryEstimator.scala
        ternary
        TernaryEstimator.scala
        TernaryTransformer.scala
        sequence
        SequenceTransformer.scala
        BinarySequenceTransformer.scala
        SequenceEstimator.scala
        BinarySequenceEstimator.scala
        unary
        UnaryTransformer.scala
        UnaryEstimator.scala
        quaternary
        QuaternaryTransformer.scala
        QuaternaryEstimator.scala
        DefaultOpPipelineStageReaderWriter.scala
        SparkStageParam.scala
        OpPipelineStageReaderWriter.scala
        SchemaParam.scala
        OpPipelineStageReader.scala
        OpPipelineStageWriter.scala
        DefaultValueReaderWriter.scala
        sparkwrappers
        generic
        SparkWrapperParams.scala
        utils
        spark
        OpVectorColumnMetadata.scala
        RichEvaluator.scala
        RichStructType.scala
        RichDataset.scala
        OpVectorMetadata.scala
        RichRow.scala
        OpVectorColumnHistory.scala
        RichVector.scala
        aggregators
        CutOffTime.scala
        Event.scala
        ExtendedMultiset.scala
        Lists.scala
        TimeBasedAggregator.scala
        Maps.scala
        Text.scala
        CustomMonoidAggregator.scala
        MonoidAggregatorDefaults.scala
        Geolocation.scala
        Numerics.scala
        Sets.scala
        OPVector.scala
        CutOffTimeTypes.scala
        CommutativeGroupAggregator.scala
        FeatureAggregator.scala
        test
        SwTransformerSpec.scala
        TestOpVectorMetadataBuilder.scala
        OpPipelineStageSpec.scala
        OpEstimatorSpec.scala
        FeatureTypeEquality.scala
        OpTransformerSpec.scala
        features
        FeatureBuilderMacros.scala
        FeatureSparkTypes.scala
        package.scala
        FeatureJsonHelper.scala
        Feature.scala
        TransientFeature.scala
        types
        OPMap.scala
        Lists.scala
        package.scala
        FeatureTypeDefaults.scala
        Maps.scala
        Text.scala
        OPList.scala
        Geolocation.scala
        FeatureType.scala
        Numerics.scala
        Sets.scala
        OPSet.scala
        OPVector.scala
        FeatureTypeFactory.scala
        OPNumeric.scala
        FeatureTypeSparkConverter.scala
        OPCollection.scala
        FeatureLike.scala
        FeatureCycleException.scala
        FeatureDistributionLike.scala
        FeatureBuilder.scala
        OpParams.scala
        org
        apache
        spark
        ml
        SparkMLSharedParamConstants.scala
        SparkDefaultParamsReadWrite.scala
      - java
        com
        salesforce
        op
        stages
        ReaderWriter.java
    - test
      - resources
        OpParamsWithAltReader.json
        log4j.properties
        OpParamsComplex.json
        OpParams.json
        OpParams.yaml
      - scala
        com
        salesforce
        op
        stages
        FeatureGeneratorStageTest.scala
        base
        binary
        BinaryEstimatorTest.scala
        BinaryTransformerTest.scala
        ternary
        TernaryTransformerTest.scala
        TernaryEstimatorTest.scala
        sequence
        SequenceEstimatorTest.scala
        BinarySequenceEstimatorTest.scala
        BinarySequenceTransformerTest.scala
        SequenceTransformerTest.scala
        unary
        UnaryTransformerTest.scala
        UnaryEstimatorTest.scala
        quaternary
        QuaternaryEstimatorTest.scala
        QuaternaryTransformerTest.scala
        utils
        spark
        RichStructTypeTest.scala
        RichVectorTest.scala
        RichEvaluatorTest.scala
        OPVectorMetadataTest.scala
        RichDatasetTest.scala
        aggregators
        ExtendedMultisetTest.scala
        MonoidAggregatorDefaultsTest.scala
        EventTest.scala
        TimeBasedAggregatorTest.scala
        features
        FeatureSparkTypeTest.scala
        types
        URLTest.scala
        PredictionTest.scala
        Base64Test.scala
        OPVectorTest.scala
        FeatureTypeSparkConverterTest.scala
        MapTest.scala
        FeatureTypeValueTest.scala
        FeatureTypeFactoryTest.scala
        GeolocationTest.scala
        ListTest.scala
        NumericsTest.scala
        JavaConversionTest.scala
        ConcurrentCheck.scala
        FeatureTypeTest.scala
        TextTest.scala
        FeatureBuilderTest.scala
        OpParamsTest.scala
        org
        apache
        spark
        ml
        SparkStageParamTest.scala
  - build.gradle
- local
  - src
    - main
      - scala
        com
        salesforce
        op
        local
        package.scala
        MLeapModelConverter.scala
        OpWorkflowModelLocal.scala
    - test
      - resources
        log4j.properties
      - scala
        com
        salesforce
        op
        local
        MLeapModelConverterTest.scala
        OpWorkflowModelLocalTest.scala
  - build.gradle
  - README.md
- core
  - src
    - main
      - scala
        ml
        dmlc
        xgboost4j
        scala
        spark
        XGBoostParams.scala
        com
        salesforce
        op
        stages
        impl
        evaluator
        OPLogLoss.scala
        tuning
        OpValidator.scala
        DataSplitter.scala
        DataBalancer.scala
        Splitter.scala
        OpTrainValidationSplit.scala
        DataCutter.scala
        OpCrossValidation.scala
        CheckIsResponseValues.scala
        package.scala
        selector
        ModelSelector.scala
        RandomParamBuilder.scala
        ModelSelectorSummary.scala
        SelectedModelCombiner.scala
        DefaultSelectorParams.scala
        ModelSelectorFactory.scala
        ModelSelectorNames.scala
        classification
        OpGBTClassifier.scala
        OpXGBoostClassifier.scala
        OpNaiveBayes.scala
        OpRandomForestClassifier.scala
        OpLogisticRegression.scala
        OpMultilayerPerceptronClassifier.scala
        MultiClassificationModelSelector.scala
        BinaryClassificationModelSelector.scala
        OpDecisionTreeClassifier.scala
        OpLinearSVC.scala
        preparators
        MinVarianceFilterMetadata.scala
        SanityCheckerMetadata.scala
        MinVarianceFilter.scala
        SanityChecker.scala
        PredictionDeIndexer.scala
        DerivedFeatureFilterUtils.scala
        regression
        OpRandomForestRegressor.scala
        OpDecisionTreeRegressor.scala
        OpGeneralizedLinearRegression.scala
        OpGBTRegressor.scala
        OpXGBoostRegressor.scala
        OpLinearRegression.scala
        RegressionModelSelector.scala
        IsotonicRegressionCalibrator.scala
        feature
        FilterMap.scala
        PhoneNumberParser.scala
        TextTokenizer.scala
        TextMapNullEstimator.scala
        OpHashingTF.scala
        OpLDA.scala
        OpStringIndexer.scala
        DropIndicesByTransformer.scala
        OpStringIndexerNoFilter.scala
        OpStopWordsRemover.scala
        DescalerTransformer.scala
        FillMissingWithMean.scala
        NGramSimilarity.scala
        NumericBucketizer.scala
        OpScalarStandardScaler.scala
        TextLenTransformer.scala
        DateListVectorizer.scala
        BinaryVectorizer.scala
        ToOccurTransformer.scala
        GeolocationVectorizer.scala
        OpNGram.scala
        UrlMapToPickListMapTransformer.scala
        TimePeriodMapTransformer.scala
        ScalerTransformer.scala
        SubstringTransformer.scala
        MimeTypeDetector.scala
        OPCollectionTransformer.scala
        OpWord2Vec.scala
        RealVectorizer.scala
        OpCountVectorizer.scala
        ValidEmailTransformer.scala
        PercentileCalibrator.scala
        FilterTransformer.scala
        TextListNullTransformer.scala
        AliasTransformer.scala
        IntegralVectorizer.scala
        NameEntityRecognizer.scala
        ExistsTransformer.scala
        DateMapToUnitCircleVectorizer.scala
        SmartTextMapVectorizer.scala
        MultiPickListMapVectorizer.scala
        RealNNVectorizer.scala
        OPMapVectorizer.scala
        SmartTextVectorizer.scala
        OPCollectionHashingVectorizer.scala
        Transmogrifier.scala
        DecisionTreeNumericBucketizer.scala
        OpIndexToString.scala
        LangDetector.scala
        GeolocationMapVectorizer.scala
        ReplaceTransformer.scala
        TimePeriodTransformer.scala
        TimePeriodListTransformer.scala
        HumanNameDetector.scala
        EmailToPickListMapTransformer.scala
        OpOneHotVectorizer.scala
        MathTransformers.scala
        VectorsCombiner.scala
        DateToUnitCircleTransformer.scala
        TextMapLenEstimator.scala
        OpIndexToStringNoFilter.scala
        DecisionTreeNumericMapBucketizer.scala
        TextMapPivotVectorizer.scala
        JaccardSimilarity.scala
        insights
        RecordInsightsParser.scala
        RecordInsightsCorr.scala
        RecordInsightsLOCO.scala
        sparkwrappers
        generic
        SwSequenceTransformer.scala
        SwQuaternaryEstimator.scala
        SwBinaryTransformer.scala
        SwTernaryEstimator.scala
        SwSequenceEstimator.scala
        SwBinaryEstimator.scala
        SwUnaryTransformer.scala
        SwUnaryEstimator.scala
        SwTernaryTransformer.scala
        SwQuaternaryTransformer.scala
        specific
        OpPredictionModel.scala
        OpTransformerWrapper.scala
        SparkModelConverter.scala
        OpPredictorWrapper.scala
        OpEstimatorWrapper.scala
        OpProbabilisticClassifierModel.scala
        OpBinaryEstimatorWrapper.scala
        utils
        stages
        FitStagesUtil.scala
        NameDetectUtils.scala
        spark
        RichParamMap.scala
        JobGroupUtil.scala
        text
        OptimaizeLanguageDetector.scala
        OpenNLPNameEntityTagger.scala
        OpenNLPSentenceSplitter.scala
        LuceneTextAnalyzer.scala
        OpenNLPAnalyzer.scala
        OpenNLPModels.scala
        OpWorkflowModelReader.scala
        package.scala
        OpWorkflowModel.scala
        test
        TestOpWorkflowBuilder.scala
        evaluators
        OpBinaryClassificationEvaluator.scala
        OpMultiClassificationEvaluator.scala
        OpRegressionEvaluator.scala
        OpBinScoreEvaluator.scala
        OpForecastEvaluator.scala
        EvaluationMetrics.scala
        OpEvaluatorBase.scala
        Evaluators.scala
        dsl
        RichLocationFeature.scala
        RichTextFeature.scala
        RichSetFeature.scala
        RichListFeature.scala
        RichDateFeature.scala
        RichMapFeature.scala
        RichNumericFeature.scala
        RichVectorFeature.scala
        RichFeaturesCollection.scala
        RichFeature.scala
        ModelInsights.scala
        filters
        Summary.scala
        FeatureDistribution.scala
        package.scala
        RawFeatureFilterResults.scala
        AllFeatureInformation.scala
        RawFeatureFilter.scala
        PreparedFeatures.scala
        OpApp.scala
        OpWorkflowCore.scala
        OpWorkflow.scala
        OpWorkflowRunner.scala
        OpWorkflowModelWriter.scala
        org
        apache
        spark
        ml
        classification
        ClassifierParams.scala
        regression
        RegressorParams.scala
        attribute
        MetadataHelper.scala
        util
        SparkThreadUtils.scala
    - test
      - avro
        PassengerDataAll.avsc
      - resources
        RunnerParamsInvalid.json
        application.conf
        OldModelVersion
        op-model.json
        part-00000
        _SUCCESS
        RunnerParams.json
        log4j.properties
        note.xml
        811harmo24to36.mp3
        OldModelVersion_0_5_1
        op-model.json
        part-00000
        _SUCCESS
        dummy.csv
      - scala
        com
        salesforce
        op
        OpWorkflowRunnerTest.scala
        stages
        impl
        evaluator
        OPLogLossTest.scala
        tuning
        DataCutterTest.scala
        DataSplitterTest.scala
        OpValidatorTest.scala
        SplitterSummaryAsserts.scala
        DataBalancerTest.scala
        CompareParamGrid.scala
        selector
        RandomParamBuilderTest.scala
        ModelSelectorTest.scala
        SelectedModelCombinerTest.scala
        ModelSelectorSummaryTest.scala
        classification
        BinaryClassificationModelSelectorTest.scala
        OpLinearSVCTest.scala
        OpClassifierModelTest.scala
        FunctionalityForClassificationTests.scala
        MultiClassificationModelSelectorTest.scala
        OpMultilayerPerceptronClassifierTest.scala
        OpDecisionTreeClassifierTest.scala
        OpRandomForestClassifierTest.scala
        OpGBTClassifierTest.scala
        OpNaiveBayesTest.scala
        OpXGBoostClassifierTest.scala
        OpLogisticRegressionTest.scala
        preparators
        SanityCheckerTest.scala
        PredictionDeIndexerTest.scala
        BadFeatureZooTest.scala
        MinVarianceFilterTest.scala
        SanityCheckerMetadataTest.scala
        MinVarianceFilterMetadataTest.scala
        PredictionEquality.scala
        regression
        OpDecisionTreeRegressorTest.scala
        OpGBTRegressorTest.scala
        OpRegressionModelTest.scala
        OpRandomForestRegressorTest.scala
        OpGeneralizedLinearRegressionTest.scala
        RegressionModelSelectorTest.scala
        OpLinearRegressionTest.scala
        OpXGBoostRegressorTest.scala
        feature
        SubtractTransformerTest.scala
        TransmogrifierTest.scala
        TextTransmogrifyTest.scala
        TextTokenizerTest.scala
        OpCountVectorizerTest.scala
        TextMapLenEstimatorTest.scala
        AddTransformerTest.scala
        OPCollectionTransformerTest.scala
        TextMapPivotVectorizerTest.scala
        OPMapVectorizerTest.scala
        MultiPickListMapVectorizerTest.scala
        DateTimeVectorizerTest.scala
        OpIndexToStringNoFilterTest.scala
        ExpTransformerTest.scala
        GeolocationMapVectorizerTest.scala
        IntegralMapVectorizerTest.scala
        DateVectorizerTest.scala
        AliasTransformerTest.scala
        FilterTextMapTest.scala
        LogTransformerTest.scala
        TextVectorizerTest.scala
        TextListNullTransformerTest.scala
        ToOccurTransformerTest.scala
        FilterIntegralMapTest.scala
        BinaryMapVectorizerTest.scala
        VectorsCombinerTest.scala
        PercentileCalibratorTest.scala
        RealMapVectorizerTest.scala
        TextLenTransformerTest.scala
        OpStringIndexerNoFilterTest.scala
        LangDetectorTest.scala
        DateListVectorizerTest.scala
        TimePeriodMapTransformerTest.scala
        HumanNameDetectorTest.scala
        FillMissingWithMeanTest.scala
        PowerTransformerTest.scala
        RealVectorizerTest.scala
        OpStopWordsRemoverTest.scala
        MimeTypeDetectorTest.scala
        ScalerTransformerTest.scala
        PhoneNumberParserTest.scala
        DateMapToUnitCircleVectorizerTest.scala
        DescalerTransformerTest.scala
        OpTextPivotVectorizerTest.scala
        SetNGramSimilarityTest.scala
        SmartTextMapVectorizerTest.scala
        TimePeriodListTransformerTest.scala
        IsotonicRegressionCalibratorTest.scala
        RoundDigitsTransformerTest.scala
        FloorTransformerTest.scala
        FilterMultiPickListMapTest.scala
        NumericBucketizerTest.scala
        AbsoluteValueTransformerTest.scala
        TimePeriodTransformerTest.scala
        TextMapNullEstimatorTest.scala
        OpStringIndexerTest.scala
        ScalarAddTransformerTest.scala
        AttributeAsserts.scala
        GeolocationVectorizerTest.scala
        DecisionTreeNumericBucketizerTest.scala
        DivideTransformerTest.scala
        UniqueCountTest.scala
        DateToUnitCircleTransformerTest.scala
        OpSetVectorizerTest.scala
        OpNGramTest.scala
        Base64VectorizerTest.scala
        ScalerMetadataTest.scala
        CeilTransformerTest.scala
        EmailVectorizerTest.scala
        ScalerTest.scala
        IntegralVectorizerTest.scala
        URLVectorizerTest.scala
        OpIndexToStringTest.scala
        ScalarSubtractTransformerTest.scala
        ValidEmailTransformerTest.scala
        LinearScalerTest.scala
        OPCollectionHashingVectorizerTest.scala
        ScalarDivideTransformerTest.scala
        OPListTransformerTest.scala
        SmartTextVectorizerTest.scala
        RealNNVectorizerTest.scala
        SqrtTransformerTest.scala
        OpWord2VecTest.scala
        DropIndicesByTransformerTest.scala
        OpScalarStandardScalerTest.scala
        PredictionDescalerTransformerTest.scala
        JaccardSimilarityTest.scala
        OpHashingTFTest.scala
        OPMapTransformerTest.scala
        NumericVectorizerTest.scala
        EmailParserTest.scala
        DecisionTreeNumericMapBucketizerTest.scala
        RoundTransformerTest.scala
        ScalarMultiplyTransformerTest.scala
        MultiplyTransformerTest.scala
        SubstringTransformerTest.scala
        IDFTest.scala
        BinaryVectorizerTest.scala
        DateMapVectorizerTest.scala
        OpLDATest.scala
        OPSetTransformerTest.scala
        TextTokenizerRegexTest.scala
        TextNGramSimilarityTest.scala
        NameEntityRecognizerTest.scala
        insights
        RecordInsightsCorrTest.scala
        RecordInsightsLOCOTest.scala
        TransformersTest.scala
        OpCalibratorReaderWriterTest.scala
        OpTransformerTernaryReaderWriterTest.scala
        OpPipelineStagesTest.scala
        OpTransformerQuaternaryReaderWriterTest.scala
        OpMinMaxEstimatorReaderWriterTest.scala
        OpTransformerBinaryReaderWriterTest.scala
        OpTransformerBinarySequenceReaderWriterTest.scala
        OpTransformerReaderWriterTest.scala
        Lambdas.scala
        OpTransformerSequenceReaderWriterTest.scala
        OpPipelineStageReaderWriterTest.scala
        sparkwrappers
        generic
        SparkWrapperParamsTest.scala
        specific
        OpTransformerWrapperTest.scala
        OpPredictorWrapperTest.scala
        OpEstimatorWrapperTest.scala
        utils
        spark
        JobGroupUtilTest.scala
        text
        OpenNLPNameEntityTaggerTest.scala
        OpenNLPSentenceSplitterTest.scala
        OpWorkflowTest.scala
        DoubleEquality.scala
        evaluators
        OpBinaryClassificationEvaluatorTest.scala
        OpBinScoreEvaluatorTest.scala
        EvaluatorsTest.scala
        OpForecastEvaluatorTest.scala
        OpRegressionEvaluatorTest.scala
        OpMultiClassificationEvaluatorTest.scala
        OpWorkflowModelReaderWriterTest.scala
        ModelInsightsTest.scala
        ScalaStyleValidationTest.scala
        dsl
        RichNumericFeatureTest.scala
        filters
        RawFeatureFilterTest.scala
        FiltersTestData.scala
        SummaryTest.scala
        FeatureDistributionTest.scala
        PreparedFeaturesTest.scala
        RawFeatureFilterResultsComparison.scala
        features
        FeatureJsonHelperTest.scala
        FeaturesTest.scala
        TransientFeatureTest.scala
        OpWorkflowCoreTest.scala
        OpWorkflowCVTest.scala
  - build.gradle
- readers
  - src
    - main
      - avro
        SparkExample.avsc
        JoinTestData.avsc
        SparkExampleJoin.avsc
        PassengerProfile.avsc
      - scala
        com
        salesforce
        op
        test
        PassengerSparkFixtureTest.scala
        PassengerFeaturesTest.scala
        readers
        StreamingReaders.scala
        StreamingReader.scala
        CustomReaders.scala
        AvroReaders.scala
        DataReaders.scala
        CSVAutoReaders.scala
        TimeStampToKeep.scala
        CSVReaders.scala
        ParquetProductReader.scala
        JoinedDataReader.scala
        CSVProductReaders.scala
        DataFrameFieldNames.scala
        Reader.scala
        DataReader.scala
        JoinTypes.scala
        CSVDefaults.scala
        org
        apache
        spark
        sql
        execution
        datasources
        csv
        CSVSchemaUtils.scala
    - test
      - resources
        log4j.properties
        PassengerAuto.avsc
      - scala
        com
        salesforce
        op
        readers
        JoinedReadersTest.scala
        ParquetProductReaderTest.scala
        DataReadersTest.scala
        CSVAutoReadersTest.scala
        JoinedDataReaderDataGenerationTest.scala
        CSVProductReadersTest.scala
        DataGenerationTest.scala
        StreamingReadersTest.scala
  - build.gradle
- settings.gradle
- .gitignore
- docs
  - Makefile
  - faq
    - index.md
  - examples
    - Iris-MultiClass-Classification.md
    - Titanic-Binary-Classification.md
    - Running-from-Jupyter-Notebook.md
    - Conditional-Aggregation.md
    - Time-Series-Aggregates-and-Joins.md
    - Running-from-Spark-Shell.md
    - index.rst
    - Bootstrap-Your-First-Project.md
    - Boston-Regression.md
    - Community-Projects.md
  - abstractions
    - index.md
  - contributing
    - index.md
  - license
    - index.md
  - talks
    - index.md
  - automl-capabilities
    - index.md
  - developer-guide
    - index.md
  - README.md
  - index.rst
  - conf.py
  - _templates
    - breadcrumbs.html
  - installation
    - index.md

/*
 * Copyright (c) 2017, Salesforce.com, Inc.
 * All rights reserved.
 *
 * Redistribution and use in source and binary forms, with or without
 * modification, are permitted provided that the following conditions are met:
 *
 * * Redistributions of source code must retain the above copyright notice, this
 *   list of conditions and the following disclaimer.
 *
 * * Redistributions in binary form must reproduce the above copyright notice,
 *   this list of conditions and the following disclaimer in the documentation
 *   and/or other materials provided with the distribution.
 *
 * * Neither the name of the copyright holder nor the names of its
 *   contributors may be used to endorse or promote products derived from
 *   this software without specific prior written permission.
 *
 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
 * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
 * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
 * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
 * SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
 * CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 */

package com.salesforce.op.stages.impl.classification

import com.salesforce.op.features.types._
import com.salesforce.op.stages.impl.PredictionEquality
import com.salesforce.op.stages.sparkwrappers.specific.{OpPredictorWrapper, OpPredictorWrapperModel}
import com.salesforce.op.test.{OpEstimatorSpec, TestFeatureBuilder}
import org.apache.spark.ml.classification.{RandomForestClassificationModel, RandomForestClassifier}
import org.apache.spark.ml.linalg.Vectors
import org.junit.runner.RunWith
import org.scalatest.junit.JUnitRunner

@RunWith(classOf[JUnitRunner])
class OpRandomForestClassifierTest extends
  OpEstimatorSpec[Prediction, OpPredictorWrapperModel[RandomForestClassificationModel],
    OpPredictorWrapper[RandomForestClassifier, RandomForestClassificationModel]] with PredictionEquality {

  override def specName: String = Spec[OpRandomForestClassifier]

  lazy val (inputData, rawLabelMulti, featuresMulti) =
    TestFeatureBuilder[RealNN, OPVector]("labelMulti", "featuresMulti",
      Seq(
        (1.0.toRealNN, Vectors.dense(12.0, 4.3, 1.3).toOPVector),
        (0.0.toRealNN, Vectors.dense(0.0, 0.3, 0.1).toOPVector),
        (2.0.toRealNN, Vectors.dense(1.0, 3.9, 4.3).toOPVector),
        (2.0.toRealNN, Vectors.dense(10.0, 1.3, 0.9).toOPVector),
        (1.0.toRealNN, Vectors.dense(15.0, 4.7, 1.3).toOPVector),
        (0.0.toRealNN, Vectors.dense(0.5, 0.9, 10.1).toOPVector),
        (1.0.toRealNN, Vectors.dense(11.5, 2.3, 1.3).toOPVector),
        (0.0.toRealNN, Vectors.dense(0.1, 3.3, 0.1).toOPVector),
        (2.0.toRealNN, Vectors.dense(1.0, 4.0, 4.5).toOPVector),
        (2.0.toRealNN, Vectors.dense(10.0, 1.5, 1.0).toOPVector)
      )
    )

  val labelMulti = rawLabelMulti.copy(isResponse = true)

  val estimator = new OpRandomForestClassifier().setInput(labelMulti, featuresMulti)

  val expectedResult = Seq(
    Prediction(1.0, Array(0.0, 17.0, 3.0), Array(0.0, 0.85, 0.15)),
    Prediction(0.0, Array(19.0, 0.0, 1.0), Array(0.95, 0.0, 0.05)),
    Prediction(2.0, Array(0.0, 1.0, 19.0), Array(0.0, 0.05, 0.95)),
    Prediction(2.0, Array(1.0, 2.0, 17.0), Array(0.05, 0.1, 0.85)),
    Prediction(1.0, Array(0.0, 17.0, 3.0), Array(0.0, 0.85, 0.15)),
    Prediction(0.0, Array(16.0, 0.0, 4.0), Array(0.8, 0.0, 0.2)),
    Prediction(1.0, Array(1.0, 17.0, 2.0), Array(0.05, 0.85, 0.1)),
    Prediction(0.0, Array(17.0, 0.0, 3.0), Array(0.85, 0.0, 0.15)),
    Prediction(2.0, Array(2.0, 1.0, 17.0), Array(0.1, 0.05, 0.85)),
    Prediction(2.0, Array(1.0, 2.0, 17.0), Array(0.05, 0.1, 0.85))
  )

  it should "allow the user to set the desired spark parameters" in {
    estimator
      .setMaxDepth(10)
      .setImpurity(Impurity.Gini.sparkName)
      .setMaxBins(33)
      .setMinInstancesPerNode(2)
      .setMinInfoGain(0.2)
      .setSubsamplingRate(0.9)
      .setNumTrees(21)
      .setSeed(2L)
    estimator.fit(inputData)

    estimator.predictor.getMaxDepth shouldBe 10
    estimator.predictor.getMaxBins shouldBe 33
    estimator.predictor.getImpurity shouldBe Impurity.Gini.sparkName
    estimator.predictor.getMinInstancesPerNode shouldBe 2
    estimator.predictor.getMinInfoGain shouldBe 0.2
    estimator.predictor.getSubsamplingRate shouldBe 0.9
    estimator.predictor.getNumTrees shouldBe 21
    estimator.predictor.getSeed shouldBe 2L
  }

}