scala source code of MLUserDefinedType

Project: spark-testing-base (GitHub Link)

spark-testing-base-master
- .github
  - FUNDING.yml
- src
  - main
    - 2.0
      - scala
        org
        apache
        spark
        Logging.scala
- kafka-0.8
  - src
    - main
      - scala
        org
        apache
        spark
        streaming
        kafka
        KafkaTestUtils.scala
    - test
      - scala
        com
        holdenkarau
        spark
        testing
        kafka
        KafkaTestUtilsTest.scala
- scalastyle-config.xml
- mini-cross-build.pl
- LICENSE
- project
  - build.properties
  - plugins.sbt
- CONTRIBUTING.md
- log4j
  - log4j.properties
- sbt
  - sbt
- python
  - setup.py
  - sparktestingbase
    - testcase.py
    - test
      - simple_test.py
      - simple_sql_test.py
      - helloworld_test.py
      - simple_streaming_test.py
      - __init__.py
      - reuse_spark_context_test.py
    - sqltestcase.py
    - streamingtestcase.py
    - __init__.py
    - pathmagic.py
    - utils.py
  - run-tests
  - MANIFSET.in
  - LICENSE.txt
- .travis.yml
- README.md
- CODE_OF_CONDUCT.md
- core
  - src
    - main
      - pre-2.2_2.10
        scala
        org
        apache
        spark
        EvilSparkContext.scala
      - 2.0
        scala
        com
        holdenkarau
        spark
        testing
        SharedMiniCluster.scala
        DataFrameSuiteBase.scala
        SharedSparkContext.scala
        PerTestSparkContext.scala
        PerfListener.scala
        MLUserDefinedType.scala
        org
        apache
        spark
        sql
        EvilSessionTools.scala
        Loggign.scala
      - pre-2.0
        scala
        com
        holdenkarau
        spark
        testing
        SharedMiniCluster.scala
        DataFrameSuiteBase.scala
        SharedSparkContext.scala
        PerTestSparkContext.scala
        PerfListener.scala
        MLUserDefinedType.scala
        TestHiveContext.scala
      - 2.4_2.12
        java
        testing
        SharedJavaSparkContext.java
      - resources
        log4j.properties
      - 1.3-only
        scala
        com
        holdenkarau
        spark
        testing
        SQLContext.scala
        LocalSparkContext.scala
      - pre-2.2_2.11
        scala
        org
        apache
        spark
        EvilSparkContext.scala
      - 1.4
        scala
        com
        holdenkarau
        spark
        testing
        LocalSparkContext.scala
        org
        apache
        spark
        SparkUtils.scala
      - 1.6
        scala
        com
        holdenkarau
        spark
        testing
        Prettify.scala
        DatasetGenerator.scala
        DatasetSuiteBase.scala
      - 2.2
        scala
        com
        holdenkarau
        spark
        testing
        StructuredStreamingBase.scala
        org
        apache
        spark
        EvilSparkContext.scala
      - 1.5
        scala
        com
        holdenkarau
        spark
        testing
        WrappedConfVar.scala
      - pre-1.5
        scala
        com
        holdenkarau
        spark
        testing
        WrappedConfVar.scala
      - 1.3
        scala
        com
        holdenkarau
        spark
        testing
        StreamingActionBase.scala
        RDDGenerator.scala
        JavaRDDComparisons.scala
        StreamingSuiteBase.scala
        Utils.scala
        RDDComparisons.scala
        JavaStreamingSuitebase.scala
        TestSuite.scala
        JavaDataFrameSuiteBase.scala
        SparkContextProvider.scala
        YARNCluster.scala
        DataframeGenerator.scala
        HDFSCluster.scala
        TestInputStream.scala
        Logging.scala
        JavaSuiteBase.scala
        StreamingSuiteCommon.scala
        org
        apache
        spark
        streaming
        TestManualClock.scala
        TestStreamingContext.scala
        dstream
        FriendlyInputDStream.scala
        java
        com
        holdenkarau
        spark
        testing
        SharedJavaSparkContext.java
    - test
      - 2.0
        scala
        com
        holdenkarau
        spark
        testing
        PerTestSparkContextTest.scala
        MLScalaCheckTest.scala
        DatasetGeneratorSizeSpecial.scala
      - pre-2.0
        java
        com
        holdenkarau
        spark
        testing
        SampleJavaDataFrameTest.java
        JavaMagicTime.java
      - 1.6
        scala
        com
        holdenkarau
        spark
        testing
        SampleDatasetGeneratorTest.scala
        PrettifyTest.scala
        YARNClusterTest.scala
        SampleMiniClusterTest.scala
        SampleDatasetTest.scala
        java
        com
        holdenkarau
        spark
        testing
        SampleJavaDatasetTest.java
      - 2.2
        scala
        com
        holdenkarau
        spark
        testing
        StructuredStreamingSampleTests.scala
      - 1.3
        scala
        com
        holdenkarau
        spark
        testing
        UtilsTest.scala
        MultipleDataFrameSuites.scala
        SampleScalaCheckTest.scala
        SampleStreamingActionTest.scala
        PerfSampleTest.scala
        ArtisinalStreamingTest.scala
        SampleRDDTest.scala
        HDFSClusterTest.scala
        PerTestSampleTest.scala
        SampleDataFrameTest.scala
        SampleStreamingTest.scala
        java
        com
        holdenkarau
        spark
        testing
        BasicMagic.java
        SampleJavaRDDTest.java
        SampleJavaStreamingTest.java
- RELEASE_NOTES.md
- .codecov.yml
- build.sbt
- .gitignore

package com.holdenkarau.spark.testing

import org.apache.spark.sql.types.DataType
import org.apache.spark.ml.linalg.SQLDataTypes.{MatrixType, VectorType}
import org.apache.spark.ml.linalg.{DenseMatrix, Vectors}
import org.scalacheck.{Arbitrary, Gen}

/**
 * Extractor that matches the UDTs exposed by Spark ML.
 */
object MLUserDefinedType {
  def unapply(dataType: DataType): Option[Gen[Any]] =
    dataType match {
      case MatrixType => {
        val dense = for {
          rows <- Gen.choose(0, 20)
          cols <- Gen.choose(0, 20)
          values <- Gen.containerOfN[Array, Double](rows * cols, Arbitrary.arbitrary[Double])
        } yield new DenseMatrix(rows, cols, values)
        val sparse = dense.map(_.toSparse)
        Some(Gen.oneOf(dense, sparse))
      }
      case VectorType => {
        val dense = Arbitrary.arbitrary[Array[Double]].map(Vectors.dense)
        val sparse = for {
          indices <- Gen.nonEmptyContainerOf[Set, Int](Gen.choose(0, Int.MaxValue - 1))
          values <- Gen.listOfN(indices.size, Arbitrary.arbitrary[Double])
        } yield Vectors.sparse(indices.max + 1, indices.toSeq.zip(values))
        Some(Gen.oneOf(dense, sparse))
      }
      case _ => None
    }
}