scala source code of SpreadsheetRelation

mimir-master
- src
  - main
    - resources
      - Test.py
      - logback.xml
      - api-docs
        favicon-16x16.svg
        swagger-ui.css
        oauth2-redirect.html
        mimir-vizier.json
        swagger-ui.css.map
        index.html
        favicon-32x32.svg
      - __main__.py
      - Plot.py
    - scala
      - org
        apache
        spark
        sql
        execution
        datasources
        ubodin
        csv
        CSVInferSchema.scala
        UnivocityGenerator.scala
        CSVFileFormat.scala
        CSVUtils.scala
        UnivocityParser.scala
        CSVOptions.scala
        MimirCSVDataSource.scala
      - mimir
        sql
        SqlToRA.scala
        RAToSql.scala
        ml
        spark
        SparkML.scala
        Classification.scala
        Regression.scala
        algebra
        RAException.scala
        TypeException.scala
        NullTypeException.scala
        function
        RandomnessFunctions.scala
        JsonFunctions.scala
        GeoFunctions.scala
        NumericFunctions.scala
        TimeFunctions.scala
        StringFunctions.scala
        UtilityFunctions.scala
        SampleFunctions.scala
        SparkFunctions.scala
        TypeFunctions.scala
        AggregateRegistry.scala
        FunctionRegistry.scala
        Operator.scala
        ExpressionUtils.scala
        Eval.scala
        Type.scala
        sampling
        SampleStratifiedOn.scala
        SampleRowsUniformly.scala
        SamplingMode.scala
        QueryNamer.scala
        OperatorConstructors.scala
        ID.scala
        ExpressionConstructors.scala
        OperatorUtils.scala
        Cast.scala
        Expression.scala
        Typechecker.scala
        statistics
        FuncDep.scala
        FeedbackStats.scala
        DatasetShape.scala
        DetectSeries.scala
        facet
        NonNullable.scala
        FacetDetector.scala
        Facet.scala
        ExpectedColumns.scala
        ExpectedValues.scala
        ExpectedType.scala
        views
        TemporaryViewManager.scala
        ViewManager.scala
        ViewMetadata.scala
        plot
        .matplotlibrc
        Heuristics.scala
        Plot.scala
        MimirVizier.scala
        Database.scala
        metadata
        JDBCMetadataBackend.scala
        Metadata.scala
        MetadataBackend.scala
        Migrations.scala
        serialization
        Json.scala
        Base64Codecs.scala
        PrimitiveValueJSON.scala
        api
        APIModel.scala
        Request.scala
        Response.scala
        MimirAPI.scala
        models
        TypeInferenceModel.scala
        PickerModel.scala
        Model.scala
        BasicModels.scala
        DefaultMetaModel.scala
        MissingKeyModel.scala
        SeriesMissingValueModel.scala
        FuncDepModel.scala
        StatisticalTraits.scala
        ModelException.scala
        CommentModel.scala
        FeedbackTraits.scala
        GeocodingModel.scala
        ModelManager.scala
        EditDistanceMatchModel.scala
        RepairKeyModel.scala
        FacetModel.scala
        WekaModel.scala
        DetectHeaderModel.scala
        ModelRegistry.scala
        SparkClassifierModel.scala
        ModelBuildingBlocks.scala
        util
        JsonToCSV.scala
        JDBCUtils.scala
        NameLookup.scala
        GeoUtils.scala
        BackupUtils.scala
        HadoopUtils.scala
        PythonProcess.scala
        SparkUtils.scala
        LoggerUtils.scala
        TimeUtils.scala
        SqlUtils.scala
        RandUtils.scala
        Timer.scala
        JSONUtils.scala
        TestResults.scala
        LineReaderInputSource.scala
        TextUtils.scala
        ExperimentalOptions.scala
        StringUtils.scala
        HTTPUtils.scala
        WebLogAppender.scala
        FileUtils.scala
        ListUtils.scala
        JSONBuilder.scala
        S3Utils.scala
        optimizer
        Optimizer.scala
        ExpressionOptimizerRule.scala
        operator
        PullUpConstants.scala
        PartitionUncertainJoins.scala
        PullUpUnions.scala
        StripViews.scala
        OptimizeExpressions.scala
        PushdownSelections.scala
        EvaluateHardTables.scala
        PropagateConditions.scala
        PropagateEmptyViews.scala
        ProjectRedundantColumns.scala
        InlineProjections.scala
        DecomposeAggregates.scala
        OperatorOptimization.scala
        expression
        PullUpBranches.scala
        PushDownConditionalConstraints.scala
        FlattenTrivialBooleanConditionals.scala
        PushDownNots.scala
        RemoveRedundantCasts.scala
        SimplifyExpressions.scala
        FlattenBooleanConditionals.scala
        provenance
        Tracer.scala
        Provenance.scala
        data
        SparkSchemaProvider.scala
        LoadedTables.scala
        FileFormat.scala
        SystemCatalog.scala
        SchemaProvider.scala
        MaterializedTableProvider.scala
        staging
        RawFileProvider.scala
        HDFSRawFileProvider.scala
        LocalFSRawFileProvider.scala
        ctables
        CTables.scala
        InlineVGTerms.scala
        Reason.scala
        Repair.scala
        ExpressionDeterminism.scala
        CoarseDependency.scala
        vgterm
        Sampler.scala
        DomainDumper.scala
        IsAcknowledged.scala
        BestGuess.scala
        CTPrioritizer.scala
        ReasonSet.scala
        AnalyzeUncertainty.scala
        OperatorDeterminism.scala
        adaptive
        Multilens.scala
        AdaptiveSchemaProvider.scala
        AdaptiveSchemaManager.scala
        SchemaMatching.scala
        CheckHeader.scala
        MultilensRegistry.scala
        TypeInference.scala
        ShapeWatcher.scala
        DataSourceErrors.scala
        parser
        MimirKeyword.scala
        ExpressionParser.scala
        MimirCommand.scala
        AlterTable.scala
        SyntaxError.scala
        MimirStatement.scala
        LineReaderParser.scala
        MimirSQL.scala
        lenses
        LensManager.scala
        PickerLens.scala
        CommentLens.scala
        RepairKeyLens.scala
        LensUtils.scala
        MissingValueLens.scala
        GeocodingLens.scala
        MissingKeyLens.scala
        Mimir.scala
        exec
        result
        UnionResultIterator.scala
        AggregateResultIterator.scala
        Row.scala
        ExplicitRow.scala
        LazyRow.scala
        SampleResultIterator.scala
        ResultIterator.scala
        SparkResultIterator.scala
        ResultSeq.scala
        ProjectionResultIterator.scala
        OutputFormat.scala
        sqlite
        SQLiteCompat.scala
        MimirFunction.scala
        SpecializeForSQLite.scala
        VGTermFunctions.scala
        EvalInlined.scala
        spark
        udf
        SampleUDF.scala
        GroupBitwiseOr.scala
        MimirUDF.scala
        AckedUDF.scala
        JsonGroupArray.scala
        GroupAnd.scala
        GroupBitwiseAnd.scala
        BestGuessUDF.scala
        FunctionUDF.scala
        GroupOr.scala
        RAToSpark.scala
        MimirSparkRuntimeUtils.scala
        datasource
        pdf
        PDFTableExtractor.scala
        PDFDataSource.scala
        csv
        CSVDataSource.scala
        google
        spreadsheet
        SparkSpreadsheetService.scala
        package.scala
        DefaultSource15.scala
        TypeCast.scala
        DefaultSource.scala
        SpreadsheetRelation.scala
        Util.scala
        RowIndexPlan.scala
        MimirSpark.scala
        Compiler.scala
        uncertainty
        Statistics.scala
        mode
        CompileMode.scala
        SampleRows.scala
        BestGuess.scala
        UnannotatedBestGuess.scala
        DumpDomain.scala
        TupleBundle.scala
  - test
    - resources
      - logback-test.xml
    - scala
      - mimir
        sql
        RaToSqlSpec.scala
        algebra
        SamplingSpec.scala
        SerializationSpec.scala
        IntervalSpec.scala
        spark
        GeoSparkSpec.scala
        SparkDataSourcesSpec.scala
        OperatorTranslationSpec.scala
        SparkMimirCSVDataSourceSpec.scala
        DateSpec.scala
        EvalSpec.scala
        TypecheckerSpec.scala
        statistics
        DatasetShapeSpec.scala
        DetectSeriesSpec.scala
        demo
        CureScenario.scala
        PlantScenario.scala
        TimeSeqScenarios.scala
        SimpleDemoScript.scala
        views
        ViewsSpec.scala
        test
        SQLParsers.scala
        MCDBWorkload.scala
        SQLTestSpecification.scala
        TestTimer.scala
        PDBench.scala
        RAParsers.scala
        RASimplify.scala
        backend
        SparkBackendSpec.scala
        models
        SparkClassifierModelSpec.scala
        EditDistanceMatchModelSpec.scala
        TypeInferenceModelSpec.scala
        SeriesMissingValueModelSpec.scala
        util
        LoadCSVSpec.scala
        TextUtilsSpec.scala
        SparkUtilsSpec.scala
        MimirVizierSpec.scala
        optimizer
        ExpressionOptimizerSpec.scala
        OperatorOptimizerRegressions.scala
        provenance
        ProvenanceSpec.scala
        ProvenanceRegressions.scala
        ctables
        OperatorDeterminismSpec.scala
        CTPrioritizerSpec.scala
        CTExplainerSpec.scala
        adaptive
        ShapeDetectorSpec.scala
        TypeInferenceAdaptiveSpec.scala
        parser
        SqlParserSpec.scala
        SqlParserRegressions.scala
        ExpressionParserSpec.scala
        lenses
        FeedbackSpec.scala
        MissingValueSpec.scala
        PickerSpec.scala
        TypeInferenceSpec.scala
        GeocodingSpec.scala
        RepairKeySpec.scala
        LensManagerSpec.scala
        exec
        EvalInlinedSpec.scala
        TupleBundlerSpec.scala
        PerformanceTuningSpec.scala
        EvalSpec.scala
- LICENSE
- test
  - Makefile
  - tpch_queries
    - tpch_schema.sql
    - oracle
      - small
        det
        1.sql
        5.sql
        3.sql
        9.sql
        noagg
        1.sql
        5.sql
        3.sql
        9.sql
      - large
        det
        1.sql
        5.sql
        3.sql
        9.sql
        noagg
        1.sql
        5.sql
        3.sql
        9.sql
        tpch_lenses.sql
    - det
      - 1.sql
      - 5.sql
      - 3.sql
      - 9.sql
    - agg
      - 1.sql
      - 5.sql
      - 3.sql
      - 9.sql
    - noagg
      - 1.sql
      - 5.sql
      - 3.sql
      - 9.sql
    - tpch_lenses.sql
  - pdbench_queries
    - q2_mimir.sql
    - q1_mimir_col.sql
    - q3_mimir.sql
    - q1_mimir_row.sql
    - q2_maybms.sql
    - q3_maybms.sql
    - q1_maybms.sql
  - repair_key
    - fd_dag.csv
  - r_test
    - cureSourceWithScore.csv
    - s.csv
    - l.csv
    - boolAnd.csv
    - twitter100Cols10kRowsWithScore.csv
    - u.csv
    - t.csv
    - a.csv
    - z_bad.csv
    - r.csv
    - z.csv
  - NYC_CoD
    - New_York_City_Leading_Causes_of_Death_12_11_2018.csv
    - New_York_City_Leading_Causes_of_Death_12_18_2018.csv
  - sanity
    - simple
      - TABLE05.SQL
      - TABLE11.SQL
      - TABLE01.SQL
      - TABLE10.SQL
      - TABLE02.SQL
      - UNION01.SQL
      - UNION02.SQL
      - TABLE07.SQL
      - TABLE06.SQL
      - TABLE09.SQL
      - TABLE04.SQL
      - TABLE03.SQL
      - UNION03.SQL
      - TABLE08.SQL
    - const
      - CONST12.SQL
      - CONST01.SQL
      - CONST03.SQL
      - CONST10.SQL
      - CONST19.SQL
      - CONST21.SQL
      - CONST11.SQL
      - CONST24.SQL
      - CONST06.SQL
      - CONST05.SQL
      - CONST25.SQL
      - CONST04.SQL
      - CONST20.SQL
      - CONST16.SQL
      - CONST13.SQL
      - CONST18.SQL
      - CONST22.SQL
      - CONST14.SQL
      - CONST09.SQL
      - CONST23.SQL
      - CONST15.SQL
      - CONST07.SQL
      - CONST02.SQL
      - CONST17.SQL
      - CONST08.SQL
    - agg
      - GBAGG09.SQL
      - GBAGG12.SQL
      - GBAGG01.SQL
      - GBAGG02.SQL
      - AGG11.SQL
      - GBAGG11.SQL
      - AGG03.SQL
      - GBAGG08.SQL
      - GBAGG03.SQL
      - GBAGG06.SQL
      - AGG10.SQL
      - AGG12.SQL
      - AGG01.SQL
      - GBAGG04.SQL
      - AGG04.SQL
      - AGG08.SQL
      - GBAGG10.SQL
      - AGG02.SQL
      - GBAGG05.SQL
      - GBAGG07.SQL
      - AGG05.SQL
      - AGG07.SQL
      - AGG09.SQL
      - AGG06.SQL
    - orderby
      - ORDERBY01.SQL
      - ORDERBY03.SQL
      - ORDERBY02.SQL
      - ORDERBY04.SQL
    - update
      - INSERT00.SQL
      - INSERT02.SQL
      - DELETE01.SQL
      - UPDATE02.SQL
      - INSERT01.SQL
      - UPDATE01.SQL
  - data
    - gprom_t.csv
    - geo.csv
    - Product_Inventory.csv
    - DetectSeriesTest2.csv
    - product.csv
    - ratings3.csv
    - serial_r.csv
    - temperature.csv
    - Employee.csv
    - causes.csv
    - views_r.csv
    - jsonsampletocsv.csv
    - gprom_q.csv
    - sample-area.pdf.csv
    - readings.tsv
    - mv.csv
    - BestbuyWalmart_perfect.csv
    - Product_Inventory.sql
    - sample.pdf.csv
    - CPUSpeed.csv
    - xmlsample.xml
    - views_s.csv
    - old
      - curePorts_err.csv
      - cureLocationsOrig.csv
    - DetectSeriesTest3.csv
    - home.csv
    - jsonsample.txt
    - ratings1.csv
    - seq.csv
    - garbledRatings.csv
    - api-project-378720062738-5923e0b6125f
    - DetectSeriesTest1.csv
    - ORG_DetectSeriesTest3.csv
    - geo_lat_lng.csv
    - mk.csv
    - Product.sql
    - corrupt.csv
    - ratings2.csv
    - curePorts.csv
    - userTypes.csv
    - Product_Inventory_MV.sql
    - Employee1.csv
    - serial_t.csv
    - excel.xlsx
    - Bestbuy_raw_noquote.csv
    - serial_s.csv
    - Bestbuy_raw.csv
    - Walmart_raw.csv
    - pick.csv
    - gprom_r.csv
    - cureLocations.csv
  - scripts
    - tpch.py
    - experiment.py
    - noisy.py
- project
  - build.properties
  - assembly.sbt
  - plugins.sbt
- lib
  - java_gateway.py
  - version.py
  - finalizer.py
  - py4j0.10.4.jar
  - clientserver.py
  - backport.py
  - __init__.py
  - signals.py
  - compat.py
  - java_collections.py
  - protocol.py
- .travis.yml
- README.md
- bin
  - init
  - mimir-debug
  - mimir-profiler
- databases
  - demo_final_state.db
  - jsonoutputwide.db
  - shredderLensTestDB.db
  - tpch.db
- build.sbt
- .gitignore
- conf
  - application.conf
  - log4j.properties
  - log4j2.xml
  - routes
  - jdbc.example.property

/*
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package mimir.exec.spark.datasource.google.spreadsheet

import mimir.exec.spark.datasource.google.spreadsheet.SparkSpreadsheetService.SparkSpreadsheetContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.sources.{BaseRelation, InsertableRelation, TableScan}
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SQLContext}

case class SpreadsheetRelation protected[spark] (
                                                  context:SparkSpreadsheetContext,
                                                  spreadsheetName: String,
                                                  worksheetName: String,
                                                  userSchema: Option[StructType] = None)(@transient val sqlContext: SQLContext)
  extends BaseRelation with TableScan with InsertableRelation {

  import mimir.exec.spark.datasource.google.spreadsheet.SparkSpreadsheetService._

  private val fieldMap = scala.collection.mutable.Map[String, String]()
  override def schema: StructType = userSchema.getOrElse(inferSchema())

  private lazy val aWorksheet: SparkWorksheet =
    findWorksheet(spreadsheetName, worksheetName)(context) match {
      case Right(aWorksheet) => aWorksheet
      case Left(e) => throw e
    }

  private lazy val rows: Seq[Map[String, String]] = aWorksheet.rows

  private[spreadsheet] def findWorksheet(spreadsheetName: String, worksheetName: String)(implicit ctx: SparkSpreadsheetContext): Either[Throwable, SparkWorksheet] =
    for {
      sheet <- findSpreadsheet(spreadsheetName).toRight(new RuntimeException(s"no such spreadsheet: $spreadsheetName")).right
      worksheet <- sheet.findWorksheet(worksheetName).toRight(new RuntimeException(s"no such worksheet: $worksheetName")).right
    } yield worksheet

  override def buildScan(): RDD[Row] = {
    val aSchema = schema
    val schemaMap = fieldMap.toMap
    sqlContext.sparkContext.makeRDD(rows).mapPartitions { iter =>
      iter.map { m =>
        var index = 0
        val rowArray = new Array[Any](aSchema.fields.length)
        while(index < aSchema.fields.length) {
          val field = aSchema.fields(index)
          rowArray(index) = if (m.contains(field.name)) {
            TypeCast.castTo(m(field.name), field.dataType, field.nullable)
          } else if (schemaMap.contains(field.name) && m.contains(schemaMap(field.name))) {
            TypeCast.castTo(m(schemaMap(field.name)), field.dataType, field.nullable)
          } else {
            null
          }
          index += 1
        }
        Row.fromSeq(rowArray)
      }
    }
  }

  override def insert(data: DataFrame, overwrite: Boolean): Unit = {
    if(!overwrite) {
      sys.error("Spreadsheet tables only support INSERT OVERWRITE for now.")
    }

    findWorksheet(spreadsheetName, worksheetName)(context) match {
      case Right(w) =>
        w.updateCells(data.schema, data.collect().toList, Util.toRowData)
      case Left(e) =>
        throw e
    }
  }

  def sanitizeColumnName(name: String): String =
  {
    name
      .replaceAll("[^a-zA-Z0-9]+", "_")    // Replace sequences of non-alphanumeric characters with underscores
      .replaceAll("_+$", "")               // Strip trailing underscores
      .replaceAll("^[0-9_]+", "")          // Strip leading underscores and digits
  }

  private def inferSchema(): StructType =
    StructType(aWorksheet.headers.toList.map { fieldName => {
      val sanitizedName = sanitizeColumnName(fieldName)
      fieldMap.put(sanitizedName, fieldName)
      StructField(sanitizedName, StringType, true)
    }})

}