scala source code of TransposePostprocessor

DataQuality-master
- dq-core
  - src
    - main
      - resources
        integration
        dev
        dev.sql
        bin
        run.sh
        conf
        dev.conf
      - scala
        it
        agilelab
        bigdata
        DataQuality
        utils
        DQMainClass.scala
        versions
        BackCompatibilityConfiguration.scala
        enums.scala
        DQSparkContext.scala
        PathUtils.scala
        package.scala
        DQCommandLineOptions.scala
        mailing
        Summary.scala
        MailerConfiguration.scala
        Mail.scala
        NotificationManager.scala
        io
        HdfsReader.scala
        HistoryDBManager.scala
        db
        readers
        SQLiteReader.scala
        TableReader.scala
        HBaseLoader.scala
        PostgresReader.scala
        ORCLReader.scala
        HdfsWriter.scala
        HiveReader.scala
        DQSettings.scala
        Logging.scala
        sources
        VirtualSourceProcessor.scala
        DatabaseConfig.scala
        Source.scala
        targets
        Target.scala
        apps
        DQMasterBatch.scala
        configs
        ConfigReader.scala
        GenStructType.scala
        exceptions
        IllegalConstraintResultException.scala
        metrics
        MetricProcessor.scala
        ColumnMetrics
        BasicNumericMetrics.scala
        BasicStringMetrics.scala
        MultiColumnMetrics.scala
        AlgebirdMetrics.scala
        MetricMapper.scala
        FileMetrics
        FileMetrics.scala
        MetricResult.scala
        Metric.scala
        MetricCalculator.scala
        postprocessors
        PostprocessorType.scala
        EnrichPostprocessor.scala
        TransposeByColumnPostprocessor.scala
        TransposePostprocessor.scala
        ArrangePostprocessor.scala
        checks
        CheckMessageGenerator.scala
        SQLChecks
        SQLCheck.scala
        SQLCheckProcessor.scala
        Check.scala
        CheckMessage.scala
        TrendChecks
        AverageBoundRangeCheck.scala
        TrendCheckCore.scala
        AverageBoundCheck.scala
        TopNRankCheck.scala
        CheckResult.scala
        CheckUtil.scala
        SnapshotChecks
        DifferByLTCheck.scala
        EqualToSnapshotCheck.scala
        LessThanSnapshotCheck.scala
        GreaterThanSnapshotCheck.scala
        LoadChecks
        LoadCheck.scala
        CheckStatus.scala
    - test
      - resources
        application.conf
        conf
        test.conf
      - scala
        SparkTestSpec.scala
        BasicStringMetricsSpec.scala
    - universal
      - bin
        global_parameters.sh
        functions.sh
        submit.sh
      - conf
        log4j.properties
- dq-ui
  - public
    - javascripts
      - hello.js
    - vendor
      - @angular
        flex-layout
        @angular
        flex-layout.js
        flex-layout.es5.js
        LICENSE
        flex-layout.d.ts
        CHANGELOG.md
        typings
        utils
        basis-validator.d.ts
        style-transforms.d.ts
        index.d.ts
        style-utils.d.ts
        breakpoint-tools.d.ts
        auto-prefixer.d.ts
        object-extend.d.ts
        layout-validator.d.ts
        add-alias.d.ts
        version.d.ts
        index.metadata.json
        index.d.ts
        flexbox
        responsive
        responsive-activation.d.ts
        api
        flex.d.ts
        base-adapter.d.ts
        layout-gap.d.ts
        flex-fill.d.ts
        style.d.ts
        flex-order.d.ts
        layout-wrap.d.ts
        flex-offset.d.ts
        show-hide.d.ts
        layout.d.ts
        flex-align.d.ts
        layout-align.d.ts
        class.d.ts
        base.d.ts
        index.d.ts
        module.d.ts
        public_api.d.ts
        media-query
        media-monitor.d.ts
        match-media.d.ts
        media-monitor-provider.d.ts
        media-change.d.ts
        observable-media-provider.d.ts
        index.d.ts
        breakpoints
        break-points-token.d.ts
        break-point.d.ts
        data
        orientation-break-points.d.ts
        break-points.d.ts
        break-point-registry.d.ts
        break-points-provider.d.ts
        observable-media.d.ts
        _module.d.ts
        README.md
        package.json
        flex-layout.metadata.json
        bundles
        flex-layout.umd.js
    - stylesheets
      - pink-bluegrey.css
      - reset.css
      - deeppurple-amber.css
      - styles.css
      - purple-green.css
      - indigo-pink.css
  - tslint.json
  - test
    - backend
      - DAGProcessorSpec.scala
      - ConfigParsingSpec.scala
      - UtilSpec.scala
    - assets
      - helpers
        helper.js
      - jasmine.json
  - tsconfig.test.json
  - app
    - views
      - index.scala.html
    - Global.scala
    - models
      - SimpleService.scala
      - AppDB.scala
      - Transformers.scala
      - sources
        FileField.scala
        Database.scala
        HiveTable.scala
        HdfsFile.scala
        DBTable.scala
        VirtualSource.scala
        Source.scala
      - ModelUtils.scala
      - targets
        Target.scala
        Mail.scala
        TargetToChecks.scala
      - config
        ConfigReader.scala
        ConfigWriter.scala
        ParamParser.scala
      - metrics
        ComposedMetricConnection.scala
        ComposedMetric.scala
        FileMetric.scala
        ColumnMetric.scala
        Metric.scala
        MetricParameter.scala
      - meta
        CheckMeta.scala
        MetricMeta.scala
        MetaParamType.scala
      - checks
        SnapshotCheck.scala
        Check.scala
        TrendCheck.scala
        CheckParameter.scala
        SqlCheck.scala
    - controllers
      - utils
        ValidationConstraints.scala
        MyDBSession.scala
        ResultWrappers.scala
      - Application.scala
      - search
        SearchController.scala
      - sources
        TableController.scala
        VirtualSourceController.scala
        DatabaseController.scala
        FileController.scala
        SourceController.scala
      - ControllerUtils.scala
      - targets
        TargetController.scala
        TargetAttachmentsController.scala
      - config
        ConfigController.scala
      - metrics
        ColumnMetricController.scala
        FileMetricController.scala
        ComposedMetricController.scala
        MetricController.scala
      - postprocessors
        PostprocessController.scala
      - meta
        MetaController.scala
      - checks
        SqlCheckController.scala
        SnapshotCheckController.scala
        CheckController.scala
        TrendCheckController.scala
    - assets
      - systemjs-angular-loader.js
      - systemjs.config.js
      - app
        app.component.css
        app.component.html
        dq-date-adapter.ts
        editor.dialog
        editor-dialog.component.html
        editor-dialog.component.css
        editor-dialog.component.ts
        services
        checks.service.ts
        interactions.service.ts
        config.service.ts
        metas.service.ts
        targets.service.ts
        sources.service.ts
        metrics.service.ts
        search.service.ts
        databases.service.ts
        editing
        editing.component.html
        editing.component.css
        editing.component.ts
        metrics-composed.dialog
        metrics-composed-dialog.component.css
        metrics-composed-dialog.component.html
        metrics-composed-dialog.component.ts
        menu
        menu.component.html
        menu.component.ts
        menu.component.css
        sources
        sources.component.css
        sources.component.html
        sources.component.ts
        keyfields-editor
        keyfields-editor.component.css
        keyfields-editor.component.html
        keyfields-editor.component.ts
        models
        page.ts
        sources.ts
        metrics.ts
        checks.ts
        search.ts
        metas.ts
        databases.ts
        targets.ts
        app.module.ts
        common
        url.ts
        components
        dq-dialogs.ts
        dq-dialog-yesno.ts
        error.manager.ts
        pipes.ts
        targets
        targets.component.ts
        targets.component.css
        targets.component.html
        config
        config.component.html
        config.component.ts
        config.component.css
        checks.dialog
        checks-dialog.component.ts
        checks-dialog.component.html
        checks-dialog.component.css
        app.component.ts
        targets.dialog
        targets-dialog.component.html
        targets-dialog.component.ts
        mails
        mails.component.ts
        mails.component.html
        mails.component.css
        main.ts
        databases
        databases.component.html
        databases.component.css
        databases.component.ts
        metrics
        metrics.component.css
        metrics.component.ts
        metrics.component.html
        config.download.dialog
        config-download-dialog.component.css
        config-download-dialog.component.html
        config-download-dialog.component.ts
        checks
        checks.component.css
        checks.component.html
        checks.component.ts
  - tsconfig.json
  - conf
    - application.conf
    - logback.xml
    - evolutions
      - default
        2.sql
        1.sql
        3.sql
    - routes
- LICENSE
- project
  - src
    - main
      - scala
        BuildIntegrationPlugin.scala
        BuildEnvPlugin.scala
  - Dependencies.scala
  - build.properties
  - Version.scala
  - plugins.sbt
  - Multiversion.scala
- dq-be
  - dq_api_results.yaml
  - README.md
  - app
    - utils
      - UtilFrontend.scala
      - MyDBSession.scala
      - ResultWrappers.scala
    - openapitools
      - ErrorHandler.scala
      - OpenApiExceptions.scala
      - Module.scala
    - dbmodel
      - SimpleService.scala
      - Transformers.scala
      - results
        CheckResultsDAO.scala
        MetricResultsColumnarItemDB.scala
        CheckResultsItemDB.scala
        MetricResultsItemDB.scala
        MetricResultsDAO.scala
        CheckResultDAOApi.scala
        MetricResultsFileItemDB.scala
        MetricResultDAOApi.scala
      - sources
        FileField.scala
        Database.scala
        VirtualSourceDB.scala
        HiveTable.scala
        TagItem.scala
        HdfsFile.scala
        DBTable.scala
        SourceItemDAOApi.scala
        MetricItem.scala
        TagCheckItem.scala
        SourceItemDB.scala
        SourceItemDAO.scala
        Source.scala
      - ModelUtils.scala
      - targets
        Target.scala
        Mail.scala
        TargetToChecks.scala
      - config
        ConfigReader.scala
        ConfigWriter.scala
        ParamParser.scala
      - AppDb.scala
      - metrics
        ComposedMetricConnection.scala
        ComposedMetric.scala
        FileMetric.scala
        ColumnMetric.scala
        Metric.scala
        MetricParameter.scala
      - meta
        CheckMeta.scala
        MetricMeta.scala
        MetaParamType.scala
      - checks
        SnapshotCheck.scala
        Check.scala
        TrendCheck.scala
        CheckParameter.scala
        SqlCheck.scala
    - api
      - SourcesApi.scala
      - ApiDocController.scala
      - ChecksApi.scala
      - ConfigController.scala
      - MetricsApiImpl.scala
      - SourcesApiController.scala
      - MetricsApi.scala
      - ChecksApiController.scala
      - SourcesApiImpl.scala
      - ChecksApiImpl.scala
      - MetricsApiController.scala
  - tsconfig.json
  - conf
    - application.conf
    - logback.xml
    - routes
- README.md
- dq-common
  - src
    - main
      - scala
        com
        agilelab
        dataquality
        common
        parsers
        ConfigReader.scala
        instances
        ConfigReaderInstances.scala
        models
        DatabaseCommon.scala
        enumerations
        DBTypes.scala
  - build.sbt
- build.sbt
- dq-api
  - src
    - main
      - scala
        com
        agilelab
        dataquality
        api
        model
        SourceItem.scala
        SourcesResultsResponse.scala
        TagItem.scala
        MetricResultsColumnarItem.scala
        CheckResultsItem.scala
        VirtualSourceItem.scala
        ChecksResultsResponse.scala
        MetricsResultsResponse.scala
        MetricItem.scala
        TagCheckItem.scala
        MetricResultsFileItem.scala
        MetricResultsItem.scala
  - .openapi-generator
    - VERSION
  - README.md
- .gitignore
- docs
  - sql
    - core.sql
  - sources.md
  - examples
    - data
      - character-deaths.csv
      - gpp_sample.csv
      - customer.csv
      - battles.csv
      - usgs
        USGS_2011.csv
        USGS_2001.csv
        USGS_2002.csv
        USGS_2005.csv
        USGS_2015.csv
        USGS_2000.csv
        USGS_2003.csv
        USGS_2010.csv
        USGS_2016.csv
        USGS_2008.csv
        USGS_2006.csv
        USGS_2014.csv
        USGS_2013.csv
        USGS_2009.csv
        USGS_2004.csv
        USGS_2012.csv
        USGS_2007.csv
      - fixedfile
      - contract.csv
    - conf
      - usgs-depth.conf
      - avro-example.conf
      - composed-metric-example.conf
      - hive-example.conf
      - full-example.conf
      - full-prostprocess-example.conf
  - postprocessors.md
  - load_checks.md
  - metrics.md
  - targets.md
  - checks.md
  - installation
    - database-setup.md
    - ui-setup.md
    - core-setup.md

package it.agilelab.bigdata.DataQuality.postprocessors

import com.typesafe.config.Config
import it.agilelab.bigdata.DataQuality.checks.CheckResult
import it.agilelab.bigdata.DataQuality.metrics.MetricResult
import it.agilelab.bigdata.DataQuality.sources.HdfsFile
import it.agilelab.bigdata.DataQuality.targets.HdfsTargetConfig
import it.agilelab.bigdata.DataQuality.utils
import it.agilelab.bigdata.DataQuality.utils.DQSettings
import it.agilelab.bigdata.DataQuality.utils.io.{HdfsReader, HdfsWriter}
import org.apache.hadoop.fs.FileSystem
import org.apache.spark.sql.functions._
import org.apache.spark.sql.{DataFrame, SQLContext}

import scala.collection.JavaConversions._

final class TransposePostprocessor(config: Config, settings: DQSettings)
    extends BasicPostprocessor(config, settings: DQSettings) {
  private val vs = config.getString("source")
  private val keys = config.getStringList("keyColumns")
  private val target: HdfsTargetConfig = {
    val conf = config.getConfig("saveTo")
    utils.parseTargetConfig(conf)(settings).get
  }

  override def process(vsRef: Set[HdfsFile],
                       metRes: Seq[MetricResult],
                       chkRes: Seq[CheckResult])(
      implicit fs: FileSystem,
      sqlContext: SQLContext,
      settings: DQSettings): HdfsFile = {

    import sqlContext.implicits._

    def toLong(df: DataFrame, by: Seq[String]): DataFrame = {
      val (cols, types) = df.dtypes.filter { case (c, _) => !by.contains(c) }.unzip
      require(types.distinct.length == 1)

      val kvs = explode(
        array(
          cols.map(c => struct(lit(c).alias(settings.backComp.trKeyName), col(c).alias(settings.backComp.trValueName))): _*
        ))

      val byExprs = by.map(col)

      df.select(byExprs :+ kvs.alias("_kvs"): _*)
        .select(byExprs ++ Seq($"_kvs.${settings.backComp.trKeyName}", $"_kvs.${settings.backComp.trValueName}"): _*)
    }

    val reqVS: HdfsFile = vsRef.filter(vr => vr.id == vs).head
    val df: DataFrame = HdfsReader.load(reqVS, settings.ref_date).head

    val transposed: DataFrame = toLong(df, keys)

    HdfsWriter.saveVirtualSource(transposed, target, settings.refDateString)(
      fs,
      sqlContext.sparkContext)

    new HdfsFile(target)
  }

}