scala source code of VCFRelation

bdg-sequila-master
- build_perf_report.sh
- src
  - main
    - avro
      - input
        Alignment.avsc
        BED.avsc
        Interval.avsc
        SequencedFragment.avsc
    - resources
      - log4j.properties
      - hive-site.xml
      - core-site.xml
    - scala
      - htsjdk
        samtools
        SAMRecordHelper.java
      - .gitkeep
      - org
        biodatageeks
        sequila
        pileup
        MDTagParser.scala
        Pileup.scala
        timers
        PileupTimers.scala
        PileupMethods.scala
        converters
        PileupConverter.scala
        DelTransfer.scala
        model
        package.scala
        BlockProperties.scala
        AlignmentsRDD.scala
        PileupBroadcast.scala
        Reference.scala
        Read.scala
        PileupRecord.scala
        ContigAggregateRDD.scala
        ContigAggregate.scala
        serializers
        PileupProjection.scala
        LongMapSerializer.scala
        CustomKryoRegistrator.scala
        PileupStrategy.scala
        outputformats
        BAMOutputFormat.scala
        utils
        UDFRegister.scala
        Columns.scala
        Interval.scala
        SequilaRegister.scala
        InternalParams.scala
        FastSerializer.scala
        TableFuncs.scala
        FastMath.scala
        DataQualityFuncs.scala
        schema
        CSVToJsonTags.scala
        ScalaFuncs.scala
        datasources
        FASTQ
        FASTQDataSource.scala
        SequenceFragmentRelation.scala
        InputDataType.scala
        BED
        BEDRelation.scala
        BEDDataSource.scala
        BAM
        CRAMDataSource.scala
        AlignmentRelation.scala
        SequilaDataSourceStrategy.scala
        BAMDataSource.scala
        ADAM
        ADAMRelation.scala
        ADAMDataSource.scala
        VCF
        VCFDataSource.scala
        VCFRelation.scala
        rangejoins
        common
        ExtractRangeJoinKeysWithEquality.scala
        Main.scala
        ExtractRangeJoinKeys.scala
        metrics
        MetricsCollector.scala
        performance
        timers
        IntervalTreeTimer.scala
        NCListTimer.scala
        optimizer
        RangeJoinMethod.scala
        JoinOptimizerChromosome.scala
        JoinOptimizer.scala
        methods
        NCList
        NCListWalkingStack.scala
        NCListsJoin.scala
        NCListTree.scala
        NCList.scala
        Interval.scala
        NCListsJoinImpl.scala
        NCListsJoinChromosome.scala
        NCListTreeChromosome.scala
        Backpack.scala
        NCListBuilder.scala
        NCListBuildingStack.scala
        NCListsJoinChromosomeImpl.scala
        NCListsJoinStrategy.scala
        transformations
        RangeMethods.scala
        genApp
        Interval.scala
        IntervalTreeJoinImpl.scala
        IntervalTreeJoinChromosome.scala
        IntervalTreeChromosome.scala
        IntervalTreeJoinChromosomeImpl.scala
        IntervalTreeJoinStrategy.scala
        IntervalTreeJoin.scala
        IntervalTree.scala
        IntervalTree
        IntervalTreeJoinOptimChromosome.scala
        Interval.scala
        IntervalTreeJoinOptimImpl.scala
        IntervalTreeJoinOptim.scala
        IntervalTreeHTS.java
        IntervalTreeJoinOptimChromosomeImpl.scala
        IntervalTreeJoinStrategyOptim.scala
        IntervalTreeHTSChromosome.scala
        utvf
        GenomicInterval.scala
        SeQuiLaAnalyzer.scala
        SequilaSession.scala
        GenomicIntervalStrategy.scala
        ResolveTableValuedFunctionsSeq.scala
        apps
        PileupApp.scala
        DepthOfCoverage.scala
        CovRun.scala
        FeatureCounts.scala
        inputformats
        BAMBDGSplitGuesser.java
        BDGAlignInputFormat.scala
        BAMBDGInputFormat.java
        BAMBDGRecordReader.java
        BAMBDGRecord.java
        CRAMBDGInputFormat.java
        hive
        ThriftServerSessionPageSeq.scala
        SequilaThriftServer.scala
        ThriftServerPageSeq.scala
        SparkSQLCLIService.scala
        ThriftServerTabSeq.scala
        SparkExecuteStatementOperation.scala
        SparkSQLSessionManager.scala
        HiveThriftServer2.scala
        server
        SparkSQLOperationsMenager.scala
        coverage
        CoverageUpdate.scala
        CoverageStrategy.scala
        CoverageMethods.scala
        R
        SequilaR.java
    - java
      - .gitkeep
  - test
    - avro
      - Test_region.avsc
      - Test_gene.avsc
    - resources
      - refFlat.adam
        _metadata
        _seqdict.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - log4j.properties
      - vcf
        test.vcf
      - ias
        .gitkeep
      - NA12878.slice.fasta.fai
      - project
        build.properties
      - .gitkeep
      - ctas
        .gitkeep
      - multichrom
        mdbam
        NA12878.multichrom.md.bam.bai
        NA12878.multichrom.bed
        NA12878.multichrom.fasta
        bam
        NA12878.multichrom.bam.bai
        mdcram
        NA12878.multichrom.md.cram.crai
        cram
        NA12878.multichrom.cram.crai
        NA12878.multichrom.fasta.fai
      - snp150Flagged.adam
        _metadata
        _seqdict.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - NA12878.slice.bam.bai
      - NA12878.slice.adam
        ._rgdict.avro.crc
        ._processing.avro.crc
        _metadata
        _seqdict.avro
        _processing.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _rgdict.avro
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - fastq
        NA12988.fastq
      - NA12878.slice.dict
      - NA12878.slice.fasta
      - reference
        Homo_sapiens_assembly18_chr1_chrM.small.fasta
        Homo_sapiens_assembly18_chr1_chrM.small.fasta.fai
      - bed
        simple.bed
        test.bed
      - NA12878.slice.bed
      - cram
        test.cram
        test.fa
        test.fa.fai
    - scala
      - .gitkeep
      - org
        biodatageeks
        sequila
        tests
        pileup
        CovArrayTestSuite.scala
        processing
        SamtoolsPileupProcessor.scala
        MapProjectionTestSuite.scala
        BlockProperties.scala
        PileupTestBase.scala
        PileupProjectionTestSuite.scala
        Writer.scala
        PileupCRAMTestSuite.scala
        SamtoolsTestSuite.scala
        PileupTestSuite.scala
        dataquality
        ContigNormalizationTest.scala
        optimizations
        SequilaDatasourceStrategyTestSuite.scala
        base
        FASTQBaseTestSuite.scala
        BAMBaseTestSuite.scala
        BEDBaseTestSuite.scala
        datasources
        BAMReaderTestSuite.scala
        VCFDataSourceTestSuite.scala
        BAMADAMDataSourceTestSuite.scala
        ADAMBenchmarkTestSuite.scala
        BEDReaderTestSuite.scala
        FASTQReaderTestSuite.scala
        rangejoins
        TSVBenchmarkTestSuite.scala
        MultisampleBAMTestSuite.scala
        GRangesTestSuite.scala
        GenomicIntervalTVFTestSuite.scala
        JoinOrderTestSuite.scala
        FeatureCountsTestSuite.scala
        NCListsTestSuite.scala
        IntervalTreeGenAppTestSuite.scala
        IntervalTreeTestSuite.scala
        SubsetColumnJoinTestSuite.scala
        coverage
        CoverageTestSuite.scala
        LongReadsTestSuite.scala
    - java
      - .gitkeep
- releasing
  - release.sh
- examples
  - bdg-sequila.ipynb
- LICENSE
- publish-gkl.sh
- project
  - build.properties
  - assembly.sbt
  - plugins.sbt
- lib
  - gkl-0.8.5-1-darwin-SNAPSHOT.pom
  - gkl-0.8.5-1-linux-SNAPSHOT.pom
  - gkl-0.8.5-1-darwin-SNAPSHOT.jar
- python
  - sequila
    - sequila.py
    - __init__.py
  - environment.yml
  - README.rst
  - setup.py
- data
  - prepare_data.sh
  - serve_test_data.sh
- Docker
  - bdg-sequila-shiny
    - warmcache.scala
    - Dockerfile
  - bdg-sequila
    - entrypoint.sh
    - version
    - warmcache.scala
    - unittest.scala
    - ivy.xml
    - bin
      - bdg-shell.sh
      - run_perf_test.sh
      - bdginit.scala
      - bdg-stop-thriftserver.sh
      - depthOfCoverage.sh
      - bdg-start-thriftserver.sh
      - run_scenario.sh
      - bdg-sequilaR.sh
      - featureCounts.sh
    - Dockerfile
  - bdg-sequila-lite
    - sequilathriftinit.scala
    - entrypoint.sh
    - version
    - warmcache.scala
    - unittest.scala
    - ivy.xml
    - bin
      - bdg-shell.sh
      - run_perf_test.sh
      - bdginit.scala
      - bdg-stop-thriftserver.sh
      - bdg-start-thriftserver.sh
      - run_scenario.sh
      - bdg-sequilaR.sh
      - featureCounts.sh
    - Dockerfile
- README.md
- build_docs.sh
- build.sbt
- schemas
  - BAM
    - tags.txt
- .gitignore
- Jenkinsfile
- docs
  - docs.sh
  - Makefile
  - source
    - integrations
      - integrations.rst
    - development
      - superset
        superset.rst
      - development.rst
    - usage
      - usage.rst
    - function
      - function.rst
    - fileformats
      - fileformats.rst
    - citation
      - citation.rst
      - ref.bib
    - benchmarking
      - benchmarking.rst
    - architecture
      - architecture.rst
    - quickstart
      - quickstart.rst
    - usecases
      - usecases.rst
    - overview
      - overview.rst
    - index.rst
    - conf.py
    - modules
      - pileup
        pileup.rst
      - reads
        reads.rst
      - qc
        qc.rst
      - joins
        joins.rst
      - modules.rst
      - coverage
        coverage.rst
    - _templates
      - sequila_sidebar.html
  - sphinx_packages.sh
  - Dockerfile
- build.sh
- analytics_platform
  - sequila
    - stop.sh
    - cleanup.sh
    - start.sh
    - docker-compose.yml
  - running_in_containers.txt
- performance
  - test_min_overlap_cluster.scala
  - read_coverage.sql
  - featureCounts.scala
  - scriptFile.scala
  - bdg_perf
    - bdg_perf_sequila.scala
    - bdg-perf-sequila.Rmd
    - Dockerfile
  - test_overlap_local.scala
  - test_overlap_cluster.scala
  - PosRecord.java

package org.biodatageeks.sequila.datasources.VCF

import io.projectglow.Glow
import org.apache.spark.internal.Logging
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession}
import org.apache.spark.sql.sources._
import org.biodatageeks.sequila.utils.{Columns, DataQualityFuncs}
import org.apache.spark.sql.functions._




class VCFRelation(path: String,
                  normalization_mode: Option[String] = None,
                  ref_genome_path : Option[String] = None )(@transient val sqlContext: SQLContext) extends BaseRelation
  with PrunedScan
  with Serializable
  with Logging {

  val spark: SparkSession = sqlContext.sparkSession

  val cleanContigUDF = udf[String, String](DataQualityFuncs.cleanContig)

  lazy val inputDf: DataFrame = spark
    .read
    .format("vcf")
    .option("splitToBiallelic", "true")
    .load(path)
  lazy val dfNormalized = {
    normalization_mode match {
    case Some(m) => {
      if (m.equalsIgnoreCase("normalize") || m.equalsIgnoreCase("split_and_normalize")
        && ref_genome_path == None) throw new Exception(s"Variant normalization mode specified but ref_genome_path is empty ")
      Glow.transform(m.toLowerCase(), inputDf, Map("reference_genome_path" -> ref_genome_path.get))
    }
    case _ => inputDf
    }
  }.withColumnRenamed("contigName", Columns.CONTIG)
    .withColumnRenamed("start", Columns.START)
    .withColumnRenamed("end", Columns.END)
    .withColumnRenamed("referenceAllele", Columns.REF)
    .withColumnRenamed("alternateAlleles", Columns.ALT)

  lazy val df = dfNormalized
    .withColumn(Columns.CONTIG, cleanContigUDF(dfNormalized(Columns.CONTIG)))

  override def schema: org.apache.spark.sql.types.StructType = {
   df.schema
  }

  override def buildScan(requiredColumns: Array[String] ): RDD[Row] = {

    {
      if (requiredColumns.length > 0)
        df.select(requiredColumns.head, requiredColumns.tail: _*)
      else
        df
    }.rdd


  }

}