scala source code of FeatureCounts

bdg-sequila-master
- build_perf_report.sh
- src
  - main
    - avro
      - input
        Alignment.avsc
        BED.avsc
        Interval.avsc
        SequencedFragment.avsc
    - resources
      - log4j.properties
      - hive-site.xml
      - core-site.xml
    - scala
      - htsjdk
        samtools
        SAMRecordHelper.java
      - .gitkeep
      - org
        biodatageeks
        sequila
        pileup
        MDTagParser.scala
        Pileup.scala
        timers
        PileupTimers.scala
        PileupMethods.scala
        converters
        PileupConverter.scala
        DelTransfer.scala
        model
        package.scala
        BlockProperties.scala
        AlignmentsRDD.scala
        PileupBroadcast.scala
        Reference.scala
        Read.scala
        PileupRecord.scala
        ContigAggregateRDD.scala
        ContigAggregate.scala
        serializers
        PileupProjection.scala
        LongMapSerializer.scala
        CustomKryoRegistrator.scala
        PileupStrategy.scala
        outputformats
        BAMOutputFormat.scala
        utils
        UDFRegister.scala
        Columns.scala
        Interval.scala
        SequilaRegister.scala
        InternalParams.scala
        FastSerializer.scala
        TableFuncs.scala
        FastMath.scala
        DataQualityFuncs.scala
        schema
        CSVToJsonTags.scala
        ScalaFuncs.scala
        datasources
        FASTQ
        FASTQDataSource.scala
        SequenceFragmentRelation.scala
        InputDataType.scala
        BED
        BEDRelation.scala
        BEDDataSource.scala
        BAM
        CRAMDataSource.scala
        AlignmentRelation.scala
        SequilaDataSourceStrategy.scala
        BAMDataSource.scala
        ADAM
        ADAMRelation.scala
        ADAMDataSource.scala
        VCF
        VCFDataSource.scala
        VCFRelation.scala
        rangejoins
        common
        ExtractRangeJoinKeysWithEquality.scala
        Main.scala
        ExtractRangeJoinKeys.scala
        metrics
        MetricsCollector.scala
        performance
        timers
        IntervalTreeTimer.scala
        NCListTimer.scala
        optimizer
        RangeJoinMethod.scala
        JoinOptimizerChromosome.scala
        JoinOptimizer.scala
        methods
        NCList
        NCListWalkingStack.scala
        NCListsJoin.scala
        NCListTree.scala
        NCList.scala
        Interval.scala
        NCListsJoinImpl.scala
        NCListsJoinChromosome.scala
        NCListTreeChromosome.scala
        Backpack.scala
        NCListBuilder.scala
        NCListBuildingStack.scala
        NCListsJoinChromosomeImpl.scala
        NCListsJoinStrategy.scala
        transformations
        RangeMethods.scala
        genApp
        Interval.scala
        IntervalTreeJoinImpl.scala
        IntervalTreeJoinChromosome.scala
        IntervalTreeChromosome.scala
        IntervalTreeJoinChromosomeImpl.scala
        IntervalTreeJoinStrategy.scala
        IntervalTreeJoin.scala
        IntervalTree.scala
        IntervalTree
        IntervalTreeJoinOptimChromosome.scala
        Interval.scala
        IntervalTreeJoinOptimImpl.scala
        IntervalTreeJoinOptim.scala
        IntervalTreeHTS.java
        IntervalTreeJoinOptimChromosomeImpl.scala
        IntervalTreeJoinStrategyOptim.scala
        IntervalTreeHTSChromosome.scala
        utvf
        GenomicInterval.scala
        SeQuiLaAnalyzer.scala
        SequilaSession.scala
        GenomicIntervalStrategy.scala
        ResolveTableValuedFunctionsSeq.scala
        apps
        PileupApp.scala
        DepthOfCoverage.scala
        CovRun.scala
        FeatureCounts.scala
        inputformats
        BAMBDGSplitGuesser.java
        BDGAlignInputFormat.scala
        BAMBDGInputFormat.java
        BAMBDGRecordReader.java
        BAMBDGRecord.java
        CRAMBDGInputFormat.java
        hive
        ThriftServerSessionPageSeq.scala
        SequilaThriftServer.scala
        ThriftServerPageSeq.scala
        SparkSQLCLIService.scala
        ThriftServerTabSeq.scala
        SparkExecuteStatementOperation.scala
        SparkSQLSessionManager.scala
        HiveThriftServer2.scala
        server
        SparkSQLOperationsMenager.scala
        coverage
        CoverageUpdate.scala
        CoverageStrategy.scala
        CoverageMethods.scala
        R
        SequilaR.java
    - java
      - .gitkeep
  - test
    - avro
      - Test_region.avsc
      - Test_gene.avsc
    - resources
      - refFlat.adam
        _metadata
        _seqdict.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - log4j.properties
      - vcf
        test.vcf
      - ias
        .gitkeep
      - NA12878.slice.fasta.fai
      - project
        build.properties
      - .gitkeep
      - ctas
        .gitkeep
      - multichrom
        mdbam
        NA12878.multichrom.md.bam.bai
        NA12878.multichrom.bed
        NA12878.multichrom.fasta
        bam
        NA12878.multichrom.bam.bai
        mdcram
        NA12878.multichrom.md.cram.crai
        cram
        NA12878.multichrom.cram.crai
        NA12878.multichrom.fasta.fai
      - snp150Flagged.adam
        _metadata
        _seqdict.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - NA12878.slice.bam.bai
      - NA12878.slice.adam
        ._rgdict.avro.crc
        ._processing.avro.crc
        _metadata
        _seqdict.avro
        _processing.avro
        .part-r-00000.gz.parquet.crc
        ._metadata.crc
        ._seqdict.avro.crc
        _rgdict.avro
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
      - fastq
        NA12988.fastq
      - NA12878.slice.dict
      - NA12878.slice.fasta
      - reference
        Homo_sapiens_assembly18_chr1_chrM.small.fasta
        Homo_sapiens_assembly18_chr1_chrM.small.fasta.fai
      - bed
        simple.bed
        test.bed
      - NA12878.slice.bed
      - cram
        test.cram
        test.fa
        test.fa.fai
    - scala
      - .gitkeep
      - org
        biodatageeks
        sequila
        tests
        pileup
        CovArrayTestSuite.scala
        processing
        SamtoolsPileupProcessor.scala
        MapProjectionTestSuite.scala
        BlockProperties.scala
        PileupTestBase.scala
        PileupProjectionTestSuite.scala
        Writer.scala
        PileupCRAMTestSuite.scala
        SamtoolsTestSuite.scala
        PileupTestSuite.scala
        dataquality
        ContigNormalizationTest.scala
        optimizations
        SequilaDatasourceStrategyTestSuite.scala
        base
        FASTQBaseTestSuite.scala
        BAMBaseTestSuite.scala
        BEDBaseTestSuite.scala
        datasources
        BAMReaderTestSuite.scala
        VCFDataSourceTestSuite.scala
        BAMADAMDataSourceTestSuite.scala
        ADAMBenchmarkTestSuite.scala
        BEDReaderTestSuite.scala
        FASTQReaderTestSuite.scala
        rangejoins
        TSVBenchmarkTestSuite.scala
        MultisampleBAMTestSuite.scala
        GRangesTestSuite.scala
        GenomicIntervalTVFTestSuite.scala
        JoinOrderTestSuite.scala
        FeatureCountsTestSuite.scala
        NCListsTestSuite.scala
        IntervalTreeGenAppTestSuite.scala
        IntervalTreeTestSuite.scala
        SubsetColumnJoinTestSuite.scala
        coverage
        CoverageTestSuite.scala
        LongReadsTestSuite.scala
    - java
      - .gitkeep
- releasing
  - release.sh
- examples
  - bdg-sequila.ipynb
- LICENSE
- publish-gkl.sh
- project
  - build.properties
  - assembly.sbt
  - plugins.sbt
- lib
  - gkl-0.8.5-1-darwin-SNAPSHOT.pom
  - gkl-0.8.5-1-linux-SNAPSHOT.pom
  - gkl-0.8.5-1-darwin-SNAPSHOT.jar
- python
  - sequila
    - sequila.py
    - __init__.py
  - environment.yml
  - README.rst
  - setup.py
- data
  - prepare_data.sh
  - serve_test_data.sh
- Docker
  - bdg-sequila-shiny
    - warmcache.scala
    - Dockerfile
  - bdg-sequila
    - entrypoint.sh
    - version
    - warmcache.scala
    - unittest.scala
    - ivy.xml
    - bin
      - bdg-shell.sh
      - run_perf_test.sh
      - bdginit.scala
      - bdg-stop-thriftserver.sh
      - depthOfCoverage.sh
      - bdg-start-thriftserver.sh
      - run_scenario.sh
      - bdg-sequilaR.sh
      - featureCounts.sh
    - Dockerfile
  - bdg-sequila-lite
    - sequilathriftinit.scala
    - entrypoint.sh
    - version
    - warmcache.scala
    - unittest.scala
    - ivy.xml
    - bin
      - bdg-shell.sh
      - run_perf_test.sh
      - bdginit.scala
      - bdg-stop-thriftserver.sh
      - bdg-start-thriftserver.sh
      - run_scenario.sh
      - bdg-sequilaR.sh
      - featureCounts.sh
    - Dockerfile
- README.md
- build_docs.sh
- build.sbt
- schemas
  - BAM
    - tags.txt
- .gitignore
- Jenkinsfile
- docs
  - docs.sh
  - Makefile
  - source
    - integrations
      - integrations.rst
    - development
      - superset
        superset.rst
      - development.rst
    - usage
      - usage.rst
    - function
      - function.rst
    - fileformats
      - fileformats.rst
    - citation
      - citation.rst
      - ref.bib
    - benchmarking
      - benchmarking.rst
    - architecture
      - architecture.rst
    - quickstart
      - quickstart.rst
    - usecases
      - usecases.rst
    - overview
      - overview.rst
    - index.rst
    - conf.py
    - modules
      - pileup
        pileup.rst
      - reads
        reads.rst
      - qc
        qc.rst
      - joins
        joins.rst
      - modules.rst
      - coverage
        coverage.rst
    - _templates
      - sequila_sidebar.html
  - sphinx_packages.sh
  - Dockerfile
- build.sh
- analytics_platform
  - sequila
    - stop.sh
    - cleanup.sh
    - start.sh
    - docker-compose.yml
  - running_in_containers.txt
- performance
  - test_min_overlap_cluster.scala
  - read_coverage.sql
  - featureCounts.scala
  - scriptFile.scala
  - bdg_perf
    - bdg_perf_sequila.scala
    - bdg-perf-sequila.Rmd
    - Dockerfile
  - test_overlap_local.scala
  - test_overlap_cluster.scala
  - PosRecord.java

package org.biodatageeks.sequila.apps

import htsjdk.samtools.ValidationStringency
import org.apache.hadoop.io.LongWritable
import org.apache.spark.sql.SparkSession
import org.biodatageeks.sequila.rangejoins.IntervalTree.IntervalTreeJoinStrategyOptim
import org.biodatageeks.sequila.utils.Columns
import org.rogach.scallop.ScallopConf
import org.seqdoop.hadoop_bam.{BAMInputFormat, SAMRecordWritable}
import org.seqdoop.hadoop_bam.util.SAMHeaderReader

object FeatureCounts {
  case class Region(contig:String, pos_start:Int, pos_end:Int)
  class RunConf(args:Array[String]) extends ScallopConf(args){

    val output = opt[String](required = true)
    val annotations = opt[String](required = true)
    val readsFile = trailArg[String](required = true)
    val Format = trailArg[String](required = false)
    verify()
  }

  def main(args: Array[String]): Unit = {
    val runConf = new RunConf(args)
    val spark = SparkSession
      .builder()
      .appName("SeQuiLa-FC")
      .getOrCreate()

    spark.sqlContext.setConf("spark.biodatageeks.rangejoin.useJoinOrder","true")
    //spark.sqlContext.setConf("spark.biodatageeks.rangejoin.maxBroadcastSize", (1024).toString)
    spark.experimental.extraStrategies = new IntervalTreeJoinStrategyOptim(spark) :: Nil



    val query ="""SELECT targets.GeneId AS GeneId,
                     targets.Chr AS Chr,
                     targets.Start AS Start,
                     targets.End AS End,
                     targets.Strand AS Strand,
                     CAST(targets.End AS INTEGER)-CAST(targets.Start AS INTEGER) + 1 AS Length,
                     count(*) AS Counts
            FROM reads JOIN targets
      |ON (
      |  targets.Chr=reads.contigName
      |  AND
      |  reads.end >= CAST(targets.Start AS INTEGER)
      |  AND
      |  reads.start <= CAST(targets.End AS INTEGER)
      |)
      |GROUP BY targets.GeneId,targets.Chr,targets.Start,targets.End,targets.Strand""".stripMargin
      spark
        .sparkContext
        .setLogLevel("ERROR")

      spark
        .sparkContext
        .hadoopConfiguration.set(SAMHeaderReader.VALIDATION_STRINGENCY_PROPERTY, ValidationStringency.SILENT.toString)

      val alignments = spark
        .sparkContext.newAPIHadoopFile[LongWritable, SAMRecordWritable, BAMInputFormat](runConf.readsFile())
        .map(_._2.get)
        .map(r => Region(r.getContig, r.getStart, r.getEnd))

      val readsTable = spark.sqlContext.createDataFrame(alignments)
      readsTable.createOrReplaceTempView("reads")

      val targets = spark
        .read
        .option("header", "true")
        .option("delimiter", "\t")
        .csv(runConf.annotations())
      targets
        .withColumnRenamed("contigName", Columns.CONTIG)
        .createOrReplaceTempView("targets")

     spark.sql(query)
       .orderBy("GeneId")
        .coalesce(1)
        .write
        .option("header", "true")
        .option("delimiter", "\t")
        .csv(runConf.output())
  }

}