java source code of HaplotypeCallerSpark

Project: gatk-protected (GitHub Link)

gatk-protected-master
- src
  - main
    - resources
      - org
        broadinstitute
        hellbender
        utils
        helpTemplates
        common.html
        generic.index.template.html
        generic.template.html
        segmenter
        CBS.R
        tools
        exome
        plotting
        ACNVResultsPlotting.R
        CNVPlottingLibrary.R
        CopyRatioPlotting.R
        coveragemodel
        mu_table.tsv
        log_norm_table.tsv
        psi_table.tsv
    - java
      - org
        broadinstitute
        hellbender
        utils
        MatrixSummaryUtils.java
        Nucleotide.java
        MathObjectAsserts.java
        IntegrationUtils.java
        GATKProtectedMathUtils.java
        SparkToggleCommandLineProgram.java
        mcmc
        Decile.java
        PosteriorSummaryUtils.java
        PosteriorSummary.java
        ParameterizedModel.java
        ParameterizedState.java
        DecileCollection.java
        Parameter.java
        ParameterTableColumn.java
        ParameterEnum.java
        SliceSampler.java
        DataCollection.java
        ParameterSampler.java
        ParameterWriter.java
        AdaptiveMetropolisSampler.java
        ParameterReader.java
        GibbsSampler.java
        segmenter
        RCBSSegmenter.java
        spark
        UnmodifiableCollectionsRegistrator.java
        SparkConverter.java
        codecs
        LineIteratorReader.java
        TargetCodec.java
        hmm
        ViterbiAlgorithm.java
        ForwardBackwardAlgorithm.java
        segmentation
        HiddenStateSegmentRecordWriter.java
        HMMPostProcessor.java
        HiddenStateSegment.java
        HiddenStateSegmentRecord.java
        HMMSegmentProcessor.java
        HiddenStateSegmentRecordReader.java
        HMM.java
        interfaces
        CallStringProducer.java
        AlleleMetadataProducer.java
        ScalarProducer.java
        param
        ParamUtils.java
        GATKProtectedVariantContextUtils.java
        OptimizationUtils.java
        svd
        SVDFactory.java
        cmdline
        ExomeStandardArgumentDefinitions.java
        engine
        AbstractConcordanceWalker.java
        TargetWalker.java
        tools
        copynumber
        CollectAllelicCounts.java
        allelic
        alleliccount
        AllelicCount.java
        AllelicCountCollector.java
        AllelicCountReader.java
        AllelicCountTableColumn.java
        AllelicCountCollection.java
        AllelicCountWriter.java
        exome
        AllelicCNV.java
        ReCapSegCaller.java
        SegmentMergeUtils.java
        ReadCountRecord.java
        SegmentUtils.java
        TargetAnnotationCollection.java
        ReadCountCollection.java
        TargetArgumentCollection.java
        TargetAnnotation.java
        GetBayesianHetCoverage.java
        ReadCountCollectionUtils.java
        germlinehmm
        xhmm
        XHMMSegmentCallerBase.java
        XHMMModel.java
        XHMMArgumentCollection.java
        XHMMEmissionProbabilityCalculator.java
        XHMMSegmentCaller.java
        XHMMEmissionData.java
        XHMMSegmentGenotyper.java
        SexGenotypeContigPairKey.java
        CopyNumberTriStateHMM.java
        IntegerCopyNumberTransitionProbabilityCacheCollection.java
        CopyNumberTriState.java
        CopyNumberTriStateAllele.java
        IntegerCopyNumberTransitionMatrixCollection.java
        IntegerCopyNumberTransitionMatrix.java
        CopyNumberTriStateTransitionProbabilityCache.java
        IntegerCopyNumberState.java
        IntegerCopyNumberTransitionProbabilityCache.java
        IntegerCopyNumberHMM.java
        ACNVModeller.java
        ACNVModeledSegment.java
        CalculatePulldownPhasePosteriors.java
        Genome.java
        convertbed
        ConvertBedToTargetFile.java
        copyratio
        CopyRatioSamplers.java
        CopyRatioData.java
        CopyRatioModeller.java
        CopyRatioState.java
        CopyRatioParameter.java
        segmentation
        CopyRatioHMM.java
        PerformCopyRatioSegmentation.java
        ClusteringGenomicHMMSegmenter.java
        JointAFCRHMM.java
        ClusteringGenomicHMM.java
        PerformAlleleFractionSegmentation.java
        CopyRatioSegmenter.java
        JointSegmentationDatum.java
        PerformJointSegmentation.java
        AFCRHiddenState.java
        AlleleFractionSegmenter.java
        ScalarHMMSegmenter.java
        JointAFCRSegmenter.java
        AlleleFractionHMM.java
        CreateAllelicPanelOfNormals.java
        gcbias
        GCCorrector.java
        CorrectGCBias.java
        CalculateTargetCoverage.java
        SNPSegmenter.java
        conversion
        titanconversion
        TitanCopyRatioEstimateWriter.java
        TitanFileConverter.java
        TitanAllelicCountWriter.java
        TitanCopyRatioEstimateColumns.java
        TitanAllelicCountTableColumn.java
        acnvconversion
        ACNVModeledSegmentConversionUtils.java
        acsconversion
        ACSTableColumn.java
        ACSModeledSegmentUtils.java
        ACSModeledSegment.java
        allelicbalancecaller
        CNLOHCaller.java
        AllelicBalanceCall.java
        CNLoHCall.java
        AllelicCalls.java
        AllelicBalanceCallerModelState.java
        orientationbiasvariantfilter
        OrientationBiasFilterer.java
        OrientationBiasFilterConstants.java
        ArtifactStatisticsScorer.java
        PreAdapterOrientationScorer.java
        OrientationBiasFilterSummaryTableColumn.java
        OrientationBiasUtils.java
        OrientationSampleTransitionSummary.java
        samplenamefinder
        SampleNameFinder.java
        eval
        VariantEvaluationContextBuilder.java
        EvaluationSampleSummaryRecord.java
        EvaluationFilter.java
        EvaluationSampleSummaryWriter.java
        GenotypeEvaluationRecordWriter.java
        ConvertGSVariantsToSegments.java
        GenotypeEvaluationRecord.java
        EvaluationFiltersArgumentCollection.java
        EvaluateCopyNumberTriStateCalls.java
        VariantEvaluationContext.java
        EvaluationSampleSummaryReader.java
        EvaluationClass.java
        TargetWriter.java
        CombineReadCounts.java
        Target.java
        ReadCountsReader.java
        AnnotateTargets.java
        allelefraction
        AlleleFractionData.java
        AlleleFractionInitializer.java
        MinorAlleleFractionCache.java
        AlleleFractionIndicator.java
        AlleleFractionModeller.java
        AlleleFractionState.java
        AlleleFractionGlobalParameters.java
        AlleleFractionParameter.java
        AlleleFractionSamplers.java
        AlleleFractionLikelihoods.java
        sexgenotyper
        SexGenotypeTableColumn.java
        SexGenotypeTableWriter.java
        ContigGermlinePloidyAnnotationTableReader.java
        TargetCoverageSexGenotyper.java
        ContigGermlinePloidyAnnotationTableColumn.java
        SexGenotypeData.java
        TargetCoverageSexGenotypeCalculator.java
        GermlinePloidyAnnotatedTargetCollection.java
        ContigGermlinePloidyAnnotation.java
        SexGenotypeTableReader.java
        SexGenotypeDataCollection.java
        ContigClass.java
        GetHetCoverage.java
        ConvertACNVResults.java
        TargetTableColumn.java
        Segment.java
        TargetTableAnnotationManager.java
        DecomposeSingularValues.java
        TargetPadder.java
        alleliccount
        AllelicCount.java
        AllelicCountReader.java
        AllelicCountTableColumn.java
        AllelicCountWithPhasePosteriors.java
        AllelicCountWithPhasePosteriorsWriter.java
        AllelicCountCollection.java
        AllelicCountWithPhasePosteriorsCollection.java
        AllelicCountWithPhasePosteriorsReader.java
        AllelicCountWriter.java
        PhasePosteriorsTableColumn.java
        TargetTableReader.java
        PerformSegmentation.java
        SegmentTableColumn.java
        FilterByOrientationBias.java
        pulldown
        BalancedHeterozygousPileupPriorModel.java
        HeterogeneousHeterozygousPileupPriorModel.java
        HeterozygousPileupPriorModel.java
        Pulldown.java
        BayesianHetPulldownCalculator.java
        HetPulldownCalculator.java
        CallSegments.java
        NormalizeSomaticReadCounts.java
        ModeledSegment.java
        CreatePanelOfNormals.java
        plotting
        PlotACNVResults.java
        PlotSegmentedCopyRatio.java
        detectcoveragedropout
        CoverageDropoutDetector.java
        CoverageDropoutResult.java
        DetectCoverageDropout.java
        SegmentedGenome.java
        PadTargets.java
        pon
        coverage
        CoveragePoNQCUtils.java
        CoveragePoNNormalizationResult.java
        CoveragePanelOfNormals.java
        pca
        PCATangentNormalizationUtils.java
        ReductionResult.java
        HDF5PCACoveragePoN.java
        PCACoveragePoN.java
        PCATangentNormalizationResult.java
        RamPCACoveragePoN.java
        HDF5PCACoveragePoNCreationUtils.java
        CaseToPoNTargetMapper.java
        allelic
        AllelicPanelOfNormalsTableColumn.java
        AllelicPanelOfNormals.java
        AllelicPanelOfNormalsReader.java
        AllelicPanelOfNormalsWriter.java
        HDF5AllelicPoNUtils.java
        AllelicPanelOfNormalsCreator.java
        walkers
        contamination
        ContaminationRecord.java
        PileupSummary.java
        GetPileupSummaries.java
        CalculateContamination.java
        mutect
        PerAlleleCollection.java
        SubsettedLikelihoodMatrix.java
        GermlineProbabilityCalculator.java
        SomaticLikelihoodsEngine.java
        Mutect2.java
        Mutect2Engine.java
        M2FiltersArgumentCollection.java
        SomaticGenotypingEngine.java
        FilterMutectCalls.java
        M2ArgumentCollection.java
        Mutect2FilteringEngine.java
        CreateSomaticPanelOfNormals.java
        ReferenceConfidenceVariantContextMerger.java
        haplotypecaller
        PairHMMNativeArgumentCollection.java
        graphs
        AggregatedSubHaplotypeFinder.java
        SharedSequenceMerger.java
        MultiSampleEdge.java
        LowWeightChainPruner.java
        SeqGraph.java
        SplitCommonSuffices.java
        GraphUtils.java
        MergeTails.java
        BaseGraph.java
        BaseEdge.java
        KBestSubHaplotypeFinder.java
        VertexBasedTransformer.java
        MergeDiamonds.java
        CommonSuffixSplitter.java
        EmptyPathHaplotypeFinderNode.java
        KBestHaplotype.java
        MergeCommonSuffices.java
        DeadEndKBestSubHaplotypeFinder.java
        SharedVertexSequenceSplitter.java
        KBestHaplotypeFinder.java
        RecursiveSubHaplotypeFinder.java
        KmerSearchableGraph.java
        SeqVertex.java
        BaseVertex.java
        Path.java
        HaplotypeCallerEngine.java
        HaplotypeCaller.java
        AssemblyBasedCallerGenotypingEngine.java
        AssemblyRegionTrimmer.java
        AssemblyBasedCallerUtils.java
        KMerCounter.java
        AssemblyRegionTrimmerArgumentCollection.java
        HaplotypeCallerArgumentCollection.java
        RefVsAnyResult.java
        ReadErrorCorrector.java
        Kmer.java
        ReadLikelihoodCalculationEngine.java
        readthreading
        ReadThreadingGraph.java
        MultiDeBruijnVertex.java
        ReadThreadingAssembler.java
        TestingReadThreadingGraph.java
        AssemblyResult.java
        ReferenceConfidenceMode.java
        HaplotypeCallerGenotypingEngine.java
        AssemblyBasedCallerArgumentCollection.java
        LikelihoodEngineArgumentCollection.java
        AssemblyResultSet.java
        ReferenceConfidenceModel.java
        RandomLikelihoodCalculationEngine.java
        PairHMMLikelihoodCalculationEngine.java
        ReadThreadingAssemblerArgumentCollection.java
        variantutils
        CalculateGenotypePosteriors.java
        PosteriorProbabilitiesUtils.java
        annotator
        BaseQuality.java
        ReferenceBases.java
        ClippedBases.java
        MappingQuality.java
        PerAlleleAnnotation.java
        StrandArtifact.java
        FragmentLength.java
        ReadPosition.java
        GenotypeGVCFs.java
        validation
        AnnotateVcfWithBamDepth.java
        ConcordanceSummaryRecord.java
        FalsePositiveRecord.java
        CalculateMixingFractions.java
        ConcordanceState.java
        Concordance.java
        CountFalsePositives.java
        MixingFraction.java
        RemoveNearbyIndels.java
        AnnotateVcfWithExpectedAlleleFraction.java
        SplitIntervals.java
        genome
        SparkGenomeReadCounts.java
        HaplotypeCallerSpark.java
        coveragemodel
        germline
        GermlineCNVCaller.java
        IntegerCopyNumberReferenceStateFactory.java
        IntegerCopyNumberExpectationsCalculator.java
        CoverageModelEMComputeBlock.java
        CoverageModelCopyRatioEmissionData.java
        StandardSubroutineSignals.java
        CoverageModelArgumentCollection.java
        CoverageModelSparkUtils.java
        SubroutineSignal.java
        CoverageModelEMWorkspaceMathUtils.java
        CoverageModelWPreconditionerSpark.java
        CopyRatioCallingMetadata.java
        LinearlySpacedIndexBlock.java
        CoverageModelEMWorkspace.java
        nd4jutils
        Nd4jApacheAdapterUtils.java
        Nd4jIOUtils.java
        cachemanager
        Duplicable.java
        DuplicableNumber.java
        CacheNode.java
        ImmutableComputableGraph.java
        ComputableCacheNode.java
        ComputableNodeFunction.java
        ComputableGraphStructure.java
        PrimitiveCacheNode.java
        DuplicableNDArray.java
        CoverageModelEMAlgorithm.java
        math
        SynchronizedUnivariateSolver.java
        RobustBrentSolver.java
        UnivariateSolverSpecifications.java
        UnivariateSolverJobDescription.java
        CopyRatioHMMResults.java
        CoverageModelParameters.java
        CoverageModelWPreconditionerLocal.java
        interfaces
        TargetLikelihoodCalculator.java
        CopyRatioExpectationsCalculator.java
        linalg
        FourierLinearOperator.java
        GeneralLinearOperator.java
        GeneralLinearOperatorNDArray.java
        FourierLinearOperatorNDArray.java
        IterativeLinearSolverNDArray.java
        CoverageModelGlobalConstants.java
        CopyRatioExpectations.java
        CoverageModelCopyRatioEmissionProbabilityCalculator.java
        CoverageModelWLinearOperatorLocal.java
        CoverageModelWLinearOperatorSpark.java
  - test
    - resources
      - Homo_sapiens_assembly19_chr1_1M.fasta.fai
      - Homo_sapiens_assembly19_chr1_1M.dict
      - hg19mini.dict
      - picard_metrics_test.pre_adapter_detail_metrics
      - hg19mini.fasta.fai
      - hg19mini.interval_list
      - large
        CEUTrio.HiSeq.WGS.b37.NA12878.20.21.bam.bai
        human_g1k_v37.20.21.2bit
        1000G.phase3.broad.withGenotypes.chr20.10100000.vcf.idx
        human_g1k_v37.20.21.dict
        mutect
        dream_synthetic_bams
        normal_3.bam
        tumor_4.bam.bai
        normal_1.bam
        tumor_2.bam.bai
        normal_1.bam.bai
        tumor_4.bam
        tumor_2.bam
        tumor_3.bam
        normal_3.bam.bai
        normal.bam.bai
        tumor_1.bam.bai
        normal_4.bam.bai
        tumor.bam
        normal.bam
        normal_2.bam.bai
        tumor_1.bam
        normal_4.bam
        tumor_3.bam.bai
        normal_2.bam
        tumor.bam.bai
        CEUTrio.HiSeq.WGS.b37.NA12878.20.21.bam
        cnv_somatic_workflows_test_files
        HCC1143_BL-n2-chr20-downsampled.deduplicated.bam.bai
        HCC1143-t1-chr20-downsampled.deduplicated.bam.bai
        SM-74P4M-v1-chr20-downsampled.deduplicated.bam.bai
        SM-74P4M-v1-chr20-downsampled.deduplicated.bam
        SM-74NEG-v2-chr20-downsampled.deduplicated.bam
        common_snps_sample-chr20.interval_list
        SM-74P4M-v2-chr20-downsampled.deduplicated.bam.bai
        ice_targets_sample-chr20.tsv
        HCC1143_BL-n2-chr20-downsampled.deduplicated.bam
        SM-74NEG-v1-chr20-downsampled.deduplicated.bam
        HCC1143-t2-chr20-downsampled.deduplicated.bam
        HCC1143_BL-n1-chr20-downsampled.deduplicated.bam
        human_g1k_v37.chr-20.truncated.fasta.fai
        human_g1k_v37.chr-20.truncated.dict
        wes_test.pon
        SM-74NEG-v2-chr20-downsampled.deduplicated.bam.bai
        wgs_test.pon
        HCC1143_BL-n1-chr20-downsampled.deduplicated.bam.bai
        HCC1143-t1-chr20-downsampled.deduplicated.bam
        HCC1143-t2-chr20-downsampled.deduplicated.bam.bai
        SM-74NEG-v1-chr20-downsampled.deduplicated.bam.bai
        human_g1k_v37.chr-20.truncated.fasta
        SM-74P4M-v2-chr20-downsampled.deduplicated.bam
        gvcfs
        combined.gatk3.7_30_ga4f720357.g.vcf.gz
        combined.gatk3.7_30_ga4f720357.g.vcf.gz.tbi
        gatk3.7_30_ga4f720357.24_sample.21.expected.vcf
        gatk3.7_30_ga4f720357.24_sample.21.g.vcf.idx
        combined.gatk3.7_30_ga4f720357.expected.vcf.gz
        human_g1k_v37.20.21.fasta.fai
        1000G.phase3.broad.withGenotypes.chr20.10100000.vcf
        .gitattributes
        dbsnp_138.b37.20.21.vcf.idx
        Homo_sapiens_assembly38.20.21.fasta.fai
        human_g1k_v37.20.21.fasta
        Homo_sapiens_assembly38.20.21.dict
        Homo_sapiens_assembly38.20.21.fasta
        dbsnp_138.b37.20.21.vcf
      - hg19mini.fasta
      - very-small-gnomad.vcf.idx
      - org
        broadinstitute
        hellbender
        utils
        mcmc
        means-truth-for-gibbs-sampler-copy-ratio-test.txt
        number-of-targets-per-segment-for-gibbs-sampler-copy-ratio-test.txt
        coverages-for-gibbs-sampler-copy-ratio-test.txt
        segmenter
        output
        Simple_result.seg
        HCC1143_reduced_result.seg
        HCC1143_short_result.seg
        input
        HCC1143_short_no_samples.tsv
        HCC1143_short_2samples.tsv
        Simple.tsv
        HCC1143_short.tsv
        HCC1143_short_dupe_sample.tsv
        tools
        copynumber
        allelic
        collect-allelic-counts-simple-overhang.sam
        collect-allelic-counts-tumor.bam
        allelic-count-collection-normal.tsv
        collect-allelic-counts-normal.bam
        allelic-count-collection-normal-missing-nucleotides.tsv
        collect-allelic-counts-sites.interval_list
        mutect
        createpon
        sample2.vcf
        sample1.vcf
        dream
        vcfs
        sample_4.vcf.idx
        sample_1.vcf.idx
        sample_4.vcf
        sample_3.vcf.idx
        sample_3.vcf
        sample_1.vcf
        sample_2.vcf
        dream3-chr20.vcf.idx
        sample_2.vcf.idx
        dream-chr20.interval_list
        masks
        mask2.list
        mask4.list
        mask1.list
        mask3.list
        validation
        nearby_indels.vcf.idx
        nearby_indels.vcf
        dream_4_mixing.vcf
        na12878-chr20-consumes-zero-reference-bases.bai
        na12878-chr20-consumes-zero-reference-bases.bam
        haplotypecaller
        expected.testVCFMode.gatk3.5.alleleSpecific.vcf
        expected.testGVCFMode.gatk3.5.g.vcf
        expected.testGVCFMode.gatk4.g.vcf
        pretendTobeTetraPloidTetraAllelicSite.bam
        expected.testVCFMode.gatk4.vcf
        expected.testHaplotypeCallerRemoveAltAlleleBasedOnHaptypeScores.gatk4.vcf
        expected.testVCFMode.gatk4.alleleSpecific.vcf
        pretendTobeTetraPloidTetraAllelicSite.bam.bai
        expected.testVCFMode.gatk3.5.vcf
        exome
        allelic-pon-test-pon-freq-50.tsv
        snps-intermediate.tsv
        snps-full.tsv
        exome-read-counts.output
        test_creation_of_panel.pon
        pon-input.tab
        test_creation_of_panel-samples.txt
        exome-read-counts-NA12872.bam.bai
        exome-read-counts-no-intervals.output
        full-read-counts.txt
        full-read-counts-with-extra-target.txt
        exome-read-counts-min-MQ-30.output
        targets-for-small-segment-merging-base.tsv
        snps-simplified-for-allelic-fraction-segmentation.tsv
        exome-read-counts-test-targets.tsv.idx
        outlier-indicators-truth-for-copy-ratio-modeller.txt
        segments-for-plotting.seg
        test_creation_of_panel-log_normals.txt
        exome-read-counts-NA12872.bam
        allelic-pon-test-pon-counts-bad.tsv
        targetargumentcollection-test-targets.tab
        allelic-pon-test-segments.seg
        allelic-pon-test-sample-bad.tsv
        allelic-pon-test-pon-counts-normal.tsv
        full-read-counts.1sample.txt
        simple_overhang.sam
        allelic-pon-test-sample-normal.tsv
        segments-for-plotting-bad-sample-name.seg
        acnv-segments-for-plotting-bad-sample-name.seg
        exome-read-counts-NA12778.bam
        segment-means-truth-for-copy-ratio-modeller.txt
        germlinehmm
        TCGA_T_matrix_autosomal.tsv
        TCGA_T_matrix_autosomal_bad.tsv
        homo_sapiens_germline_HMM_priors.tsv
        TCGA_T_matrix_XX_Y.tsv
        TCGA_T_matrix_XY_X.tsv
        TCGA_T_matrix_XY_Y.tsv
        TCGA_T_matrix_XX_X.tsv
        only-names-read-counts.1sample.txt
        segments-for-acnv-modeller.seg
        segments-truth-for-acnv-modeller.seg
        segments-for-plotting-data-out-of-bounds.seg
        segments-for-copy-ratio-modeller.seg
        snp-segmenter-test-expected.seg
        full-read-counts-missing-a-target.1sample.txt
        allelic-pon-test-pon-freq-50.pon
        test_creation_of_panel-log_normal_pinv.txt
        snps-with-missing-column.tsv
        testbedconversion.bed
        segments-for-small-segment-merging-base.seg
        calculatetargetcoverage
        exome-read-counts-read-group.row-output
        exome-read-counts-cohort-with-names.output
        exome-read-counts-intervals_dups.tsv
        exome-read-counts-cohort.output
        dupReadsMini.bam
        exome-read-counts-NA12872.bam.bai
        exome-read-counts-cohort-with-BED-names.row-output
        exome-read-counts-cohort-with-BED-missing-names.row-output
        exome-read-counts-NA12872.bam
        test_reference.fasta
        exome-read-counts-NA12778.bam
        exome-read-counts-intervals_dups.list
        exome-read-counts-NA12878.bam.bai
        exome-read-counts-cohort-with-BED-names.output
        random-variant-file.vcf
        exome-read-counts-cohort.pcov-output
        exome-read-counts-sample.column-output
        exome-read-counts-cohort_dups.column-output
        test_reference.fasta.fai
        exome-read-counts-cohort-with-BED-names-only.output
        exome-read-counts-cohort-with-BED-missing-names.output
        exome-read-counts-cohort-with-names-only.row-output
        exome-read-counts-NA12778.bam.bai
        exome-read-counts-sample-NA12878.output
        exome-read-counts-cohort.column-output
        exome-read-counts-intervals-missing-names.tsv
        exome-read-counts-cohort-with-BED-names-only.row-output
        exome-read-counts-cohort-with-names.row-output
        exome-read-counts-cohort-with-BED-names_dups.output
        exome-read-counts-read-group.pcov-output
        exome-read-counts-NA12878.output
        exome-read-counts-intervals.list
        exome-read-counts-cohort-with-BED-names_dups.row-output
        exome-read-counts-read-group.column-output
        test_reference.dict
        exome-read-counts-sample.pcov-output
        exome-read-counts-read-group.output
        exome-read-counts-sample.output
        exome-read-counts-cohort.row-output
        exome-read-counts-NA12878.bam
        exome-read-counts-cohort-with-names-only.output
        exome-read-counts-sample.row-output
        exome-read-counts-intervals.tsv
        dupReadsMini.bam.bai
        normal.unsorted.bam
        snps-for-plotting-data-out-of-bounds.tsv
        targets-with-bad-name.tsv
        no_events_tn_an.txt
        snps-full-with-phase-posteriors.tsv
        del_events_tn.txt
        exome-read-counts-NA12878.bam.bai
        events_tn.txt
        acnv-segments-for-plotting.seg
        allelic-pon-test-pulldown-1.tsv
        testbedconversion-more-annotations.bed
        segments-for-allelic-integration.seg
        segments-for-small-segment-merging-no-small.seg
        conversion
        allelicbalancecaller
        cell_line-sim-final.seg
        cell_line_full-sim-final.seg
        cell_line_small-sim-final.seg
        orientationbiasvariantfilter
        empty_and_no_samples.vcf
        empty.vcf
        small_m2.vcf
        small_m2_more_variants.vcf
        m2_multiallelic.vcf
        SAMPLE9.pre_adapter_detail_metrics
        high_ploidy.vcf
        null_AD_field.vcf
        create-pon-some-targets.tab
        snps-basic.tsv
        only-coords-read-counts.1sample.txt
        allelic-pon-test-pon-freq-75.tsv
        eval
        eval-calls.vcf.gz
        eval-calls.vcf
        eval-calls.vcf.gz.tbi
        eval-truth.vcf.gz
        eval-targets.tsv
        eval-truth.vcf.gz.tbi
        gs-calls.vcf.gz
        exome-average-depth.output
        dummy_pon_target_variances_matlab.txt
        snps-for-small-segment-merging-base.tsv
        exome-read-counts-test-targets-wo-coords.tsv
        rcc-test-full-counts.txt
        exome-read-counts-base-calls.tsv
        snps-simplified-for-allelic-fraction-transformation.tsv
        snps-for-acnv-modeller.tsv
        sexgenotyper
        contig_annots_bad_autosomal_annot.tsv
        sex_genotypes_broadies_extended.tsv
        contig_annots.tsv
        sex_genotypes_broadies_basic.tsv
        contig_annots_bad_missing_some_annots.tsv
        agilent_trunc_all_targets.tsv
        sex_genotyper_rcc_trunc.tsv
        agilent_trunc_with_some_missing_targets.tsv
        sex_genotypes_agilent_trunc.tsv
        sex_genotyper_agilent_targets_trunc.tsv
        contig_annots_bad_class.tsv
        exome-read-counts-NA12778.bam.bai
        snps-for-allelic-integration.tsv
        discover-germline-xhmm-output-4-6-70-3-3.tab
        af-params-from-allelic-integration.af.param
        snps-intermediate-with-phase-posteriors.tsv
        allelic-pon-test-pon-normal.tsv
        create-pon-some-targets.bed
        allelic-pon-test-pulldown-2.tsv
        targets.tsv
        full-read-counts-bad-target-name.1sample.txt
        exome-average-fragment-depth.output
        caller
        segments.tsv
        targets.tsv
        segments_legacy.tsv
        test_target_file.txt
        only-coords-read-counts.txt
        tumor.sorted.bam
        full-read-counts-missing-a-target.txt
        allelic-pon-test-pulldown-3.tsv
        full-read-counts-with-extra-target.1sample.txt
        acnv-segments-from-allelic-integration.seg
        exome-fragment-counts.output
        allelic-pon-test-pon-freq-75.pon
        sequence-dictionary-for-plotting.dict
        test_creation_of_panel-normalized_pcov.txt
        normal.sorted.bam
        discover-germline-input-to-xhmm-zscores.pl
        acnv-segments-for-plotting-data-out-of-bounds.seg
        snps-for-plotting.tsv
        test_target_file_with_bed_extension.bed
        exome-read-counts-test-targets.tsv
        allelic-pon-test-sample-event.tsv
        full-read-counts-bad-target-name.txt
        test_fake_generated_pileup.txt
        exome-read-counts-NA12878.bam
        only-names-read-counts.txt
        sequence-dictionary-for-plotting-no-contigs-above-minimum-length.dict
        coverages-for-acnv-modeller.tsv
        detectcoveragedropout
        HCC1143T-100_27M_37M.seg
        test.tn.HCC1143T-100_27M_37M.tsv
        exome-read-counts-max-of-9.output
        test_creation_of_panel-targets.txt
        common_SNP.interval_list
        test_creation_of_panel-target_factors.txt
        allelic-pon-test-pulldown-4.tsv
        snps-basic-with-phase-posteriors.tsv
        walkers
        variantutils
        CalculateGenotypePosteriors
        expectedCGP_testSingleParentFamily_chr1.vcf
        CEUtrioTest_chr1.vcf
        expectedCGP_testFamilyPriors_chr1.vcf.idx
        expectedCGP_testFamilyPriors.vcf
        NA12878.Jan2013.haplotypeCaller.subset.indels.vcf
        threeMemberNonTrioTest_chr20.vcf
        testFamilyPriors_chr20.vcf.idx
        threeMemberNonTrioTest_chr1.vcf.idx
        CEUtrio.ped
        expectedCGP_testFamilyPriors_chr1.vcf
        NA12878.Jan2013.haplotypeCaller.subset.indels.vcf.idx
        expectedCGP_testInputINDELs.vcf
        CEUtrioPopPriorsTest_chr1.vcf.idx
        threeMemberNonTrio.ped
        expectedCGP_testSingleParentFamily.vcf
        testFamilyPriors_chr20.vcf
        threeMemberNonTrioTest_chr1.vcf
        CEUtrioPopPriorsTest_chr1.vcf
        expectedCGP_testSingleParentFamily_chr1.vcf.idx
        threeMemberNonTrioTest_chr20.vcf.idx
        CEUtrioTest_chr1.vcf.idx
        GenotypeGVCFs
        combine.single.sample.pipeline.3.vcf.idx
        combined_genotype_gvcf_exception.nocall.vcf
        leadingDeletion.g.vcf.idx
        CEUTrio.20.21.missingIndel.gatk3.7_30_ga4f720357.expected.vcf
        chr21.bad.pl.gatk3.7_30_ga4f720357.expected.vcf
        spanningDel.delOnly.g.vcf.idx
        CEUTrio.20.21.missingIndel.g.vcf.idx
        spanningDel.combined.g.vcf
        gvcf.basepairResolution.gvcf.idx
        leadingDeletionRestrictToStartExpected.vcf
        leadingDeletion.g.vcf
        spanningDel.combined.gatk3.7_30_ga4f720357.expected.vcf
        spanningDel.combined.g.vcf.idx
        spanningDel.depr.delOnly.gatk3.7_30_ga4f720357.expected.vcf
        CEUTrio.20.21.missingIndel.g.vcf
        gvcfExample1.gatk3.7_30_ga4f720357.expected.vcf
        combine.single.sample.pipeline.2.vcf
        combined_genotype_gvcf_exception.original.vcf
        testUpdatePGT.gatk3.7_30_ga4f720357.output.vcf
        gvcfExample1.vcf
        maxAltAllelesTest.gatk3.7_30_ga4f720357.expected.vcf
        ad-bug-input.vcf
        combine.single.sample.pipeline.2.vcf.idx
        CEUTrio.20.21.gatk3.4.g.vcf.idx
        spanningDel.delOnly.g.vcf
        spanningDel.depr.delOnly.g.vcf.idx
        chr21.bad.pl.g.vcf.idx
        combined_genotype_gvcf_exception.original.vcf.idx
        testUpdatePGT.gvcf.idx
        combined_genotype_gvcf_exception.gatk3.7_30_ga4f720357.output.vcf
        spanningDel.depr.delOnly.g.vcf
        combine.single.sample.pipeline.1.vcf.idx
        gvcfExample1.vcf.idx
        CEUTrio.21.gatk3.7_30_ga4f720357.expected.vcf
        testUpdatePGT.gvcf
        ad-bug-gatk3.7_30_ga4f720357-output.vcf
        leadingDeletionExpected.vcf
        gvcf.basepairResolution.gatk3.7_30_ga4f720357.output.vcf
        ad-bug-input.vcf.idx
        CEUTrio.20.gatk3.7_30_ga4f720357.expected.vcf
        combined_genotype_gvcf_exception.nocall.vcf.idx
        ndaTest.gatk3.7_30_ga4f720357.expected.vcf
        chr21.bad.pl.g.vcf
        standardConfTest.gatk3.7_30_ga4f720357.expected.vcf
        spanningDel.delOnly.gatk3.7_30_ga4f720357.expected.vcf
        genome
        HCC1143_chr3_1K_11K.tiny.bam.bai
        HCC1143_chr22_27M_37M.tiny.bam.bai
        HCC1143_chr3_1K_11K.tiny.bam
        HCC1143_chr22_27M_37M.tiny.bam
        coveragemodel
        calling_sample_bias_latent.tsv
        sim_HMM_priors_table.tsv
        sim_model
        target_specific_mean_log_bias.tsv
        target_specific_unexplained_variance.tsv
        targets.tsv
        mean_bias_covariates_matrix.tsv
        sim_T_matrix_autosomal.tsv
        calling_combined_copy_number.tsv
        sim_T_matrix_XX_X.tsv
        sim_T_matrix_XY_X.tsv
        sim_targets.tsv
        learning_combined_copy_number.tsv
        learning_sample_bias_latent.tsv
        learning_sample_read_depth.tsv
        learning_sample_sex_genotypes.tsv
        sim_T_matrix_XX_Y.tsv
        calling_sample_sex_genotypes.tsv
        sim_contig_anots.tsv
        calling_sample_read_depth.tsv
        sim_T_matrix_XY_Y.tsv
        concordance
        gatk4-dream3-mini.vcf
        dream3-truth-minus-SV-chr21.vcf
        same-truth.vcf
        gatk4-dream3-x.vcf
        gatk3-dream3-x.vcf
        gatk3-dream3-mini.vcf
    - java
      - org
        broadinstitute
        hellbender
        utils
        MatrixSummaryUtilsUnitTest.java
        hdf5
        HDF5LibraryUnitTest.java
        mcmc
        ParameterizedStateUnitTest.java
        ParameterizedModelUnitTest.java
        PosteriorSummaryUtilsUnitTest.java
        AdaptiveMetropolisSamplerUnitTest.java
        GibbsSamplerCopyRatioUnitTest.java
        GibbsSamplerSingleGaussianUnitTest.java
        DecileCollectionUnitTest.java
        SliceSamplerUnitTest.java
        NucleotideUnitTest.java
        segmenter
        SegmenterUnitTest.java
        codecs
        TargetCodecUnitTest.java
        LineIteratorReaderUnitTest.java
        GATKProtectedVariantContextUtilsUnitTest.java
        hmm
        FlatRealTestHMM.java
        TestHMM.java
        segmentation
        HMMSegmentProcessorUnitTest.java
        HMMPostProcessorUnitTest.java
        HMMUnitTest.java
        HeavyStateTestHMM.java
        UninformativeTestHMM.java
        param
        ParamUtilsUnitTest.java
        GATKProtectedMathUtilsTest.java
        fakedata
        GCBiasSimulatedData.java
        SimulatedSamples.java
        SimulatedTargets.java
        tools
        copynumber
        CollectAllelicCountsIntegrationTest.java
        allelic
        alleliccount
        AllelicCountCollectionUnitTest.java
        HaplotypeCallerSparkIntegrationTest.java
        exome
        NormalizeSomaticReadCountsIntegrationTest.java
        PadTargetsIntegrationTest.java
        GetBayesianHetCoverageIntegrationTest.java
        TargetArgumentCollectionUnitTest.java
        CreatePanelOfNormalsIntegrationTest.java
        FilterByOrientationBiasIntegrationTest.java
        PerformSegmentationIntegrationTest.java
        SegmentedGenomeUnitTest.java
        SegmentMergeUtilsUnitTest.java
        germlinehmm
        xhmm
        XHMMSegmentGenotyperIntegrationTest.java
        XHMMModelUnitTest.java
        XHMMSegmentCallerIntegrationTest.java
        XHMMSegmentCallerBaseIntegrationTest.java
        IntegerCopyNumberTransitionMatrixUnitTest.java
        CopyNumberTriStateTransitionProbabilityCacheUnitTest.java
        IntegerCopyNumberTransitionProbabilityCacheCollectionUnitTest.java
        IntegerCopyNumberTransitionMatrixCollectionUnitTest.java
        CopyNumberTriStateUnitTest.java
        IntegerCopyNumberTransitionProbabilityCacheUnitTest.java
        convertbed
        ConvertBedToTargetFileIntegrationTest.java
        copyratio
        CopyRatioModellerUnitTest.java
        segmentation
        CopyRatioSegmenterUnitTest.java
        PerformCopyRatioSegmentationIntegrationTest.java
        PerformAlleleFractionSegmentationIntegrationTest.java
        PerformJointSegmentationIntegrationTest.java
        AlleleFractionHMMUnitTest.java
        JointAFCRSegmenterUnitTest.java
        AlleleFractionSegmenterUnitTest.java
        ReadCountCollectionUnitTest.java
        ACNVModellerUnitTest.java
        TargetTableColumnUnitTest.java
        gcbias
        CorrectGCBiasIntegrationTest.java
        GCCorrectorUnitTest.java
        conversion
        titanconversion
        TitanFileConverterUnitTest.java
        acnvconversion
        ACNVModeledSegmentConversionUtilsUnitTest.java
        acsconversion
        ACSModeledSegmentUtilsUnitTest.java
        ACSModeledSegmentUnitTest.java
        allelicbalancecaller
        AllelicSplitCallerModelStateUnitTest.java
        AllelicSplitCallerUnitTest.java
        ModeledSegmentUnitTest.java
        orientationbiasvariantfilter
        ArtifactStatisticsScorerUnitTest.java
        OrientationBiasUtilsUnitTest.java
        PreAdapterOrientationScorerUnitTest.java
        OrientationBiasFiltererUnitTest.java
        samplenamefinder
        SampleNameFinderTest.java
        eval
        EvaluateCopyNumberTriStateCallsIntegrationTest.java
        ConvertGSVariantsToSegmentsIntegrationTest.java
        ReadCountRecordUnitTest.java
        allelefraction
        AlleleFractionLikelihoodsUnitTest.java
        AlleleFractionDataUnitTest.java
        AlleleFractionModellerUnitTest.java
        AlleleFractionSimulatedData.java
        AlleleFractionInitializerUnitTest.java
        CalculateTargetCoverageIntegrationTest.java
        sexgenotyper
        TargetCoverageSexGenotyperIntegrationTest.java
        SexGenotypeDataCollectionUnitTest.java
        ContigGermlinePloidyAnnotationTableReaderUnitTest.java
        GermlinePloidyAnnotatedTargetCollectionUnitTest.java
        TargetCoverageSexGenotypeCalculatorUnitTest.java
        TargetUnitTest.java
        GetHetCoverageIntegrationTest.java
        AnnotateTargetsIntegrationTest.java
        TargetWriterUnitTest.java
        CallSegmentsIntegrationTest.java
        ReCapSegCallerUnitTest.java
        AllelicCNVIntegrationTest.java
        ReadCountCollectionUtilsUnitTest.java
        SNPSegmenterUnitTest.java
        CombineReadCountsIntegrationTest.java
        SegmentUtilsUnitTest.java
        DecomposeSingularValuesIntegrationTest.java
        CalculatePulldownPhasePosteriorsIntegrationTest.java
        alleliccount
        AllelicCountWithPhasePosteriorsUnitTest.java
        AllelicCountUnitTest.java
        AllelicCountWithPhasePosteriorsCollectionUnitTest.java
        AllelicCountCollectionUnitTest.java
        ConvertACNVResultsIntegrationTest.java
        TargetAnnotationCollectionUnitTest.java
        pulldown
        BayesianHetPulldownCalculatorUnitTest.java
        HetPulldownCalculatorUnitTest.java
        HeterogeneousHeterozygousPileupPriorModelUnitTest.java
        TargetPadderUnitTest.java
        plotting
        PlotSegmentedCopyRatioIntegrationTest.java
        PlotACNVResultsIntegrationTest.java
        detectcoveragedropout
        DetectCoverageDropoutIntegrationTest.java
        CoverageDropoutDetectorTest.java
        CreateAllelicPanelOfNormalsIntegrationTest.java
        pon
        PoNTestUtils.java
        coverage
        CoveragePoNQCUtilsUnitTest.java
        pca
        PCATangentNormalizationUtilsUnitTest.java
        RamPCACoveragePoNUnitTest.java
        HDF5PCACoveragePoNUnitTest.java
        HDF5PCACoveragePoNCreationUtilsUnitTest.java
        allelic
        AllelicPanelOfNormalsUnitTest.java
        AllelicPanelOfNormalsCreatorUnitTest.java
        AllelicPoNTestUtils.java
        walkers
        contamination
        GetPileupSummariesIntegrationTest.java
        PileupSummaryUnitTest.java
        CalculateContaminationIntegrationTest.java
        mutect
        StrandArtifactUnitTest.java
        SomaticLikelihoodsEngineUnitTest.java
        PerAlleleCollectionUnitTest.java
        Mutect2IntegrationTest.java
        CreateSomaticPanelOfNormalsIntegrationTest.java
        GermlineProbabilityCalculatorUnitTest.java
        haplotypecaller
        graphs
        GraphUtilsUnitTest.java
        SeqGraphUnitTest.java
        BaseVertexUnitTest.java
        DeadEndKBestSubHaplotypeFinderUnitTest.java
        SharedVertexSequenceSplitterUnitTest.java
        KBestHaplotypeFinderUnitTest.java
        EmptyPathHaplotypeFinderNodeUnitTest.java
        MultiSampleEdgeUnitTest.java
        PathUnitTest.java
        BaseGraphUnitTest.java
        LowWeightChainPrunerUnitTest.java
        BaseEdgeUnitTest.java
        CommonSuffixMergerUnitTest.java
        TestGraph.java
        CommonSuffixSplitterUnitTest.java
        SeqVertexUnitTest.java
        KmerUnitTest.java
        RandomLikelihoodCalculationEngineUnitTest.java
        PairHMMLikelihoodCalculationEngineUnitTest.java
        ReadErrorCorrectorUnitTest.java
        KMerCounterUnitTest.java
        RefVsAnyResultUnitTest.java
        HaplotypeSizeAndBaseComparatorUnitTest.java
        readthreading
        MultiDeBruijnVertexUnitTest.java
        ReadThreadingAssemblerUnitTest.java
        ReadThreadingGraphUnitTest.java
        AssemblyRegionTestDataSetUnitTest.java
        Civar.java
        AssemblyResultSetUnitTest.java
        CivarUnitTest.java
        HaplotypeCallerEngineUnitTest.java
        AssemblyRegionTestDataSet.java
        HaplotypeCallerGenotypingEngineUnitTest.java
        HaplotypeCallerIntegrationTest.java
        ReferenceConfidenceModelUnitTest.java
        GenotypeGVCFsIntegrationTest.java
        variantutils
        CalculateGenotypePosteriorsIntegrationTest.java
        PosteriorProbabilitiesUtilsUnitTest.java
        ReferenceConfidenceVariantContextMergerUnitTest.java
        annotator
        ReferenceBasesUnitTest.java
        ReadPositionUnitTest.java
        BaseQualityUnitTest.java
        SplitIntervalsIntegrationTest.java
        GenotypeGVCFsUnitTest.java
        validation
        RemoveNearbyIndelsIntegrationTest.java
        ConcordanceIntegrationTest.java
        CountFalsePositivesIntegrationTest.java
        AnnotateVcfWithExpectedAlleleFractionIntegrationTest.java
        MixingFractionUnitTest.java
        AnnotateVcfWithBamDepthIntegrationTest.java
        CalculateMixingFractionsIntegrationTest.java
        genome
        SparkGenomeReadCountsIntegrationTest.java
        coveragemodel
        germline
        GermlineCNVCallerIntegrationTest.java
        CoverageModelEMWorkspaceMathUtilsUnitTest.java
        CoverageModelCopyRatioEmissionProbabilityCalculatorUnitTest.java
        CoverageModelEMComputeBlockUnitTest.java
        CoverageModelParametersUnitTest.java
        nd4jutils
        Nd4jIOUtilsUnitTest.java
        Nd4jApacheAdapterUtilsUnitTest.java
        CoverageModelSparkUtilsUnitTest.java
        cachemanager
        ComputableGraphStructureUnitTest.java
        ImmutableComputableGraphUnitTest.java
        math
        RobustBrentSolverUnitTest.java
        SynchronizedUnivariateSolverUnitTest.java
        linalg
        FourierLinearOperatorNDArrayUnitTest.java
        IterativeLinearSolverNDArrayUnitTest.java
        Nd4jUnitTest.java
- gradle
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
- gradlew
- build.gradle
- .travis.yml
- README.md
- scripts
  - cnv_cromwell_tests
    - somatic
      - cnv_somatic_pair_wgs_tumor-only_workflow.json
      - cnv_somatic_pair_wes_workflow.json
      - cnv_somatic_pair_wgs_input.tsv
      - run_cnv_somatic_workflows.sh
      - cnv_somatic_panel_wes_workflow.json
      - cnv_somatic_panel_wgs_input.tsv
      - cnv_somatic_pair_wes_tumor-only_workflow.json
      - cnv_somatic_pair_wgs_workflow.json
      - cnv_somatic_panel_wgs_workflow.json
      - cnv_somatic_pair_wes_input.tsv
      - cnv_somatic_panel_wes_input.tsv
  - cnv_wdl
    - somatic
      - cnv_somatic_pair_workflow.wdl
      - cnv_somatic_pair_workflow_template.json
      - cnv_somatic_copy_ratio_bam_workflow.wdl
      - cnv_somatic_panel_workflow_template.json
      - cnv_somatic_panel_workflow.wdl
      - cnv_somatic_allele_fraction_pair_workflow.wdl
      - README.md
      - cnv_somatic_tasks.wdl
  - install_R_packages.R
  - docker
    - build_docker.sh
    - delete_all_untagged_images.sh
    - README.md
    - Dockerfile
  - install_git_lfs.sh
  - m2_cromwell_tests
    - pair_list
    - pair_list_tumor_only
    - test_m2_wdl_multi.json
    - run_m2_wdl.sh
    - interval_list.interval_list
    - README.md
  - unsupported
    - reheader_bam
      - reheader_bam.py
    - README.md
  - mutect2_wdl
    - mutect2-replicate-validation.wdl
    - mutect2.wdl
    - mutect2_multi_sample.wdl
    - mutect2_multi_sample_template.json
    - README.md
    - unsupported
      - hapmap_sensitivity.json
      - hapmap_sensitivity.wdl
      - mutect2_multi_sample_concordance.wdl
      - hapmap_sensitivity_truth.json
      - mutect2_compare_tumors.wdl
      - calculate_sensitivity.py
      - hapmap_sensitivity_truth.wdl
    - mutect2-replicate-validation_template.json
    - mutect2_template.json
- settings.gradle
- .gitignore
- docs
  - mutect
    - mutect-germline-filter.tex
    - strand-artifact-filter.tex
    - mutect.tex
  - CNVs
    - CNV-methods.tex
    - CNVPoNFields.v6.0.md
    - PoN
      - GATKCNVPoNCreation.vsdx
      - TangentNormalizationInSparkNotes.odt
      - testdataGeneration
        generate_normal_projections.m
        create_pon_data_from_gatk_hdf5.m
        create_suspicious_samples_from_real_data.m
        README.md
    - justifying_gamma_approximation.ipynb
    - figs
    - target-coverage.tex
- LICENSE.txt
- .coveralls.yml

package org.broadinstitute.hellbender.tools;

import com.google.common.annotations.VisibleForTesting;
import htsjdk.samtools.SAMFileHeader;
import htsjdk.samtools.SAMSequenceDictionary;
import htsjdk.samtools.reference.ReferenceSequence;
import htsjdk.samtools.reference.ReferenceSequenceFile;
import htsjdk.samtools.util.OverlapDetector;
import htsjdk.variant.variantcontext.VariantContext;
import htsjdk.variant.variantcontext.writer.VariantContextWriter;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.broadcast.Broadcast;
import org.broadinstitute.barclay.argparser.*;
import org.broadinstitute.barclay.argparser.Advanced;
import org.broadinstitute.barclay.argparser.Argument;
import org.broadinstitute.barclay.argparser.ArgumentCollection;
import org.broadinstitute.barclay.argparser.CommandLineProgramProperties;
import org.broadinstitute.hellbender.cmdline.*;
import org.broadinstitute.hellbender.cmdline.programgroups.SparkProgramGroup;
import org.broadinstitute.hellbender.engine.*;
import org.broadinstitute.hellbender.engine.datasources.ReferenceMultiSource;
import org.broadinstitute.hellbender.engine.filters.ReadFilter;
import org.broadinstitute.hellbender.engine.spark.GATKSparkTool;
import org.broadinstitute.hellbender.engine.spark.SparkReadShard;
import org.broadinstitute.hellbender.exceptions.GATKException;
import org.broadinstitute.hellbender.exceptions.UserException;
import org.broadinstitute.hellbender.tools.walkers.haplotypecaller.HaplotypeCaller;
import org.broadinstitute.hellbender.tools.walkers.haplotypecaller.HaplotypeCallerArgumentCollection;
import org.broadinstitute.hellbender.tools.walkers.haplotypecaller.HaplotypeCallerEngine;
import org.broadinstitute.hellbender.utils.IntervalUtils;
import org.broadinstitute.hellbender.utils.SimpleInterval;
import org.broadinstitute.hellbender.utils.Utils;
import org.broadinstitute.hellbender.utils.read.GATKRead;
import org.broadinstitute.hellbender.utils.reference.ReferenceBases;
import scala.Tuple2;

import java.io.IOException;
import java.io.Serializable;
import java.util.Collection;
import java.util.Collections;
import java.util.Iterator;
import java.util.List;
import java.util.function.Function;
import java.util.stream.Collectors;
import java.util.stream.Stream;
import java.util.stream.StreamSupport;

/**
 * Call germline SNPs and indels via local re-assembly of haplotypes
 *
 * This is an implementation of {@link HaplotypeCaller} using spark to distribute the computation.
 * It is still in an early stage of development and does not yet support all the options that the non-spark version does.
 *
 * Specifically it does not support the --dbsnp, --comp, and --bamOutput options.
 *
 */
@CommandLineProgramProperties(summary = "HaplotypeCaller on Spark", oneLineSummary = "HaplotypeCaller on Spark", programGroup = SparkProgramGroup.class)
public final class HaplotypeCallerSpark extends GATKSparkTool {
    private static final long serialVersionUID = 1L;

    @Argument(fullName= StandardArgumentDefinitions.OUTPUT_LONG_NAME, shortName = StandardArgumentDefinitions.OUTPUT_SHORT_NAME, doc = "Single file to which variants should be written")
    public String output;

    @ArgumentCollection
    public final ShardingArgumentCollection shardingArgs = new ShardingArgumentCollection();

    public static class ShardingArgumentCollection implements Serializable {
        private static final long serialVersionUID = 1L;

        @Argument(fullName="readShardSize", shortName="readShardSize", doc = "Maximum size of each read shard, in bases. For good performance, this should be much larger than the maximum assembly region size.", optional = true)
        public int readShardSize = HaplotypeCaller.DEFAULT_READSHARD_SIZE;

        @Argument(fullName="readShardPadding", shortName="readShardPadding", doc = "Each read shard has this many bases of extra context on each side. Read shards must have as much or more padding than assembly regions.", optional = true)
        public int readShardPadding = HaplotypeCaller.DEFAULT_READSHARD_PADDING;

        @Argument(fullName = "minAssemblyRegionSize", shortName = "minAssemblyRegionSize", doc = "Minimum size of an assembly region", optional = true)
        public int minAssemblyRegionSize = HaplotypeCaller.DEFAULT_MIN_ASSEMBLY_REGION_SIZE;

        @Argument(fullName = "maxAssemblyRegionSize", shortName = "maxAssemblyRegionSize", doc = "Maximum size of an assembly region", optional = true)
        public int maxAssemblyRegionSize = HaplotypeCaller.DEFAULT_MAX_ASSEMBLY_REGION_SIZE;

        @Argument(fullName = "assemblyRegionPadding", shortName = "assemblyRegionPadding", doc = "Number of additional bases of context to include around each assembly region", optional = true)
        public int  assemblyRegionPadding = HaplotypeCaller.DEFAULT_ASSEMBLY_REGION_PADDING;

        @Advanced
        @Argument(fullName = "activeProbabilityThreshold", shortName = "activeProbabilityThreshold", doc="Minimum probability for a locus to be considered active.", optional = true)
        public double activeProbThreshold = HaplotypeCaller.DEFAULT_ACTIVE_PROB_THRESHOLD;

        @Advanced
        @Argument(fullName = "maxProbPropagationDistance", shortName = "maxProbPropagationDistance", doc="Upper limit on how many bases away probability mass can be moved around when calculating the boundaries between active and inactive assembly regions", optional = true)
        public int maxProbPropagationDistance = HaplotypeCaller.DEFAULT_MAX_PROB_PROPAGATION_DISTANCE;

    }

    @ArgumentCollection
    public HaplotypeCallerArgumentCollection hcArgs = new HaplotypeCallerArgumentCollection();

    @Override
    public boolean requiresReads(){
        return true;
    }

    @Override
    public boolean requiresReference(){
        return true;
    }


    @Override
    protected void runTool(final JavaSparkContext ctx) {
        final List<SimpleInterval> intervals = hasIntervals() ? getIntervals() : IntervalUtils.getAllIntervalsForReference(getHeaderForReads().getSequenceDictionary());
        final JavaRDD<VariantContext> variants = callVariantsWithHaplotypeCaller(getAuthHolder(), ctx, getReads(), getHeaderForReads(), getReference(), intervals, hcArgs, shardingArgs);
        writeVariants(variants);
    }

    @Override
    public List<ReadFilter> getDefaultReadFilters() {
        return HaplotypeCallerEngine.makeStandardHCReadFilters();
    }

    /**
     * Call Variants using HaplotypeCaller on Spark and return an RDD of  {@link VariantContext}
     *
     * This may be called from any spark pipeline in order to call variants from an RDD of GATKRead
     *
     * @param authHolder authorization needed for the reading the reference
     * @param ctx the spark context
     * @param reads the reads variants should be called from
     * @param header the header that goes with the reads
     * @param reference the reference to use when calling
     * @param intervals the intervals to restrict calling to
     * @param hcArgs haplotype caller arguments
     * @param shardingArgs arguments to control how the assembly regions are sharded
     * @return an RDD of Variants
     */
    public static JavaRDD<VariantContext> callVariantsWithHaplotypeCaller(
            final AuthHolder authHolder,
            final JavaSparkContext ctx,
            final JavaRDD<GATKRead> reads,
            final SAMFileHeader header,
            final ReferenceMultiSource reference,
            final List<SimpleInterval> intervals,
            final HaplotypeCallerArgumentCollection hcArgs,
            final ShardingArgumentCollection shardingArgs) {
        Utils.validateArg(hcArgs.dbsnp.dbsnp == null, "HaplotypeCallerSpark does not yet support -D or --dbsnp arguments" );
        Utils.validateArg(hcArgs.comps.isEmpty(), "HaplotypeCallerSpark does not yet support -comp or --comp arguments" );
        Utils.validateArg(hcArgs.bamOutputPath == null, "HaplotypeCallerSpark does not yet support -bamout or --bamOutput");
        if ( !reference.isCompatibleWithSparkBroadcast()){
            throw new UserException.Require2BitReferenceForBroadcast();
        }

        final Broadcast<ReferenceMultiSource> referenceBroadcast = ctx.broadcast(reference);
        final Broadcast<HaplotypeCallerArgumentCollection> hcArgsBroadcast = ctx.broadcast(hcArgs);
        final OverlapDetector<ShardBoundary> overlaps = getShardBoundaryOverlapDetector(header, intervals, shardingArgs.readShardSize, shardingArgs.readShardPadding);
        final Broadcast<OverlapDetector<ShardBoundary>> shardBoundariesBroadcast = ctx.broadcast(overlaps);

        final JavaRDD<Shard<GATKRead>> readShards = createReadShards(shardBoundariesBroadcast, reads);

        final JavaRDD<Tuple2<AssemblyRegion, SimpleInterval>> assemblyRegions = readShards
                .mapPartitions(shardsToAssemblyRegions(authHolder, referenceBroadcast, hcArgsBroadcast, shardingArgs, header));

        return assemblyRegions.mapPartitions(callVariantsFromAssemblyRegions(authHolder, header, referenceBroadcast, hcArgsBroadcast));
    }

    /**
     * Call variants from Tuples of AssemblyRegion and Simple Interval
     * The interval should be the non-padded shard boundary for the shard that the corresponding AssemblyRegion was
     * created in, it's used to eliminate redundant variant calls at the edge of shard boundaries.
     */
    private static FlatMapFunction<Iterator<Tuple2<AssemblyRegion, SimpleInterval>>, VariantContext> callVariantsFromAssemblyRegions(
            final AuthHolder authHolder,
            final SAMFileHeader header,
            final Broadcast<ReferenceMultiSource> referenceBroadcast,
            final Broadcast<HaplotypeCallerArgumentCollection> hcArgsBroadcast) {
        return regionAndIntervals -> {
            //HaplotypeCallerEngine isn't serializable but is expensive to instantiate, so construct and reuse one for every partition
            final ReferenceMultiSourceAdapter referenceReader = new ReferenceMultiSourceAdapter(referenceBroadcast.getValue(), authHolder);
            final HaplotypeCallerEngine hcEngine = new HaplotypeCallerEngine(hcArgsBroadcast.value(), header, referenceReader);
            return iteratorToStream(regionAndIntervals).flatMap(regionToVariants(hcEngine)).iterator();
        };
    }

    private static <T> Stream<T> iteratorToStream(Iterator<T> iterator) {
        Iterable<T> regionsIterable = () -> iterator;
        return StreamSupport.stream(regionsIterable.spliterator(), false);
    }

    private static Function<Tuple2<AssemblyRegion, SimpleInterval>, Stream<? extends VariantContext>> regionToVariants(HaplotypeCallerEngine hcEngine) {
        return regionAndInterval -> {
            final List<VariantContext> variantContexts = hcEngine.callRegion(regionAndInterval._1(), new FeatureContext());
            final SimpleInterval shardBoundary = regionAndInterval._2();
            return variantContexts.stream()
                .filter(vc -> shardBoundary.contains(new SimpleInterval(vc.getContig(), vc.getStart(), vc.getStart())));
        };
    }

    /**
     * WriteVariants, this is currently going to be horribly slow and explosive on a full size file since it performs a collect.
     *
     * This will be replaced by a parallel writer similar to what's done with {@link org.broadinstitute.hellbender.engine.spark.datasources.ReadsSparkSink}
     */
    private void writeVariants(JavaRDD<VariantContext> variants) {
        final List<VariantContext> collectedVariants = variants.collect();
        final SAMSequenceDictionary referenceDictionary = getReferenceSequenceDictionary();

        final List<VariantContext> sortedVariants = collectedVariants.stream()
                .sorted((o1, o2) -> IntervalUtils.compareLocatables(o1, o2, referenceDictionary))
                .collect(Collectors.toList());

        final HaplotypeCallerEngine hcEngine = new HaplotypeCallerEngine(hcArgs, getHeaderForReads(), new ReferenceMultiSourceAdapter(getReference(), getAuthHolder()));
        try(final VariantContextWriter writer = hcEngine.makeVCFWriter(output, getBestAvailableSequenceDictionary())) {
            hcEngine.writeHeader(writer, getHeaderForReads().getSequenceDictionary(), Collections.emptySet());
            sortedVariants.forEach(writer::add);
        }
    }

    /**
     * Create an RDD of {@link Shard} from an RDD of {@link GATKRead}
     * @param shardBoundariesBroadcast  broadcast of an {@link OverlapDetector} loaded with the intervals that should be used for creating ReadShards
     * @param reads Rdd of {@link GATKRead}
     * @return a Rdd of reads grouped into potentially overlapping shards
     */
    private static JavaRDD<Shard<GATKRead>> createReadShards(final Broadcast<OverlapDetector<ShardBoundary>> shardBoundariesBroadcast, final JavaRDD<GATKRead> reads) {
        final JavaPairRDD<ShardBoundary, GATKRead> paired = reads.flatMapToPair(read -> {
            final Collection<ShardBoundary> overlappingShards = shardBoundariesBroadcast.value().getOverlaps(read);
            return overlappingShards.stream().map(key -> new Tuple2<>(key, read)).iterator();
        });
        final JavaPairRDD<ShardBoundary, Iterable<GATKRead>> shardsWithReads = paired.groupByKey();
        return shardsWithReads.map(shard -> new SparkReadShard(shard._1(), shard._2()));
    }

    /**
     * @return an {@link OverlapDetector} loaded with {@link ShardBoundary}
     * based on the -L intervals
     */
    private static OverlapDetector<ShardBoundary> getShardBoundaryOverlapDetector(final SAMFileHeader header, final List<SimpleInterval> intervals, final int readShardSize, final int readShardPadding) {
        final OverlapDetector<ShardBoundary> shardBoundaryOverlapDetector = new OverlapDetector<>(0, 0);
        intervals.stream()
                .flatMap(interval -> Shard.divideIntervalIntoShards(interval, readShardSize, readShardPadding, header.getSequenceDictionary()).stream())
                .forEach(boundary -> shardBoundaryOverlapDetector.addLhs(boundary, boundary.getPaddedInterval()));
        return shardBoundaryOverlapDetector;
    }

    /**
     * @return and RDD of {@link Tuple2<AssemblyRegion, SimpleInterval>} which pairs each AssemblyRegion with the
     * interval it was generated in
     */
    private static FlatMapFunction<Iterator<Shard<GATKRead>>, Tuple2<AssemblyRegion, SimpleInterval>> shardsToAssemblyRegions(
            final AuthHolder authHolder,
            final Broadcast<ReferenceMultiSource> reference,
            final Broadcast<HaplotypeCallerArgumentCollection> hcArgsBroadcast,
            final ShardingArgumentCollection assemblyArgs,
            final SAMFileHeader header) {
        return shards -> {
            final ReferenceMultiSource referenceMultiSource = reference.value();
            final ReferenceMultiSourceAdapter referenceSource = new ReferenceMultiSourceAdapter(referenceMultiSource, authHolder);
            final HaplotypeCallerEngine hcEngine = new HaplotypeCallerEngine(hcArgsBroadcast.value(), header, referenceSource);

            return iteratorToStream(shards).flatMap(shardToRegion(assemblyArgs, header, referenceSource, hcEngine)).iterator();
        };
    }

    private static Function<Shard<GATKRead>, Stream<? extends Tuple2<AssemblyRegion, SimpleInterval>>> shardToRegion(
            ShardingArgumentCollection assemblyArgs,
            SAMFileHeader header,
            ReferenceMultiSourceAdapter referenceSource,
            HaplotypeCallerEngine evaluator) {
        return shard -> {
            final ReferenceContext refContext = new ReferenceContext(referenceSource, shard.getPaddedInterval());

            //TODO load features as a side input
            final FeatureContext features = new FeatureContext();

            final Iterable<AssemblyRegion> assemblyRegions = AssemblyRegion.createFromReadShard(
                    shard, header, refContext, features, evaluator,
                    assemblyArgs.minAssemblyRegionSize, assemblyArgs.maxAssemblyRegionSize,
                    assemblyArgs.assemblyRegionPadding, assemblyArgs.activeProbThreshold,
                    assemblyArgs.maxProbPropagationDistance);

            return StreamSupport.stream(assemblyRegions.spliterator(), false)
                    .map(a -> new Tuple2<>(a, shard.getInterval()));
        };
    }

    /**
     * Adapter to allow a 2bit reference to be used in HaplotypeCallerEngine.
     * This is not intended as a general purpose adapter, it only enables the operations needed in {@link HaplotypeCallerEngine}
     * This should not be used outside of this class except for testing purposes.
     */
    @VisibleForTesting
    public static final class ReferenceMultiSourceAdapter implements ReferenceSequenceFile, ReferenceDataSource, Serializable{
        private static final long serialVersionUID = 1L;

        private final ReferenceMultiSource source;
        private final AuthHolder auth;
        private final SAMSequenceDictionary sequenceDictionary;

        public ReferenceMultiSourceAdapter(final ReferenceMultiSource source, final AuthHolder auth) {
            this.source = source;
            this.auth = auth;
            sequenceDictionary = source.getReferenceSequenceDictionary(null);
        }

        @Override
        public ReferenceSequence queryAndPrefetch(final String contig, final long start, final long stop) {
           return getSubsequenceAt(contig, start, stop);
        }

        @Override
        public SAMSequenceDictionary getSequenceDictionary() {
            return source.getReferenceSequenceDictionary(null);
        }

        @Override
        public ReferenceSequence nextSequence() {
            throw new UnsupportedOperationException("nextSequence is not implemented");
        }

        @Override
        public void reset() {
            throw new UnsupportedOperationException("reset is not implemented");
        }

        @Override
        public boolean isIndexed() {
            return true;
        }

        @Override
        public ReferenceSequence getSequence(final String contig) {
            throw new UnsupportedOperationException("getSequence is not supported");
        }

        @Override
        public ReferenceSequence getSubsequenceAt(final String contig, final long start, final long stop) {
            try {
                final ReferenceBases bases = source.getReferenceBases(auth.asPipelineOptionsDeprecated(), new SimpleInterval(contig, (int) start, (int) stop));
                return new ReferenceSequence(contig, sequenceDictionary.getSequenceIndex(contig), bases.getBases());
            } catch (final IOException e) {
                throw new GATKException(String.format("Failed to load reference bases for %s:%d-%d", contig, start, stop));
            }
        }

        @Override
        public void close() {
            // doesn't do anything because you can't close a two-bit file
        }

        @Override
        public Iterator<Byte> iterator() {
            throw new UnsupportedOperationException("iterator is not supported");
        }
    }

}