java source code of SplitBamByCell

Drop-seq-master
- .github
  - ISSUE_TEMPLATE
    - documentation-request.md
    - feature_request.md
    - bug_report.md
- src
  - ant
    - defs.xml
  - java
    - org
      - broadinstitute
        dropseqrna
        beadsynthesis
        BeadSynthesisErrorsSummaryMetric.java
        DetectPrimerInUMI.java
        BeadSynthesisErrorData.java
        DetectBeadSynthesisErrors.java
        BiasedBarcodeCollection.java
        IntendedSequence.java
        BeadSynthesisErrorType.java
        BeadSynthesisErrorDataCodec.java
        BarcodeNeighborGroup.java
        BeadSynthesisErrorDataBuilder.java
        BiasedBarcodeCollectionFactory.java
        IntendedSequenceBuilder.java
        utils
        ObjectCounter.java
        IntervalTagComparator.java
        SortingCollectionSink.java
        StringInterner.java
        ObjectSink.java
        statistics
        BinomialStatistics.java
        CollectionSink.java
        CustomBAMIterators.java
        StringTagComparator.java
        DropSeqSamUtil.java
        FilterBamByTag.java
        CompareBAMTagValues.java
        ReadNameComparator.java
        VariantContextProgressLoggerIterator.java
        SamWriterSink.java
        OrderAssertingIterator.java
        alignmentcomparison
        ContigResult.java
        CompareDropSeqAlignments.java
        QueryNameJointIterator.java
        GeneResult.java
        MultiComparator.java
        BaseQualityFilter.java
        OutputWriterUtil.java
        PredicateFilteredIterator.java
        TagBamWithReadSequenceExtended.java
        VariantContextSingletonFilter.java
        FilterBam.java
        BaseDistributionMetric.java
        BaseDistributionAtReadPosition.java
        readiterators
        SamRecordSortingIteratorFactory.java
        GeneStrandFilteringIterator.java
        EditDistanceFilteringIterator.java
        BamTagCountingIterator.java
        ChromosomeFilteringPredicate.java
        ChromosomeFilteringIterator.java
        UMIIterator.java
        SamFileMergeUtil.java
        PCRDuplicateFilteringIterator.java
        GeneFunctionIteratorWrapper.java
        CellBarcodeFilteringIterator.java
        RequiredTagStringValuePredicate.java
        MapQualityFilteredIterator.java
        MissingTagFilteringIterator.java
        DefaultTaggingIterator.java
        RequiredTagPredicate.java
        UMIReadIterator.java
        StrandStrategy.java
        ReadEditDistancePredicate.java
        MapQualityPredicate.java
        DEIteratorUtils.java
        TagValueFilteringIterator.java
        SamHeaderAndIterator.java
        BAMTagValueFilter.java
        editdistance
        FindSimilarEntities.java
        BarcodeWithCount.java
        BottomUpCollapseResult.java
        EDUtils.java
        BarcodeSubstitutionPair.java
        BarcodeSubstitutionCollection.java
        MapBarcodesByEditDistance.java
        LevenshteinDistance.java
        EditDistanceMappingMetric.java
        FindSimilarEntitiesByMutationalCollapse.java
        CollapseBarcodesInPlace.java
        FindSimilarEntitiesByEditDistance.java
        LevenshteinDistanceResult.java
        FindSimilarEntitiesByUMISharing.java
        IntendedIndelResult.java
        CollapseTagWithContext.java
        FindSimilarEntitiesResult.java
        HammingDistance.java
        DetectBeadSubstitutionErrors.java
        FindSimilarEntitiesByAdaptiveEditDistance.java
        CountChangingIteratorWrapper.java
        io
        ErrorCheckingPrintStream.java
        ErrorCheckingPrintWriter.java
        SortingIteratorFactory.java
        ConvertTagToReadGroup.java
        Bases.java
        VCFUtils.java
        BaseRange.java
        FilterProgramUtils.java
        SamHeaderUtil.java
        ProgressLoggingIterator.java
        SequenceDictionaryIntersection.java
        FilteredIterator.java
        PeekableGroupingIterator.java
        SplitBamByCell.java
        TransformingIterator.java
        modularfileparser
        ReducedGTFParser.java
        Parser.java
        BEDFileParser.java
        ReducedGTFLine.java
        ModularFileParserException.java
        ModularFileParser.java
        ParserFactory.java
        DelimiterParser.java
        referencetools
        MaskReferenceSequence.java
        ReferenceUtils.java
        FileListParsingUtils.java
        readpairs
        ReadPair.java
        FastaSequenceFileWriter.java
        FilteredReadsMetric.java
        BaseDistributionMetricCollection.java
        MetricsUtils.java
        GroupingIterator.java
        RetainRemoveList.java
        cmdline
        DropNet.java
        SpermSeq.java
        MetaData.java
        CustomCommandLineValidationHelper.java
        DropSeq.java
        DropSeqMain.java
        readtrimming
        PolyATrimmer.java
        PolyAWithAdapterFinder.java
        SimplePolyAFinder.java
        PolyAFinder.java
        AdapterDescriptor.java
        TrimSequenceTemplate.java
        TrimStartingSequence.java
        spermseq
        metrics
        spermalleles
        GenotypeSperm.java
        duplicates
        SpermSeqMarkDuplicates.java
        ReadDuplicateWrapper.java
        junctionlibrary
        JunctionSamUtils.java
        barnyard
        digitalallelecounts
        SummarizeUMIBaseQualities.java
        MultiCellDigitalAlleleCountsIterator.java
        SNPUMIBasePileup.java
        SNPUMICellReadIteratorWrapper.java
        SortOrder.java
        DigitalAlleleCountsIterator.java
        DigitalAlleleCounts.java
        LikelihoodUtils.java
        SNPUMIBasePileupIterator.java
        MultiCellDigitalAlleleCounts.java
        SequenceBaseEnum.java
        SNPBasePileUp.java
        ParseBarcodeFile.java
        Utils.java
        DGELongFormatRecord.java
        RnaSeqMtMetrics.java
        GatherMolecularBarcodeDistributionByGene.java
        digitalexpression
        DgeHeaderLibrary.java
        DgeIterator.java
        UMICollection.java
        DgeHeader.java
        DgeHeaderMerger.java
        DgeHeaderCodec.java
        tools
        MatrixTransformI.java
        DGEMatrix.java
        MatrixTransformFactory.java
        DgeHeaderCommand.java
        DGELongFormatRecordCodec.java
        SelectCellsByNumTranscripts.java
        DGECommandLineBase.java
        BarcodeListRetrieval.java
        DigitalExpression.java
        GeneFunctionCommandLineBase.java
        SingleCellRnaSeqMetricsCollector.java
        TranscriptomeException.java
        matrixmarket
        MatrixMarketReader.java
        MatrixMarketWriter.java
        MatrixMarketConstants.java
        annotation
        GatherGeneGCLength.java
        GTFParser.java
        GenomicOrderComparator.java
        GeneFromGTFBuilder.java
        AnnotationUtils.java
        EnhanceGTFRecords.java
        ReduceGtf.java
        RefFlatRecord.java
        GTFReader.java
        FilterGtf.java
        FunctionalData.java
        FunctionalDataProcessor.java
        GTFRecord.java
        CreateIntervalsFiles.java
        ConvertToRefFlat.java
        GQuadruplex.java
        ValidateReference.java
        GeneFromGTF.java
        GeneAnnotationReader.java
        CompareAnnotationFlags.java
        metrics
        CountUnmatchedSampleIndices.java
        GatherReadQualityMetrics.java
        TagReadWithInterval.java
        ReadQualityMetrics.java
        BamTagOfTagCounts.java
        UnmatchedSampleIndexMetrics.java
        ComputeUMISharing.java
        TagReadWithGeneExonFunction.java
        TagReadWithGeneFunction.java
        UmiSharingMetrics.java
        RnaSeqMetricsKey.java
        TagOfTagResults.java
        BamTagHistogram.java
        umisharing
        ParentEditDistanceMatcher.java
        cluster
        MergeDgeOutputWriter.java
        CellSizeWriter.java
        SparseDge.java
        GeneEnumerator.java
        MergeDgeSparse.java
        vcftools
        CreateSnpIntervalFromVcf.java
    - groovy
      - transform
        Generated.java
  - tests
    - java
      - org
        broadinstitute
        dropseqrna
        beadsynthesis
        GenerateRandomUMIs.java
        DetectPrimerTest.java
        DetectBeadSynthesisErrorsTest.java
        BeadSynthesisErrorDataTest.java
        IntendedSequenceBuilderTest.java
        utils
        RetainRemoveListTest.java
        FilterBamByTagTest.java
        FilterBamTest.java
        SequenceDictionaryIntersectionTest.java
        BaseRangeTest.java
        statistics
        BinomialStatisticsTest.java
        BaseQualityFilterTest.java
        VariantContextSingletonFilterTest.java
        PeekableGroupingIteratorTest.java
        OrderAssertingIteratorTest.java
        alignmentcomparison
        CompareDropSeqAlignmentsTest.java
        BaseDistributionAtReadPositionTest.java
        SplitBamByCellTest.java
        TestUtils.java
        readiterators
        BamTagCountingIteratorTest.java
        AggregatedTagOrderIteratorTest.java
        MapQualityProcessorTest.java
        GeneFunctionIteratorWrapperTest.java
        BAMTagValueFilterTest.java
        DEIteratorUtilsTest.java
        FunctionalDataProcessorTest.java
        TagOrderIteratorTest.java
        UMIReadIteratorTest.java
        GeneStrandFilteringIteratorTest.java
        TagValueFilteringIteratorTest.java
        ChromosomeFilteringIteratorTest.java
        TagValueProcessorTest.java
        EditDistanceFilteringIteratorTest.java
        CellBarcodeFilteringIteratorTest.java
        IntervalTagComparatorTest.java
        TagBamWithReadSequenceExtendedTest.java
        editdistance
        CollapseBarcodesInPlaceTest.java
        CollapseTagWithContextTest.java
        LevenshteinDistanceResultTest.java
        BarcodeSubstitutionCollectionTest.java
        DetectBeadSubstitutionErrorsTest.java
        MapBarcodesByEditDistanceTest.java
        BottomUpCollapseResultTest.java
        BarcodeWithCountTest.java
        modularfileparser
        ParserTest.java
        referencetools
        MaskReferenceSequenceTest.java
        readpairs
        ReadPairTest.java
        ObjectCounterTest.java
        FileListParsingUtilsTest.java
        readtrimming
        TrimStartingSequenceTest.java
        TrimSequenceTemplateTest.java
        PolyAWithAdapterFinderTest.java
        PolyAFinderTest.java
        PolyATrimmerTest.java
        spermseq
        metrics
        spermalleles
        GenotypeSpermTest.java
        duplicates
        SpermSeqMarkDuplicatesTest.java
        barnyard
        digitalallelecounts
        MultiCellDigitalAlleleCountsTest.java
        MultiCellDigitalAlleleCountsIteratorTest.java
        SNPUMIBasePileupTest.java
        SNPUMIBasePileupIteratorTest.java
        DigitalAlleleCountsTest.java
        SummarizeUMIBaseQualitiesTest.java
        SNPUMICellReadIteratorWrapperTest.java
        DigitalAlleleCountsIteratorTest.java
        LikelihoodUtilsTest.java
        SelectCellsByNumTranscriptsTest.java
        SingleCellRnaSeqMetricsCollectorTest.java
        BarcodeListRetrievalTest.java
        digitalexpression
        DgeHeaderMergerTest.java
        UMICollectionTest.java
        DgeHeaderCodecTest.java
        tools
        MatrixTransformTest.java
        DGEMatrixTest.java
        DgeIteratorTest.java
        DigitalExpressionTest.java
        GatherMolecularBarcodeDistributionByGeneTest.java
        matrixmarket
        MatrixMarketReaderWriterTest.java
        annotation
        ValidateReferenceTest.java
        GatherGeneGCLengthTest.java
        FindGQuadruplexTest.java
        CreateIntervalsFilesTest.java
        AnnotationUtilsTest.java
        ConvertToRefFlatTest.java
        GeneAnnotationReaderTest.java
        RefFlatRecordTest.java
        GTFRecordTest.java
        GQuadruplexTest.java
        ReduceGtfTest.java
        EnhanceGTFRecordsTest.java
        GTFReaderTest.java
        FilterGtfTest.java
        metrics
        BamTagOfTagCountsTest.java
        GatherReadQualityMetricsTest.java
        TagReadWithGeneFunctionTest.java
        ComputeUMISharingTest.java
        TagReadWithIntervalTest.java
        BamTagHistogramTest.java
        CountUnmatchedSampleIndicesTest.java
        TagReadWithGeneExonFunctionTest.java
        cluster
        MergeDgeSparseTest.java
        vcftools
        CreateSnpIntervalFromVcfTest.java
  - scripts
    - Drop-seq_alignment.sh
    - public_clp_template.sh
    - create_Drop-seq_reference_metadata.sh
- build.xml
- testdata
  - org
    - broadinstitute
      - spermseq
        spermalleles
        GenotypeSperm.cellBarcodes.txt
        GenotypeSperm.result.txt
        metrics
        duplicates
        test_sorted.bam
        TGATTAGGG_GAGGGGGGAGGGATAG_chr1.bam
      - dropseq
        beadsynthesis
        DetectBeadSynthesisErrors.summary
        DetectBeadSynthesisErrors.report
        DetectBeadSynthesisErrors.stats
        utils
        unmapped_paired_reads.bam
        human_mouse_smaller.contig_counts.txt
        unpaired_reads_tagged_filtered.bam
        N701_small.cell_barcodes_100_reads.txt
        paired_reads_tagged.cell_barcodes.txt
        N701_small.cell_barcodes_100_transcripts.txt
        alignmentcomparison
        new_alignment.bam
        contig_report.txt
        gene_report.txt
        old_alignment.bam
        SequenceDictionaryIntersectionTest
        no_chr.sam
        no_chr.interval_list
        chr.interval_list
        chr.vcf
        chr.sam
        no_chr.vcf
        unpaired_reads_tagged.bam
        paired_reads_tagged_filtered.bam
        human_mouse_smaller.cell_barcodes_100_transcripts.txt
        BaseDistributionAtReadPosition.expected_output.txt
        referencetools
        fake_ref.fasta
        fake_ref.filtered_by_intervals.fasta
        fake_ref.fasta.fai
        fake_ref.intervals
        fake_ref.filtered_by_contigs.fasta
        fake_ref.dict
        human_mouse_smaller.cell_barcodes_100_reads.txt
        SplitBamByCell.report
        unpaired_reads_tagged_filtered_AAAGTAGAGTGG.bam
        paired_reads_tagged.bam
        readtrimming
        N701.subset.tagged_filtered.sam
        N701.old_trimmer.sam
        N701.subset.tagged_filtered_start_seq_trimmed.sam
        N701.new_trimmer.sam
        barnyard
        digitalallelecounts
        hek_cells_cell_barcodes.txt
        hek_cells_2snps.intervals
        hek_5_cell_2_snp_testdata_retagged.bam
        smallTest_retagged.sam
        clusters.txt
        smallTest_snpUMIPileUp_retagged.sam
        smallTest_snpUMIPileUp.sam
        DgeStrandFuncTest
        both.digital_expression_summary.txt
        strand.digital_expression_summary.txt
        func.digital_expression_summary.txt
        neither.digital_expression_summary.txt
        DgeStrandFuncTest.cell_barcodes
        annotation
        test.bam.bai
        test.bam
        test.gtf.gz
        metrics
        NucBYReg4Reg.MOUSE.GCTAAGTAAGAT.Elp2.tagged.bam
        compute_umi_sharing.multi_count_tag.1.false.umi_sharing_metrics
        NucBYReg4Reg.MOUSE.GCTAAGTAAGAT.Elp2.fixed.bam
        compute_umi_sharing.single_count_tag.unmapped.1.umi_sharing_metrics
        5cell3gene.counts_per_NM.txt
        mm10_Elp2.gtf
        CountUnmatchedSampleIndices
        expected.unmatched_index_metrics
        compute_umi_sharing.multi_count_tag.0.true.umi_sharing_metrics
        compute_umi_sharing.multi_count_tag.1.true.umi_sharing_metrics
        NucBYReg4Reg.MOUSE.GCTAAGTAAGAT.Elp2.intervals
        compute_umi_sharing.multi_count_tag.0.false.umi_sharing_metrics
        compute_umi_sharing.single_count_tag.mapped.1.umi_sharing_metrics
        compute_umi_sharing.single_count_tag.unmapped.0.umi_sharing_metrics
        NucBYReg4Reg.MOUSE.GCTAAGTAAGAT.Elp2.gene_function_tagged.bam
        5cell3gene.read_quality_metrics.txt
        5cell3gene.counts_per_XC.txt
        compute_umi_sharing.single_count_tag.mapped.0.umi_sharing_metrics
        cluster
        P60ENTSTNRep3P1.subset.auto.digital_expression.txt
        test.yaml
        P60ENTSTNRep1P1.subset.auto.digital_expression.txt
        selected_cells.1.txt
        P60ENTSTNRep4P1.subset.auto.digital_expression.txt
        selected_cells.2.txt.gz
      - transcriptome
        utils
        editdistance
        potential_intendedBC.txt
        repairedBC.txt
        umi_test_data.merged_barcodes_ed1.txt
        umi_test_data.merged_barcodes_ed0.txt
        inEditDistSmall.txt
        indel_barcode_repair_answer_key.txt
        hg19.dict
        modularfileparser
        ClozUK_CNV_Loci.txt
        testBed.bed.txt
        barnyard
        tag_of_tag_XC_NM.txt
        tag_of_tag_XC_XM.txt
        5cell3gene.dge_long.txt
        1_cell.dge.txt
        5cell3gene_retagged.molBC_ed0.txt
        5cell3gene.dge_summary.txt
        5cell3gene.dge.txt
        5cell3gene.cellbarcodes.txt
        collapsed_UMIs.txt
        digitalexpression
        dge_example1_filtered.txt.gz
        dge_example1.txt.gz
        metagene_dge_example1.txt.gz
        retainGenes.txt
        dge_example_merged2.txt.gz
        tenXMatrixMarketGenes.tsv
        retainCells.txt
        dge_example3.txt.gz
        UMICollectionFile.txt.gz
        tenXMatrixMarket.mtx
        removeGenes.txt
        dge_example2.txt.gz
        tenXMatrixMarketCellBarcodes.tsv
        dge_example_merged.txt.gz
        test_with_header.dge.txt.gz
        removeCells.txt
        5cell3gene_retagged.molBC.txt
        SingleCellRnaSeqMetricsCollector.cellBarcodes.txt
        testTagSorting.bam
        mm10.rRNA.intervals
        5cell3gene_with_extras.cellbarcodes.txt
        SingleCellRnaSeqMetricsCollector.expected_output.txt
        annotation
        FilterGtfInput.dict
        ERCC92.gtf.gz
        human_SNORD18.gtf.gz
        human_ISG15.gtf.gz
        gtf_no_exon.gtf
        FilterGtfInput.gtf
        mm10.dict
        human_APITD1.gtf.gz
        human_ISG15.refFlat.gz
        human_g1k_v37_decoy_50.dict
        ERCC92.fasta.gz
        human_APITD1_both.gtf.gz
        Homo_sapiens.GRCh37.74.refFlat.gz
        ERCC92.dict
        buggy.gtf
        buggy.fasta
        human_APITD1_both.gtf.reduced.gz
        human_ISG15_FAM41C.gtf.gz
        Homo_sapiens.GRCh37.74.refFlat
        human_AL592188.5.gtf.gz
      - vcftools
        test.vcf
- LICENSE
- lib
  - test
- public.iml
- .travis.yml
- README.md
- .gitignore
- doc

/*
 * MIT License
 *
 * Copyright 2019 Broad Institute
 *
 * Permission is hereby granted, free of charge, to any person obtaining a copy
 * of this software and associated documentation files (the "Software"), to deal
 * in the Software without restriction, including without limitation the rights
 * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 * copies of the Software, and to permit persons to whom the Software is
 * furnished to do so, subject to the following conditions:
 *
 * The above copyright notice and this permission notice shall be included in all
 * copies or substantial portions of the Software.
 *
 * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
 * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
 * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
 * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
 * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
 * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 * SOFTWARE.
 */
package org.broadinstitute.dropseqrna.utils;

import java.io.File;
import java.io.PrintStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import htsjdk.samtools.SAMFileHeader;
import htsjdk.samtools.SAMFileWriter;
import htsjdk.samtools.SAMFileWriterFactory;
import htsjdk.samtools.SAMRecord;
import htsjdk.samtools.util.*;
import org.apache.commons.math3.stat.StatUtils;
import org.broadinstitute.barclay.argparser.Argument;
import org.broadinstitute.barclay.argparser.CommandLineProgramProperties;
import org.broadinstitute.dropseqrna.TranscriptomeException;
import org.broadinstitute.dropseqrna.cmdline.DropSeq;
import org.broadinstitute.dropseqrna.utils.io.ErrorCheckingPrintStream;
import org.broadinstitute.dropseqrna.utils.readiterators.SamFileMergeUtil;
import org.broadinstitute.dropseqrna.utils.readiterators.SamHeaderAndIterator;

import picard.cmdline.CommandLineProgram;
import picard.cmdline.StandardOptionDefinitions;

/**
 *
 * @author skashin
 *
 */

@CommandLineProgramProperties(
        summary = "Splits input BAM file(s) into NUM_OUTPUTS output BAM files, " +
              "in such a way that all the reads for each cell barcode are in exactly one output BAM file",
        oneLineSummary = "Splits input BAM file(s) by cell barcode",
        programGroup = DropSeq.class
)

public class SplitBamByCell extends CommandLineProgram {

    private static final Log log = Log.getInstance(SplitBamByCell.class);

    @Argument(shortName = StandardOptionDefinitions.INPUT_SHORT_NAME, doc = "The input SAM or BAM files to analyze.  They must all have the same sort order", minElements = 1)
    public List<File> INPUT;

    @Argument(doc="The tag to examine in order to partition reads.")
    public String SPLIT_TAG="XC";

    @Argument(doc="Number of output files to create")
    public Integer NUM_OUTPUTS;

    @Argument(doc="Template for output file names.  If OUTPUT_LIST is specified, and OUTPUT is a relative path," +
            " output file paths will be relative to the directory of the OUTPUT_LIST.")
    public File OUTPUT;

    @Argument(optional=true, doc="For each output file, this string in the OUTPUT template will be replaced with an integer.")
    public String OUTPUT_SLUG="__SPLITNUM__";

    @Argument(optional=true, doc="If specified, this file will be created, with NUM_OUTPUTS lines, containing all the output files created.")
    public File OUTPUT_LIST;

    @Argument(optional=true, doc="If specified, this file will be created, containing split BAM files' read count distribution stats.")
    public File REPORT;

    private SAMFileWriterFactory samWriterFactory = null;

    @Override
    protected int doWork() {
        if (!OUTPUT.getPath().contains(OUTPUT_SLUG)) {
            throw new IllegalArgumentException(OUTPUT + " does not contain the replacement token " + OUTPUT_SLUG);
        }

        samWriterFactory = new SAMFileWriterFactory().setCreateIndex(CREATE_INDEX);

        Map<String, Integer> cellBarcodeWriterIdxMap = new HashMap<>();
        List<SAMFileInfo> writerInfoList = new ArrayList<>();

        splitBAMs(cellBarcodeWriterIdxMap, writerInfoList);

        if (OUTPUT_LIST != null) {
            writeOutputList(writerInfoList);
        }
        if (REPORT != null) {
            writeReport(writerInfoList);
        }

        return 0;
    }

    private SAMFileInfo createWriterInfo(final SAMFileHeader header, int writerIdx) {
        final String outputPath = OUTPUT.toString().replace(OUTPUT_SLUG, String.valueOf(writerIdx));
        final File samFile = new File(outputPath);
        final File actualFileToOpen;
        if (OUTPUT_LIST == null) {
            actualFileToOpen = samFile;
        } else {
            actualFileToOpen = FileListParsingUtils.resolveFilePath(OUTPUT_LIST.getParentFile(), samFile);
        }
        final SAMFileWriter samFileWriter = samWriterFactory.makeSAMOrBAMWriter(header, true, actualFileToOpen);
        return new SAMFileInfo(samFile, samFileWriter, 0);
    }

    private void splitBAMs (final Map<String, Integer> cellBarcodeWriterIdxMap, final List<SAMFileInfo> writerInfoList) {
        log.info("Splitting BAM files");
        final SamHeaderAndIterator headerAndIterator = SamFileMergeUtil.mergeInputs(INPUT, true);
        SamHeaderUtil.addPgRecord(headerAndIterator.header, this);

        ProgressLogger pl = new ProgressLogger(log);
        for (SAMRecord r: new IterableAdapter<>(headerAndIterator.iterator)) {
            pl.record(r);
            final String cellBarcode = r.getStringAttribute(SPLIT_TAG);
            if (cellBarcode == null) {
                throw new IllegalArgumentException("Read " + r.getReadName() + " does not contain the attribute " + SPLIT_TAG);
            }
            Integer writerIdx = cellBarcodeWriterIdxMap.get(cellBarcode);
            if (writerIdx == null) {
                if (writerInfoList.size() < NUM_OUTPUTS) {
                    writerIdx = writerInfoList.size();
                    writerInfoList.add(createWriterInfo(headerAndIterator.header, writerIdx));
                } else {
                    Integer minCount = null;
                    for (int idx=0; idx<writerInfoList.size(); idx++) {
                        int readCount = writerInfoList.get(idx).getReadCount();
                        if (minCount == null || readCount < minCount) {
                            writerIdx = idx;
                            minCount = readCount;
                        }
                    }
                }
                cellBarcodeWriterIdxMap.put(cellBarcode, writerIdx);
            }
            if (writerIdx == null) {
                throw new TranscriptomeException("Failed to get a writer for read " + r.getReadName());
            }
            final SAMFileInfo writerInfo = writerInfoList.get(writerIdx);
            writerInfo.getWriter().addAlignment(r);
            writerInfo.incrementReadCount();
        }
        CloserUtil.close(headerAndIterator.iterator);
        for (SAMFileInfo writerInfo : writerInfoList) {
            writerInfo.getWriter().close();
        }
    }

    private void writeOutputList(final List<SAMFileInfo> writerInfoList) {
        final PrintStream out = new ErrorCheckingPrintStream(IOUtil.openFileForWriting(OUTPUT_LIST));

        for (SAMFileInfo writerInfo : writerInfoList) {
            out.println(writerInfo.getSamFile().toString());
        }

        out.close();
    }

    private void writeReport(final List<SAMFileInfo> writerInfoList) {
        final PrintStream out = new ErrorCheckingPrintStream(IOUtil.openFileForWriting(REPORT));
        out.println("BAM_INDEX" + "\t" + "NUM_READS");

        final double[] readCounts = new double[writerInfoList.size()];
        for (int idx=0; idx<writerInfoList.size(); idx++) {
            readCounts[idx] = writerInfoList.get(idx).getReadCount();
            out.println(idx + "\t" + (int)readCounts[idx]);
        }
        out.println("mean = " + StrictMath.round(StatUtils.mean(readCounts)));
        out.println("variance = " + StrictMath.round(StatUtils.variance(readCounts)));

        out.close();
    }

    private static class SAMFileInfo {
        private File samFile;
        private SAMFileWriter writer;
        int readCount;

        private SAMFileInfo(File samFile, SAMFileWriter writer, int readCount) {
            this.samFile = samFile;
            this.writer = writer;
            this.readCount = readCount;
        }

        public File getSamFile() {
            return samFile;
        }

        public SAMFileWriter getWriter() {
            return writer;
        }

        public int getReadCount() {
            return readCount;
        }

        public void incrementReadCount() {
            readCount++;
        }
    }
}