python source code of compute_score

epic-master
- img
- CHANGELOG
- examples
  - epic-overlaps
    - 9h_H3K4me3.regions
    - 3h_H3K4me3.regions
    - 12h_H3K4me3.regions
    - 6h_H3K4me3.regions
    - 18h_H3K4me3.regions
    - 3h_H3K4me3_region.matrix
    - region_overlap_result.csv
    - 24h_H3K4me3.regions
    - 15h_H3K4me3.regions
    - 6h_H3K4me3_region.matrix
    - 21h_H3K4me3.regions
    - 0h_H3K4me3.regions
    - nucleotide_overlap_result.csv
    - 0h_H3K4me3_region.matrix
  - control.bam
  - expected_results.csv
  - genome
    - pretend_genome.fa
  - bed_to_bedpe.py
  - test.bam
  - expected_results_log2fc.csv
- helper_scripts.md
- LICENSE
- bioconda_setup.py
- .gitattributes
- mypy.ini
- setup.py
- epic
  - src
    - find_islands.pyx
    - __init__.py
  - merge
    - merge_helpers.py
    - compute_bed_bins.py
    - __init__.py
    - merge.py
  - statistics
    - add_to_island_expectations_cython.pyx
    - compute_window_score.py
    - fdr.py
    - compute_poisson.py
    - compute_score_threshold.py
    - count_to_pvalue.py
    - compute_values_needed_for_recurrence.py
    - __init__.py
    - add_to_island_expectations.py
    - compute_background_probabilites.py
    - generate_cumulative_distribution.py
  - utils
    - helper_functions.py
    - find_readlength.py
    - __init__.py
  - matrixes
    - matrixes.py
    - __init__.py
  - version.py
  - config
    - genomes.py
    - constants.py
    - data
      - hg19.chrom.sizes
    - logging_settings.py
    - __init__.py
  - windows
    - count
      - count_reads_in_windows.py
      - remove_out_of_bounds_bins.py
      - __init__.py
      - merge_chromosome_dfs.py
    - __init__.py
    - cluster
      - find_islands.py
      - __init__.py
  - blacklist
    - compute_poisson.py
    - __init__.py
  - __init__.py
  - scripts
    - chromsizes
      - braFlo1.chromsizes
      - dm3.chromsizes
      - ochPri3.chromsizes
      - dm6.chromsizes
      - fr2.chromsizes
      - danRer6.chromsizes
      - sacCer3.chromsizes
      - nomLeu3.chromsizes
      - ponAbe2.chromsizes
      - rheMac8.chromsizes
      - sacCer2.chromsizes
      - apiMel1.chromsizes
      - calJac3.chromsizes
      - hg38.chromsizes
      - sacCer1.chromsizes
      - monDom4.chromsizes
      - mm9.chromsizes
      - equCab2.chromsizes
      - eriEur2.chromsizes
      - anoCar2.chromsizes
      - ornAna2.chromsizes
      - balAcu1.chromsizes
      - eriEur1.chromsizes
      - danRer10.chromsizes
      - speTri2.chromsizes
      - taeGut1.chromsizes
      - loxAfr3.chromsizes
      - danRer5.chromsizes
      - xenTro7.chromsizes
      - rn4.chromsizes
      - danRer4.chromsizes
      - tetNig2.chromsizes
      - susScr2.chromsizes
      - echTel2.chromsizes
      - hg18.chromsizes
      - saiBol1.chromsizes
      - mm10.chromsizes
      - cerSim1.chromsizes
      - galVar1.chromsizes
      - aquChr2.chromsizes
      - taeGut2.chromsizes
      - oviAri1.chromsizes
      - hetGla2.chromsizes
      - ce10.chromsizes
      - rheMac3.chromsizes
      - danRer3.chromsizes
      - nasLar1.chromsizes
      - equCab1.chromsizes
      - susScr3.chromsizes
      - oviAri3.chromsizes
      - tetNig1.chromsizes
      - micMur2.chromsizes
      - melGal1.chromsizes
      - gasAcu1.chromsizes
      - ce11.chromsizes
      - melGal5.chromsizes
      - fr1.chromsizes
      - oryCun2.chromsizes
      - rn5.chromsizes
      - oryLat2.chromsizes
      - chlSab2.chromsizes
      - danRer7.chromsizes
      - cavPor3.chromsizes
      - rn6.chromsizes
      - aplCal1.chromsizes
      - myoLuc2.chromsizes
      - priPac1.chromsizes
      - triMan1.chromsizes
      - gorGor4.chromsizes
      - monDom5.chromsizes
      - rheMac2.chromsizes
      - oreNil2.chromsizes
      - hg19.chromsizes
    - genome.snakefile
    - effective_genome_size.py
    - __init__.py
    - effective_sizes
      - calJac1_100.txt
      - ailMel1_75.txt
      - danRer10_100.txt
      - sacCer2_50.txt
      - gasAcu1_36.txt
      - ochPri3_50.txt
      - danRer7_50.txt
      - cerSim1_50.txt
      - ce10_36.txt
      - taeGut2_36.txt
      - ochPri3_100.txt
      - susScr3_36.txt
      - ornAna1_100.txt
      - rheMac2_50.txt
      - oryLat2_75.txt
      - ce11_36.txt
      - micMur2_75.txt
      - echTel2_75.txt
      - tetNig2_75.txt
      - monDom4_50.txt
      - nanPar1_75.txt
      - oryCun2_75.txt
      - micMur2_36.txt
      - gorGor3_75.txt
      - rhiRox1_100.txt
      - aplCal1_50.txt
      - petMar2_36.txt
      - melGal1_50.txt
      - oryCun2_50.txt
      - sorAra2_100.txt
      - monDom5_36.txt
      - gorGor4_36.txt
      - braFlo1_36.txt
      - gorGor4_100.txt
      - dm6_100.txt
      - equCab2_36.txt
      - sacCer2_36.txt
      - nomLeu3_36.txt
      - rheMac8_75.txt
      - danRer5_50.txt
      - gasAcu1_100.txt
      - oviAri3_50.txt
      - eriEur2_75.txt
      - hetGla1_100.txt
      - geoFor1_50.txt
      - dm6_75.txt
      - melGal5_100.txt
      - ornAna1_75.txt
      - oviAri1_36.txt
      - mm10_36.txt
      - nomLeu2_100.txt
      - ornAna2_100.txt
      - danRer4_50.txt
      - sorAra2_75.txt
      - galVar1_36.txt
      - galVar1_50.txt
      - hg18_50.txt
      - ce10_100.txt
      - fr1_100.txt
      - fr2_75.txt
      - calJac3_36.txt
      - susScr2_36.txt
      - dm6_36.txt
      - nomLeu3_100.txt
      - braFlo1_50.txt
      - rn5_50.txt
      - chlSab2_75.txt
      - susScr3_100.txt
      - taeGut1_75.txt
      - ochPri3_75.txt
      - cavPor3_36.txt
      - tetNig1_36.txt
      - ponAbe2_50.txt
      - saiBol1_50.txt
      - tarSyr2_36.txt
      - hg19_50.txt
      - chrPic1_50.txt
      - priPac1_36.txt
      - danRer7_36.txt
      - hetGla1_50.txt
      - oreNil2_75.txt
      - rhiRox1_50.txt
      - aplCal1_75.txt
      - rheMac2_36.txt
      - ce11_100.txt
      - taeGut1_36.txt
      - ponAbe2_100.txt
      - xenTro3_100.txt
      - ornAna2_50.txt
      - oviAri3_36.txt
      - nomLeu1_50.txt
      - xenTro7_75.txt
      - priPac1_75.txt
      - monDom4_75.txt
      - myoLuc2_36.txt
      - calJac1_36.txt
      - equCab1_36.txt
      - saiBol1_36.txt
      - xenTro7_50.txt
      - danRer5_75.txt
      - rn6_100.txt
      - balAcu1_75.txt
      - rheMac8_50.txt
      - ce10_50.txt
      - hg18_100.txt
      - danRer7_100.txt
      - nanPar1_50.txt
      - strPur2_75.txt
      - rn5_75.txt
      - strPur1_36.txt
      - gasAcu1_50.txt
      - galVar1_100.txt
      - saiBol1_100.txt
      - petMar2_100.txt
      - galVar1_75.txt
      - nomLeu3_75.txt
      - gorGor4_75.txt
      - danRer10_36.txt
      - aquChr2_75.txt
      - aquChr2_36.txt
      - balAcu1_50.txt
      - sacCer2_100.txt
      - strPur1_75.txt
      - eriEur2_36.txt
      - oryCun2_100.txt
      - sacCer3_100.txt
      - micMur2_50.txt
      - nomLeu1_36.txt
      - danRer6_75.txt
      - sacCer3_50.txt
      - hg38_100.txt
      - nasLar1_50.txt
      - fr2_36.txt
      - tarSyr2_100.txt
      - oviAri3_100.txt
      - aplCal1_100.txt
      - rheMac8_36.txt
      - eriEur1_36.txt
      - echTel2_36.txt
      - nomLeu3_50.txt
      - tarSyr2_75.txt
      - rn6_75.txt
      - calJac1_50.txt
      - geoFor1_100.txt
      - tetNig1_100.txt
      - dm3_50.txt
      - oryLat2_36.txt
      - mm9_75.txt
      - ornAna1_50.txt
      - rn5_36.txt
      - rhiRox1_36.txt
      - echTel2_100.txt
      - dm3_100.txt
      - gorGor5_36.txt
      - macEug2_75.txt
      - ailMel1_36.txt
      - rn4_50.txt
      - susScr3_75.txt
      - tetNig2_100.txt
      - calJac3_50.txt
      - sorAra2_36.txt
      - tetNig2_50.txt
      - ornAna2_36.txt
      - cavPor3_100.txt
      - macEug2_100.txt
      - myoLuc2_75.txt
      - anoCar2_100.txt
      - priPac1_100.txt
      - rheMac3_36.txt
      - tetNig2_36.txt
      - monDom4_100.txt
      - myoLuc2_100.txt
      - danRer3_75.txt
      - rn4_36.txt
      - danRer6_36.txt
      - strPur1_100.txt
      - chlSab2_36.txt
      - danRer10_50.txt
      - nasLar1_75.txt
      - petMar2_50.txt
      - mm9_100.txt
      - rheMac3_75.txt
      - micMur2_100.txt
      - sacCer1_36.txt
      - hetGla2_100.txt
      - myoLuc2_50.txt
      - aplCal1_36.txt
      - danRer6_100.txt
      - geoFor1_75.txt
      - macEug2_50.txt
      - ornAna2_75.txt
      - petMar1_50.txt
      - gorGor5_100.txt
      - nomLeu2_36.txt
      - mm10_50.txt
      - oryLat2_50.txt
      - speTri2_75.txt
      - macEug2_36.txt
      - danRer6_50.txt
      - ornAna1_36.txt
      - taeGut2_75.txt
      - gorGor3_100.txt
      - dm6_50.txt
      - strPur1_50.txt
      - monDom5_50.txt
      - speTri2_100.txt
      - priPac1_50.txt
      - fr2_50.txt
      - eriEur1_100.txt
      - monDom5_100.txt
      - chrPic1_36.txt
      - ochPri3_36.txt
      - susScr2_50.txt
      - cavPor3_50.txt
      - xenTro3_50.txt
      - eriEur1_50.txt
      - fr1_36.txt
      - hetGla1_36.txt
      - triMan1_75.txt
      - echTel2_50.txt
      - hg18_36.txt
      - cerSim1_75.txt
      - petMar2_75.txt
      - hg19_100.txt
      - ponAbe2_75.txt
      - melGal1_36.txt
      - xenTro3_36.txt
      - danRer7_75.txt
      - geoFor1_36.txt
      - hetGla2_36.txt
      - rn4_100.txt
      - nanPar1_100.txt
      - balAcu1_100.txt
      - ce11_75.txt
      - equCab2_50.txt
      - taeGut1_50.txt
      - tetNig1_75.txt
      - chlSab2_50.txt
      - gasAcu1_75.txt
      - danRer5_36.txt
      - calJac1_75.txt
      - equCab2_75.txt
      - aquChr2_50.txt
      - danRer3_50.txt
      - mm10_75.txt
      - hg38_75.txt
      - triMan1_36.txt
      - sacCer3_75.txt
      - hg18_75.txt
      - anoCar2_36.txt
      - xenTro3_75.txt
      - triMan1_100.txt
      - strPur2_50.txt
      - rn5_100.txt
      - hetGla2_50.txt
      - nasLar1_36.txt
      - balAcu1_36.txt
      - danRer3_36.txt
      - chrPic1_75.txt
      - eriEur2_100.txt
      - danRer3_100.txt
      - aquChr2_100.txt
      - rheMac2_75.txt
      - dm3_75.txt
      - oreNil2_36.txt
      - strPur2_100.txt
      - hetGla2_75.txt
      - mm9_36.txt
      - sacCer3_36.txt
      - tarSyr2_50.txt
      - danRer5_100.txt
      - oreNil2_100.txt
      - xenTro7_36.txt
      - ce10_75.txt
      - saiBol1_75.txt
      - hg19_36.txt
      - melGal5_75.txt
      - equCab2_100.txt
      - cerSim1_36.txt
      - rn6_36.txt
      - rheMac3_50.txt
      - danRer4_75.txt
      - calJac3_100.txt
      - sacCer1_100.txt
      - melGal1_75.txt
      - equCab1_50.txt
      - sorAra2_50.txt
      - anoCar2_50.txt
      - xenTro7_100.txt
      - eriEur2_50.txt
      - petMar1_36.txt
      - nomLeu2_50.txt
      - equCab1_75.txt
      - anoCar2_75.txt
      - oryLat2_100.txt
      - speTri2_36.txt
      - gorGor5_75.txt
      - susScr2_75.txt
      - monDom5_75.txt
      - braFlo1_75.txt
      - fr2_100.txt
      - braFlo1_100.txt
      - oviAri1_100.txt
      - eriEur1_75.txt
      - danRer4_100.txt
      - nanPar1_36.txt
      - nomLeu1_75.txt
      - susScr2_100.txt
      - rheMac8_100.txt
      - triMan1_50.txt
      - hg38_36.txt
      - rn4_75.txt
      - hetGla1_75.txt
      - gorGor3_36.txt
      - susScr3_50.txt
      - mm9_50.txt
      - oreNil2_50.txt
      - melGal5_50.txt
      - monDom4_36.txt
      - mm10_100.txt
      - taeGut2_100.txt
      - sacCer2_75.txt
      - tetNig1_50.txt
      - danRer4_36.txt
      - oviAri1_50.txt
      - strPur2_36.txt
      - gorGor5_50.txt
      - oviAri3_75.txt
      - dm3_36.txt
      - equCab1_100.txt
      - gorGor4_50.txt
      - ailMel1_50.txt
      - fr1_50.txt
      - ce11_50.txt
      - rheMac3_100.txt
      - taeGut2_50.txt
      - rn6_50.txt
      - hg38_50.txt
      - speTri2_50.txt
      - ponAbe2_36.txt
      - oviAri1_75.txt
      - rheMac2_100.txt
      - nomLeu1_100.txt
      - danRer10_75.txt
      - chrPic1_100.txt
      - chlSab2_100.txt
      - oryCun2_36.txt
      - taeGut1_100.txt
      - rhiRox1_75.txt
      - nasLar1_100.txt
      - hg19_75.txt
      - sacCer1_50.txt
      - gorGor3_50.txt
      - melGal5_36.txt
      - calJac3_75.txt
      - fr1_75.txt
      - sacCer1_75.txt
      - nomLeu2_75.txt
      - cavPor3_75.txt
      - petMar1_100.txt
      - cerSim1_100.txt
      - melGal1_100.txt
      - petMar1_75.txt
      - ailMel1_100.txt
    - README.md
    - requirements.txt
    - .gitignore
  - run
    - run_epic.py
    - __init__.py
  - cluster
    - __init__.py
    - cluster.py
  - bigwig
    - create_bigwigs.py
    - __init__.py
- example_pipeline
  - find_regions_for_visualization.py
  - Snakefile
  - scripts
    - add_color_trunks_flanks_valleys_bed.py
  - large_config.yaml
  - envs
    - macs2.yaml
- .travis.yml
- README.md
- tests
  - merge
    - test_compute_bed_bins.py
    - test_epic_merge.py
    - test_add_regions.py
    - test_epic_merge_with_regions.py
  - statistics
    - test_fdr.py
  - utils
    - test_find_readlength.py
  - run_slow_tests.sh
  - run_unittests.sh
  - run_all_tests.sh
  - run_current_test.sh
  - config
    - test_genomes.py
  - windows
    - test_merge_chromosome_dfs.py
    - __init__.py
    - test_count_reads_in_windows.py
  - blacklist
    - test_blacklist.py
  - run_script_tests.sh
  - run_mergepool_tests.sh
  - __init__.py
  - scripts
    - test_overlaps.py
    - test_add_color_trunks_flanks_valleys_bed.py
    - test_overlaps_nucleotides.py
    - test_effective_genome_size.py
  - run_integration_tests.sh
  - run
    - test_merge_chip_and_input.py
    - test_run_epic.py
  - cluster
    - test_cluster.py
    - test_create_cluster_bed.py
  - bigwig
    - test_create_bigwigs.py
  - conftest.py
- bin
  - epic-overlaps
  - epic-preprocess
  - epic-count
  - epic-cluster
  - epic-blacklist
  - epic
  - epic-effective
  - epic-merge
- .gitignore
- docs
  - Makefile
  - img
  - quick_start.rst
  - epic_cluster.rst
  - epic_blacklist.rst
  - epic_merge.rst
  - options.rst
  - output_files.rst
  - basic_intro.rst
  - index.rst
  - conf.py
  - epic_count.rst
  - installation.rst

import logging
from scipy.stats import poisson
from numpy import log

from epic.config.constants import BIN_SIZE, E_VALUE_THRESHOLD
from epic.statistics.generate_cumulative_distribution import generate_cumulative_dist
from epic.statistics.add_to_island_expectations import add_to_island_expectations_dict


def compute_score_threshold(average_window_readcount,
                            island_enriched_threshold,
                            gap_contribution, boundary_contribution,
                            genome_length_in_bins):
    # type: (float, int, float, float, float) -> float
    """
    What does island_expectations do?
    """

    required_p_value = poisson.pmf(island_enriched_threshold,
                                   average_window_readcount)

    prob = boundary_contribution * required_p_value

    score = -log(required_p_value)

    current_scaled_score = int(round(score / BIN_SIZE))

    island_expectations_d = {}  # type: Dict[int, float]
    island_expectations_d[current_scaled_score] = prob * genome_length_in_bins
    island_expectations_d[
        0] = boundary_contribution * genome_length_in_bins / gap_contribution

    current_max_scaled_score = current_scaled_score

    interval = int(1 / BIN_SIZE)
    partial_cumu = 0.0
    logging.info("Finding the score required to consider an island enriched.")
    while (partial_cumu > E_VALUE_THRESHOLD or partial_cumu < 1e-100):

        current_scaled_score += interval
        current_max_scaled_score = current_scaled_score - interval
        # logging.debug(island_expectations_d)

        if current_scaled_score > current_max_scaled_score:

            # logging.debug(island_expectations_d)
            island_expectations_d = add_to_island_expectations_dict(
                average_window_readcount, current_max_scaled_score,
                island_enriched_threshold, island_expectations_d,
                gap_contribution)
            partial_cumu = 0.0001
            current_max_scaled_score += 1000

            if max(island_expectations_d) > interval:
                partial_cumu = sum(
                    [val
                     for idx, val in island_expectations_d.items()
                     if idx > current_max_scaled_score - interval])
            else:
                partial_cumu = sum(island_expectations_d.values())

    logging.debug("Computing cumulative distribution.")
    score_threshold = generate_cumulative_dist(island_expectations_d,
                                               current_max_scaled_score + 1)
    logging.info("Enriched score threshold for islands: " + str(
        score_threshold))
    return score_threshold