python source code of dataloader_read

models-master
- DeepSEA
  - predictor_names.txt
  - beluga
    - predictor_names.txt
    - LICENSE
    - test
      - example.vcf
    - model.py
    - model.yaml
    - create-test.ipynb
  - model_architecture.py
  - predict
    - model.yaml
  - predictor.names
  - variantEffects
    - model.yaml
- .circleci
  - config.yml
  - setup.sh
- MMSplice
  - deltaLogitPSI
    - test.ipynb
    - model.py
    - model.yaml
    - readme.md
  - splicingEfficiency
    - test.ipynb
    - model.py
    - model.yaml
    - readme.md
  - LICENSE
  - modularPredictions
    - test.ipynb
    - features.txt
    - model.py
    - model.yaml
    - readme.md
  - pathogenicity
    - test.ipynb
    - model.py
    - model.yaml
    - readme.md
  - dataloader.py
  - mtsplice
    - features.txt
    - dataloader.py
    - model.py
    - model.yaml
    - readme.md
    - dataloader.yaml
  - README.md
  - dataloader.yaml
- extended_coda
  - dataloader.py
  - model.yaml
  - dataloader.yaml
- SiSp
  - dataloader.py
  - model.yaml
  - dataloader.yaml
- KipoiSplice
  - 4cons
    - features.txt
    - gather.py
    - model_table_cols.json
    - dataloader.py
    - README.md
    - model.yaml
    - dataloader.yaml
  - 4
    - features.txt
    - gather.py
    - model_table_cols.json
    - dataloader.py
    - __init__.py
    - README.md
    - model.yaml
    - dataloader.yaml
- HAL
  - TestModel.ipynb
  - gtf_utils.py
  - dataloader.py
  - fasta_utils.py
  - model.py
  - __init__.py
  - model.yaml
  - readme.md
  - requirements.txt
  - dataloader.yaml
- Optimus_5Prime
  - dataloader.py
  - model.py
  - model.yaml
  - test.py
  - dataloader.yaml
- DeepBind
  - model-template.yaml
  - custom_keras_objects.py
  - LICENSE.txt
  - test_subset.txt
- config.yaml
- pwm_HOCOMOCO
  - model-template.yaml
  - export-pwms.ipynb
  - multi_model_conversion.py
  - models.tsv
  - test_subset.txt
- LICENSE
- Basenji
  - LICENSE
  - test_model.py
  - model.yaml
- labranchor
  - TestModel.ipynb
  - gtf_utils.py
  - dataloader.py
  - fasta_utils.py
  - README.md
  - model.yaml
  - dataloader.yaml
- Divergent421
  - task_names.txt
  - model.yaml
- Framepool
  - test.ipynb
  - usage_example.ipynb
  - dataloader.py
  - model.py
  - model.yaml
  - dataloader.yaml
- MaxEntScan
  - model-template.yaml
  - TestModel.ipynb
  - gtf_utils.py
  - LICENSE
  - dataloader.py
  - fasta_utils.py
  - model.py
  - models.tsv
  - __init__.py
  - readme.md
  - dataloader.yaml
- DeepMEL
  - dataloader.py
  - model.yaml
  - dataloader.yaml
- BPNet-OSKN
  - model.py
  - model.yaml
- SeqVec
  - structure
    - model.py
    - model.yaml
  - embedding
    - dataloader_read_fasta.py
    - dataloader.py
    - model.py
    - model.yaml
    - dataloader.yaml
  - test_subset.txt
  - embedding2structure
    - model.py
    - model.yaml
- CleTimer
  - features.json
  - default
    - test_dataloader.py
    - dataloader.py
    - model.py
    - test_model.py
    - utils.py
    - model.yaml
    - dataloader.yaml
  - LICENSE
  - customBP
    - test_dataloader.py
    - dataloader.py
    - model.py
    - test_model.py
    - utils.py
    - model.yaml
    - dataloader.yaml
  - readme_features.txt
  - utils.py
  - readme.md
  - .gitignore
- lsgkm-SVM
  - model-template.yaml
  - model.py
  - models.tsv
  - test_subset.txt
- Basset
  - convert_Basset_to_pytorch.py
  - test_basset_model.py
  - pretrained_model_reloaded_th.py
  - model.yaml
  - target_labels.txt
- README.md
- AttentiveChrome
  - model-template.yaml
  - dataloader.py
  - models.py
  - models.tsv
  - README.md
  - dataloader.yaml
  - test_subset.txt
- FactorNet
  - FOXA1
    - onePeak_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - multiTask_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - MAX
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_Unique35_DGF_2
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - EGR1
    - onePeak_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - meta_RNAseq_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - E2F1
    - GENCODE_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - CEBPB
    - meta_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_1_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_2_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - HNF4A
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - multiTask_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - template.py
  - FOXA2
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - multiTask_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - Snakefile
  - REST
    - GENCODE_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - GENCODE_Unique35_DGF_2
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - setup.bash
  - models.tsv
  - JUND
    - meta_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - meta_Unique35_DGF_2
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - template
    - template_dataloader.yaml
    - template_model.yaml
    - template_dataloader.py
  - MAFK
    - meta_1_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_1_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_2_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - GABPA
    - metaGENCODE_RNAseq_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - meta_RNAseq_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - NANOG
    - GENCODE_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - CTCF
    - metaGENCODE_RNAseq_Unique35_DGF
      - feature.txt
      - tasks.txt
      - explore_model.ipynb
      - dataloader.py
      - bigwig.txt
      - chip.txt
      - model.yaml
      - dataloader.yaml
      - new.bw
    - meta_RNAseq_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - TAF1
    - GENCODE_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
    - onePeak_Unique35_DGF
      - tasks.txt
      - dataloader.py
      - model.yaml
      - dataloader.yaml
  - test_subset.txt
- tests
  - Snakefile
  - README.md
  - test_all_models.py
- deepTarget
  - tutorial
    - deepTarget-checkpoint.ipynb
  - LICENSE
  - bio_utils.py
  - dataloader.py
  - model.py
  - model.yaml
  - dataloader.yaml
  - deepTarget-tutorial.ipynb
- CpGenie
  - model-template.yaml
  - merged
    - models.txt
    - model.py
    - model.yaml
  - models.tsv
  - test_subset.txt
- shared
  - envs
    - kipoi-py3-keras2.yaml
    - kipoi-py3-keras1.2.yaml
    - models.yaml
    - Singularity
    - Dockerfile
- DeepCpG_DNA
  - Hou2016_HepG2_dna
    - model_config.json
    - dataloader.py
    - model.yaml
    - dataloader.yaml
  - Smallwood2014_serum_dna
    - model_config.json
    - dataloader.py
    - model.yaml
    - dataloader.yaml
  - LICENSE
  - Smallwood2014_2i_dna
    - model_config.json
    - dataloader.py
    - model.yaml
    - dataloader.yaml
  - Hou2016_HCC_dna
    - model_config.json
    - dataloader.py
    - model.yaml
    - dataloader.yaml
  - Hou2016_mESC_dna
    - model_config.json
    - dataloader.py
    - model.yaml
    - dataloader.yaml
  - template
    - dataloader_m.py
    - model_template.yaml
    - dataloader.py
    - dataloader_m_template.yaml
    - prepare_model_yaml.py
    - dataloader.yaml
  - test_subset.txt
- .gitignore
- rbp_eclip
  - model-template.yaml
  - rbps.txt
  - dataloader-template.yaml
  - dataloader.py
  - custom_keras_objects.py
  - models.tsv
  - scripts
    - upload_add_dataloaders.py
    - dump_dataloader_files.py
    - dump_model_files.py
  - readme.md
  - test_subset.txt
- MPRA-DragoNN
  - ConvModel
    - model.yaml
  - DeepFactorizedModel
    - model.yaml

import numpy as np

def read_fasta( fasta_file, split_char=' ', id_field=0 ):
    '''
        Reads in fasta file containing multiple sequences.
        Returns dictionary holding multiple sequences or only single 
        sequence, depending on input file
        In order to retrieve the protein identifier, the header is split 
        after split_char and the field at position id_field is chosen as
        identifier.
    '''
    sequences = dict()
    with open( fasta_file, 'r' ) as fasta_f:
        for line in fasta_f:
            # get uniprot ID from header and create new entry
            if line.startswith('>'):
                uniprot_id = line.replace('>', '').strip().split(split_char)[id_field]
                sequences[ uniprot_id ] = ''
            else:
                # repl. all whie-space chars and join seqs spanning multiple lines
                sequences[ uniprot_id ] += ''.join( line.split() ).upper()

    sequences = sorted(sequences.items(), key=lambda kv: len( sequences[kv[0]] ) )
    identifier, seqs = zip(*sequences)
    seqs = [ np.asarray([seq]) for seq in seqs ]
    #seqs = np.concatenate( seqs )
    print(seqs)
    return { "inputs": seqs,
             "metadata":
                { "id":  identifier }
            }