python source code of pa

attn2d-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - ISSUE_TEMPLATE
    - how-to-question.md
    - feature_request.md
    - documentation.md
    - bug_report.md
  - ISSUE_TEMPLATE.md
  - workflows
    - build.yml
    - build_windows.yml
- preprocess.py
- validate.py
- examples
  - waitk
    - models
      - waitk_transformer.py
      - __init__.py
    - generators
      - __init__.py
      - waitk_sequence_generator.py
    - tasks
      - waitk_task.py
      - __init__.py
    - __init__.py
    - README.md
    - modules
      - multihead_attention.py
      - __init__.py
      - transformer_layers.py
  - __init__.py
  - pervasive
    - criterions
      - grid_cross_entropy.py
      - archive
        multicontextt_cross_entropy.py
        grid_cross_entropy_aove
        multi_cross_entropy.py
        search_cross_entropy.py
        simultaneous_hmm_loss.py
        regualrized_attention.py
        grid_cross_entropy.py
        simultaneous_loss.py
        qv_cross_entropy.py
        above_path_cross_entropy.py
        weighted_label_smoothed_cross_entropy.py
        dynamic_waitk_criterion.py
        sim_translation_loss.py
        pa_grid_cross_entropy.py
        dynamic_ll_loss.py
        align_label_smoothed_cross_entropy.py
        adpative_cross_entropy.py
        hmm_loss.py
      - simultrans_dynamic_loss.py
      - __init__.py
    - models
      - simultrans_pervasive_oracle.py
      - archive
        transformer_cumul.py
        shallow_oracle_attn2d.py
        attn2d_waitk_v2.py
        attn2d_dynamic_v2.py
        double_attn2d_dynamic_ll.py
        attn2d_dynamic.py
        attn2d_sim_hmm.py
        attn2d_dynamic_ll.py
        tmp_dynamic
        above_transformer.py
        attn2d_waitk.py
        attn2d_sim.py
      - pervasive_attention.py
      - __init__.py
    - generators
      - __init__.py
      - dynamic_simultaneous_sequence_generator.py
      - waitk_sequence_generator.py
    - tasks
      - waitk_task.py
      - __init__.py
      - dynamic_simultaneous_translation.py
    - __init__.py
    - README.md
    - modules
      - pa_controller.py
      - masked_convolution.py
      - convnet.py
      - archive
        densenet_cascade.py
        pa_gatenet4.py
        resnet_addup_nonorm4.py
        dilated_resnet.py
        resnet_addup_nonorm2_wbias.py
        resnet_addup3.py
        pa_gatenet5.py
        pa_resnet.py
        resnet_addup_nonorm3.py
        pa_gatenet11.py
        pa_gatenet9.py
        dilated_resnet2.py
        resnet_addup_nonorm2_all.py
        pa_gatenet6.py
        pa_gatenet12.py
        pa_gatenet7.py
        pa_gatenet8.py
        resnet_lite.py
        densenet_ffn.py
        expanding_resnet.py
        pa_gatenet.py
        resnet_addup_nonorm.py
        densenet_nonorm.py
        densenet_bn.py
        densenet_pono_kmax.py
        resnet3.py
        resnet_addup2.py
        pa_gatenet2.py
        densenet_ln.py
        resnet_addup_nonorm2_rev.py
        resnet_addup.py
        resnet_renorm.py
        resnet_addup_nonorm2_gated_noffn.py
        fav_resnet.py
        resnet5.py
        densenet.py
        resnet_addup_nonorm2_gated.py
        densenet_pono.py
        resnet2.py
        resnet6.py
        pa_scalenet2.py
        densenet_ffn_pono.py
        qv_v1.py
        resnet4.py
        qv.py
        pa_gatenet10.py
        pa_scalenet.py
        pa_gatenet3.py
      - resnet.py
      - densenet.py
      - aggregators.py
      - __init__.py
      - oracle.py
      - tiny_resnet.py
      - wip
        dynamic_halters.py
        fb_controls.py
        ll_controls.py
        dynamic_controls.py
        tinyPA.py
        oracle_controls.py
        hmm_controls3.py
        hmm_controls.py
        mini_masked_convolution.py
        ConvNetActions.py
        hmm_controls2.py
        tinyPA3.py
        shallow_controller.py
  - .gitignore
- .gitmodules
- fairseq_cli
  - preprocess.py
  - validate.py
  - eval_lm.py
  - generate.py
  - score.py
  - train.py
  - __init__.py
  - interactive.py
- LICENSE
- eval_lm.py
- CONTRIBUTING.md
- generate.py
- setup.py
- score.py
- train.py
- README.md
- tests
  - test_iterators.py
  - test_lstm_jitable.py
  - test_utils.py
  - transformer_quantization_config.yaml
  - test_bmuf.py
  - test_binaries.py
  - test_character_token_embedder.py
  - test_sequence_scorer.py
  - test_reproducibility.py
  - test_convtbc.py
  - test_resampling_dataset.py
  - test_multihead_attention.py
  - test_memory_efficient_fp16.py
  - test_token_block_dataset.py
  - test_sparse_multihead_attention.py
  - test_multi_corpus_sampled_dataset.py
  - test_concat_dataset.py
  - test_average_checkpoints.py
  - test_backtranslation_dataset.py
  - test_dictionary.py
  - test_noising.py
  - test_label_smoothing.py
  - speech_recognition
    - test_vggtransformer.py
    - test_collaters.py
    - test_cross_entropy.py
    - asr_test_base.py
    - __init__.py
  - __init__.py
  - test_metrics.py
  - utils.py
  - test_file_io.py
  - test_train.py
  - test_sequence_generator.py
  - test_export.py
- CODE_OF_CONDUCT.md
- scripts
  - spm_encode.py
  - convert_model.lua
  - average_checkpoints.py
  - convert_dictionary.lua
  - compare_namespaces.py
  - rm_pt.py
  - spm_decode.py
  - compound_split_bleu.sh
  - build_sym_alignment.py
  - sacrebleu_pregen.sh
  - split_train_valid_docs.py
  - __init__.py
  - count_docs.py
  - shard_docs.py
  - read_binarized.py
  - spm_train.py
- pyproject.toml
- fairseq
  - sequence_generator.py
  - file_io.py
  - incremental_decoding_utils.py
  - criterions
    - sentence_prediction.py
    - legacy_masked_lm.py
    - binary_cross_entropy.py
    - sentence_ranking.py
    - composite_loss.py
    - masked_lm.py
    - fairseq_criterion.py
    - cross_entropy.py
    - adaptive_loss.py
    - nat_loss.py
    - __init__.py
    - label_smoothed_cross_entropy.py
    - label_smoothed_cross_entropy_with_alignment.py
  - tokenizer.py
  - optim
    - lr_scheduler
      - inverse_square_root_schedule.py
      - tri_stage_lr_scheduler.py
      - fixed_schedule.py
      - triangular_lr_scheduler.py
      - fairseq_lr_scheduler.py
      - cosine_lr_scheduler.py
      - __init__.py
      - polynomial_decay_schedule.py
      - reduce_lr_on_plateau.py
    - fused_lamb.py
    - nag.py
    - sgd.py
    - adam.py
    - fused_adam.py
    - fairseq_optimizer.py
    - adafactor.py
    - bmuf.py
    - adagrad.py
    - __init__.py
    - adadelta.py
    - adamax.py
    - fp16_optimizer.py
  - search.py
  - hub_utils.py
  - file_utils.py
  - models
    - roberta
      - hub_interface.py
      - model_xlmr.py
      - alignment_utils.py
      - model.py
      - __init__.py
      - model_camembert.py
    - fconv_lm.py
    - transformer.py
    - lightconv_lm.py
    - wav2vec.py
    - transformer_lm.py
    - fairseq_model.py
    - transformer_from_pretrained_xlm.py
    - masked_lm.py
    - distributed_fairseq_model.py
    - lstm_lm.py
    - bart
      - hub_interface.py
      - model.py
      - __init__.py
    - fairseq_decoder.py
    - nat
      - levenshtein_transformer.py
      - nonautoregressive_transformer.py
      - iterative_nonautoregressive_transformer.py
      - __init__.py
      - fairseq_nat_model.py
      - cmlm_transformer.py
      - insertion_transformer.py
      - levenshtein_utils.py
      - nonautoregressive_ensembles.py
      - nat_crf_transformer.py
    - fconv_self_att.py
    - lstm.py
    - fairseq_incremental_decoder.py
    - multilingual_transformer.py
    - __init__.py
    - fconv.py
    - lightconv.py
    - huggingface
      - hf_gpt2.py
      - __init__.py
    - model_utils.py
    - composite_encoder.py
    - fairseq_encoder.py
  - nan_detector.py
  - options.py
  - distributed_utils.py
  - iterative_refinement_generator.py
  - binarizer.py
  - registry.py
  - data
    - lru_cache_dataset.py
    - truncate_dataset.py
    - nested_dictionary_dataset.py
    - concat_dataset.py
    - transform_eos_dataset.py
    - mask_tokens_dataset.py
    - concat_sentences_dataset.py
    - language_pair_dataset.py
    - resampling_dataset.py
    - sort_dataset.py
    - pad_dataset.py
    - indexed_dataset.py
    - token_block_dataset.py
    - replace_dataset.py
    - prepend_dataset.py
    - transform_eos_lang_pair_dataset.py
    - lm_context_window_dataset.py
    - prepend_token_dataset.py
    - list_dataset.py
    - encoders
      - nltk_tokenizer.py
      - characters.py
      - subword_nmt_bpe.py
      - space_tokenizer.py
      - hf_byte_bpe.py
      - sentencepiece_bpe.py
      - gpt2_bpe_utils.py
      - gpt2_bpe.py
      - fastbpe.py
      - hf_bert_bpe.py
      - __init__.py
      - utils.py
      - bytes.py
      - moses_tokenizer.py
      - byte_bpe.py
      - byte_utils.py
    - id_dataset.py
    - multi_corpus_sampled_dataset.py
    - colorize_dataset.py
    - backtranslation_dataset.py
    - append_token_dataset.py
    - audio
      - raw_audio_dataset.py
      - __init__.py
    - strip_token_dataset.py
    - base_wrapper_dataset.py
    - token_block_utils_fast.pyx
    - __init__.py
    - data_utils_fast.pyx
    - monolingual_dataset.py
    - legacy
      - block_pair_dataset.py
      - __init__.py
      - masked_lm_dictionary.py
      - masked_lm_dataset.py
    - raw_label_dataset.py
    - round_robin_zip_datasets.py
    - roll_dataset.py
    - offset_tokens_dataset.py
    - fairseq_dataset.py
    - dictionary.py
    - iterators.py
    - denoising_dataset.py
    - data_utils.py
    - num_samples_dataset.py
    - subsample_dataset.py
    - plasma_utils.py
    - noising.py
    - numel_dataset.py
  - clib
    - libnat_cuda
      - binding.cpp
      - edit_dist.h
      - edit_dist.cu
    - libbleu
      - module.cpp
      - libbleu.cpp
    - libnat
      - edit_dist.cpp
  - tasks
    - sentence_prediction.py
    - semisupervised_translation.py
    - legacy_masked_lm.py
    - language_modeling.py
    - translation_from_pretrained_bart.py
    - fairseq_task.py
    - denoising.py
    - multilingual_translation.py
    - sentence_ranking.py
    - audio_pretraining.py
    - masked_lm.py
    - multilingual_denoising.py
    - multilingual_masked_lm.py
    - translation.py
    - __init__.py
    - cross_lingual_lm.py
    - translation_lev.py
    - translation_from_pretrained_xlm.py
  - __init__.py
  - utils.py
  - sequence_scorer.py
  - checkpoint_utils.py
  - pdb.py
  - trainer.py
  - model_parallel
    - criterions
      - vocab_parallel_cross_entropy.py
      - __init__.py
    - models
      - transformer.py
      - transformer_lm.py
      - __init__.py
    - __init__.py
    - modules
      - transformer_layer.py
      - multihead_attention.py
      - __init__.py
    - megatron_trainer.py
  - bleu.py
  - modules
    - conv_tbc.py
    - dynamic_crf_layer.py
    - adaptive_softmax.py
    - transformer_layer.py
    - downsampled_multihead_attention.py
    - layer_norm.py
    - gumbel_vector_quantizer.py
    - sparse_transformer_sentence_encoder.py
    - quantization
      - quantization_options.py
      - scalar
        ops.py
        __init__.py
        utils.py
        modules
        qact.py
        qlinear.py
        qconv.py
        __init__.py
        qemb.py
      - __init__.py
      - pq
        em.py
        pq.py
        __init__.py
        utils.py
        modules
        qlinear.py
        qconv.py
        __init__.py
        qemb.py
    - gelu.py
    - beamable_mm.py
    - cuda_utils.cu
    - grad_multiply.py
    - kmeans_vector_quantizer.py
    - linearized_convolution.py
    - character_token_embedder.py
    - lightconv_layer
      - lightconv_cuda_kernel.cu
      - lightconv_layer.py
      - lightconv_cuda.cuh
      - lightconv_cuda.cpp
      - cuda_function_gen.py
      - setup.py
      - __init__.py
    - lightweight_convolution.py
    - sparse_transformer_sentence_encoder_layer.py
    - cross_entropy.py
    - learned_positional_embedding.py
    - multihead_attention.py
    - fp32_group_norm.py
    - vggblock.py
    - unfold.py
    - __init__.py
    - positional_embedding.py
    - dynamicconv_layer
      - dynamicconv_layer.py
      - cuda_function_gen.py
      - dynamicconv_cuda.cpp
      - dynamiconv_cpu.cpp
      - setup.py
      - dynamicconv_cuda_kernel.cu
      - __init__.py
      - dynamicconv_cuda.cuh
    - quant_noise.py
    - sparse_multihead_attention.py
    - dynamic_convolution.py
    - sinusoidal_positional_embedding.py
    - adaptive_input.py
    - transformer_sentence_encoder_layer.py
    - scalar_bias.py
    - transformer_sentence_encoder.py
  - benchmark
    - dummy_lm.py
    - __init__.py
    - dummy_model.py
    - dummy_masked_lm.py
  - quantization_utils.py
  - logging
    - meters.py
    - metrics.py
    - progress_bar.py
    - __init__.py
  - legacy_distributed_data_parallel.py
- pip-wheel-metadata
  - fairseq.dist-info
    - METADATA
    - top_level.txt
    - LICENSE
    - entry_points.txt
- interactive.py
- .gitignore
- docs
  - lr_scheduler.rst
  - Makefile
  - make.bat
  - docutils.conf
  - data.rst
  - overview.rst
  - tasks.rst
  - getting_started.rst
  - tutorial_classifying_names.rst
  - optim.rst
  - tutorial_simple_lstm.rst
  - criterions.rst
  - command_line_tools.rst
  - modules.rst
  - requirements.txt
  - index.rst
  - conf.py
  - models.rst
  - _static
    - theme_overrides.css
- hubconf.py

# Copyright (c) 2017-present, Facebook, Inc.
# All rights reserved.
#
# This source code is licensed under the license found in the LICENSE file in
# the root directory of this source tree. An additional grant of patent rights
# can be found in the PATENTS file in the same directory.

import torch
import torch.nn as nn
import torch.nn.functional as F

# import torch.utils.checkpoint as cp

from fairseq.modules import (
    MaskedConvolution, MultiheadMaskedConvolution
)


class PAGateNet(nn.Module):
    """ A network of convolutional layers"""

    def __init__(self, num_init_features, args):
        super().__init__()
        num_layers = args.num_layers
        kernel_size = args.kernel_size
        num_features = num_init_features
        self.reduce_channels = Linear(num_features, num_features // args.divide_channels) if args.divide_channels > 1 else None
        num_features = num_features // args.divide_channels
        self.output_channels = num_features
        self.gate_channels = args.gate_channels
        self.gates_ffn = nn.ModuleList([])
        self.gates_attn = nn.ModuleList([])

        self.blocks = nn.ModuleList([])

        self.gate_embeddings = _GateLayer(num_features)
        self.depth_gate = _GateLayer(num_features)

        for _ in range(num_layers):
            self.blocks.append(_Layer(num_features, kernel_size, args))
            self.gates_attn.append(_GateLayer(num_features))
            self.gates_ffn.append(_GateLayer(num_features))

        
    def forward(self, x, 
                encoder_mask=None,
                decoder_mask=None,
                incremental_state=None):
        """
        Input : N, Tt, Ts, C
        Output : N, Tt, Ts, C
        """
        if self.reduce_channels is not None:
            x = self.reduce_channels(x)

        features = self.gate_embeddings(x)
        for layer, gate_ffn, gate_attn in zip(self.blocks, self.gates_ffn, self.gates_attn):
            xffn, xattn = layer(x,
                             encoder_mask=encoder_mask,
                             decoder_mask=decoder_mask,
                             incremental_state=incremental_state)
            features += gate_attn(xattn)
            features += gate_ffn(xffn)
            x = self.depth_gate(x + xattn + xffn)
        return features


class _GateLayer(nn.Module):
    def __init__(self, num_features):
        super().__init__()
        self.linear = Linear(num_features, 2*num_features)

    def forward(self, x):
        return F.glu(self.linear(x), dim=-1)


class _Layer(nn.Module):
    """ Single layer

    num_input_features - number of input channels to the layer
    kernel_size - size of masked convolution, k x (k // 2)
    drop_rate - dropout rate
    """

    def __init__(self, num_features, kernel_size, args):
        super().__init__()
        self.zero_out = args.zero_out_conv_input
        self.drop_rate = args.convolution_dropout
        ffn_dim = args.ffn_dim
        mid_features = args.reduce_dim
        stride = args.conv_stride  
        dilsrc = args.source_dilation
        diltrg = args.target_dilation
        resolution = args.maintain_resolution
        if resolution:
            if not stride == 1:
                raise ValueError('Could not maintain the resolution with stride=%d' % stride)

            # choose the padding accordingly:
            padding_trg = diltrg * (kernel_size - 1) // 2
            padding_src = dilsrc * (kernel_size - 1) // 2
            padding = (padding_trg, padding_src)
        else:
            # must maintain the target resolution:
            padding = (diltrg * (kernel_size - 1) // 2, 0)

        # Reduce dim should be dividible by groups
        self.conv1 = nn.Conv2d(num_features,
                               mid_features,
                               kernel_size=1,
                               stride=1,
                               bias=args.conv_bias)

        self.mconv2 = MaskedConvolution(
            mid_features, num_features,
            kernel_size, args,
            padding=padding,
        )
        self.fc1 = Linear(num_features, ffn_dim)
        self.fc2 = Linear(ffn_dim, num_features)

    def forward(self, x, 
                encoder_mask=None,
                decoder_mask=None,
                incremental_state=None):
        x = x.permute(0, 3, 1, 2)
        # Zero out the conv input
        if self.zero_out and self.training:
            if encoder_mask is not None:
                x = x.masked_fill(encoder_mask.unsqueeze(1).unsqueeze(1), 0)
            if decoder_mask is not None:
                x = x.masked_fill(decoder_mask.unsqueeze(1).unsqueeze(-1), 0)

        # Depthwise separable convolution
        x = self.conv1(x)
        x = self.mconv2(x, incremental_state)
        if self.drop_rate:
            x = F.dropout(x, p=self.drop_rate, training=self.training)

        x = x.permute(0, 2, 3, 1)
        xattn = x
        # FFN:
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        if self.drop_rate:
            x = F.dropout(x, p=self.drop_rate, training=self.training)
        return x, xattn


def Linear(in_features, out_features, bias=True):
    m = nn.Linear(in_features, out_features, bias)
    nn.init.xavier_uniform_(m.weight)
    if bias:
        nn.init.constant_(m.bias, 0.)
    return m