python source code of elmo_indexer

allennlp-master
- .github
  - ISSUE_TEMPLATE
    - feature_request.md
    - bug_report.md
  - workflows
    - master.yml
    - pull_request.yml
- test_fixtures
  - simple_tagger_with_elmo
    - experiment.json
    - serialization
      - vocabulary
        labels.txt
        non_padded_namespaces.txt
  - elmo
    - lm_embeddings_0.hdf5
    - sentences.json
    - vocab_test.txt
    - elmo_token_embeddings.hdf5
    - config
      - characters_token_embedder.json
    - options.json
    - lm_embeddings_1.hdf5
    - lm_embeddings_2.hdf5
  - basic_classifier
    - embedding_with_trainable_is_false
      - model.tar.gz
    - experiment_seq2vec.jsonnet
    - from_archive_serialization
      - model.tar.gz
    - common.jsonnet
    - serialization
      - best.th
      - vocabulary
        labels.txt
        non_padded_namespaces.txt
        tokens.txt
      - model.tar.gz
    - experiment_from_archive.jsonnet
    - experiment_seq2seq.jsonnet
    - parameters_inspection.json
  - embeddings
    - glove.6B.100d.sample.txt.gz
    - fake_embeddings.5d.txt
    - multi-file-archive.zip
    - multi-file-archive.tar.gz
    - fake_embeddings.5d.txt.bz2
    - fake_embeddings.5d.txt.gz
    - fake_embeddings.5d.txt.tar.gz
    - fake_embeddings.5d.txt.lzma
    - glove.6B.300d.sample.txt.gz
    - fake_embeddings.5d.txt.zip
  - plugins
    - d
      - d.py
      - __init__.py
    - .allennlp_plugins
  - simple_tagger_with_span_f1
    - experiment.json
    - serialization
      - best.th
      - vocabulary
        labels.txt
        test_tokens.txt
        non_padded_namespaces.txt
        tokens.txt
      - model.tar.gz
  - data
    - vocab.zip
    - conll2003.txt
    - babi.txt
    - vocab.tar.gz
    - brown_corpus.txt
    - sequence_tagging.tsv
    - text_classification_json
      - imdb_corpus.jsonl
      - ag_news_corpus.jsonl
      - imdb_corpus2.jsonl
      - integer_labels.jsonl
      - ag_news_corpus_fake_sentiment_labels.jsonl
    - shards
      - sequence_tagging_02.tsv
      - sequence_tagging_00.tsv
      - sequence_tagging_01.tsv
  - __init__.py
  - utf-8_sample
    - utf-8_sample.txt.gz
    - utf-8_sample.txt
    - archives
      - utf-8.tar.gz
      - utf-8.zip
      - utf-8.tar.bz2
      - utf-8.tar.lzma
    - utf-8_sample.txt.zip
  - simple_tagger
    - experiment.json
    - serialization
      - best.th
      - vocabulary
        labels.txt
        non_padded_namespaces.txt
        tokens.txt
      - model.tar.gz
    - model_test_case.jsonnet
    - experiment_with_regularization.json
- Makefile
- mkdocs-skeleton.yml
- .coveragerc
- Dockerfile.test
- codecov.yml
- LICENSE
- dev-requirements.txt
- CONTRIBUTING.md
- STYLE.md
- .flake8
- CHANGELOG.md
- setup.py
- benchmarks
  - data
    - tokenizers
      - character_tokenizer_bench.py
      - __init__.py
    - __init__.py
  - __init__.py
  - pytest.ini
- RELEASE_PROCESS.md
- allennlp
  - training
    - checkpointer.py
    - tensorboard_writer.py
    - util.py
    - optimizers.py
    - scheduler.py
    - learning_rate_schedulers
      - noam.py
      - cosine.py
      - linear_with_warmup.py
      - slanted_triangular.py
      - polynomial_decay.py
      - __init__.py
      - learning_rate_scheduler.py
    - momentum_schedulers
      - inverted_triangular.py
      - __init__.py
      - momentum_scheduler.py
    - metric_tracker.py
    - no_op_trainer.py
    - __init__.py
    - moving_average.py
    - trainer.py
    - metrics
      - spearman_correlation.py
      - mean_absolute_error.py
      - sequence_accuracy.py
      - metric.py
      - fbeta_measure.py
      - rouge.py
      - span_based_f1_measure.py
      - boolean_accuracy.py
      - unigram_recall.py
      - evalb_bracketing_scorer.py
      - entropy.py
      - attachment_scores.py
      - pearson_correlation.py
      - categorical_accuracy.py
      - f1_measure.py
      - __init__.py
      - perplexity.py
      - covariance.py
      - bleu.py
      - average.py
      - auc.py
  - version.py
  - commands
    - evaluate.py
    - subcommand.py
    - predict.py
    - print_results.py
    - train.py
    - __init__.py
    - find_learning_rate.py
    - test_install.py
  - models
    - model.py
    - simple_tagger.py
    - archival.py
    - __init__.py
    - basic_classifier.py
  - common
    - from_params.py
    - lazy.py
    - util.py
    - plugins.py
    - file_utils.py
    - params.py
    - cached_transformers.py
    - __init__.py
    - registrable.py
    - logging.py
    - checks.py
    - tqdm.py
    - testing
      - model_test_case.py
      - test_case.py
      - __init__.py
  - nn
    - util.py
    - activations.py
    - chu_liu_edmonds.py
    - regularizers
      - regularizers.py
      - __init__.py
      - regularizer_applicator.py
      - regularizer.py
    - __init__.py
    - initializers.py
    - beam_search.py
  - interpret
    - attackers
      - input_reduction.py
      - hotflip.py
      - attacker.py
      - __init__.py
      - utils.py
    - saliency_interpreters
      - saliency_interpreter.py
      - integrated_gradient.py
      - simple_gradient.py
      - smooth_gradient.py
      - __init__.py
    - __init__.py
  - predictors
    - predictor.py
    - sentence_tagger.py
    - __init__.py
    - text_classifier.py
  - data
    - fields
      - list_field.py
      - index_field.py
      - namespace_swapping_field.py
      - array_field.py
      - label_field.py
      - adjacency_field.py
      - metadata_field.py
      - text_field.py
      - sequence_label_field.py
      - span_field.py
      - __init__.py
      - field.py
      - sequence_field.py
      - flag_field.py
      - multilabel_field.py
    - dataloader.py
    - token_indexers
      - spacy_indexer.py
      - pretrained_transformer_mismatched_indexer.py
      - single_id_token_indexer.py
      - token_indexer.py
      - elmo_indexer.py
      - token_characters_indexer.py
      - pretrained_transformer_indexer.py
      - __init__.py
    - instance.py
    - batch.py
    - tokenizers
      - tokenizer.py
      - sentence_splitter.py
      - spacy_tokenizer.py
      - pretrained_transformer_tokenizer.py
      - __init__.py
      - whitespace_tokenizer.py
      - letters_digits_tokenizer.py
      - character_tokenizer.py
      - token.py
    - __init__.py
    - vocabulary.py
    - samplers
      - bucket_batch_sampler.py
      - __init__.py
      - samplers.py
      - max_tokens_batch_sampler.py
    - dataset_readers
      - conll2003.py
      - babi.py
      - dataset_reader.py
      - text_classification_json.py
      - dataset_utils
        span_utils.py
        __init__.py
      - interleaving_dataset_reader.py
      - __init__.py
      - sharded_dataset_reader.py
      - sequence_tagging.py
  - __main__.py
  - __init__.py
  - tools
    - EVALB
      - sample
        sample.prm
        sample.rsl
        sample.tst
        sample.gld
      - Makefile
      - COLLINS.prm
      - new.prm
      - LICENSE
      - README
      - evalb.c
      - tgrep_proc.prl
      - bug
        bug.tst
        bug.rsl-old
        bug.rsl-new
        bug.gld
      - .gitignore
    - inspect_cache.py
    - archive_surgery.py
    - __init__.py
    - create_elmo_embeddings_from_vocab.py
  - modules
    - encoder_base.py
    - maxout.py
    - conditional_random_field.py
    - seq2seq_encoders
      - seq2seq_encoder.py
      - pytorch_transformer_wrapper.py
      - pytorch_seq2seq_wrapper.py
      - pass_through_encoder.py
      - compose_encoder.py
      - __init__.py
      - gated_cnn_encoder.py
      - feedforward_encoder.py
    - input_variational_dropout.py
    - layer_norm.py
    - stacked_alternating_lstm.py
    - token_embedders
      - pass_through_token_embedder.py
      - token_characters_encoder.py
      - bag_of_word_counts_token_embedder.py
      - embedding.py
      - pretrained_transformer_embedder.py
      - token_embedder.py
      - empty_embedder.py
      - pretrained_transformer_mismatched_embedder.py
      - __init__.py
      - elmo_token_embedder.py
    - softmax_loss.py
    - augmented_lstm.py
    - elmo_lstm.py
    - span_extractors
      - self_attentive_span_extractor.py
      - bidirectional_endpoint_span_extractor.py
      - span_extractor.py
      - __init__.py
      - endpoint_span_extractor.py
    - highway.py
    - feedforward.py
    - attention
      - attention.py
      - additive_attention.py
      - linear_attention.py
      - cosine_attention.py
      - __init__.py
      - dot_product_attention.py
      - bilinear_attention.py
    - elmo.py
    - gated_sum.py
    - __init__.py
    - scalar_mix.py
    - residual_with_layer_dropout.py
    - seq2vec_encoders
      - pytorch_seq2vec_wrapper.py
      - seq2vec_encoder.py
      - bert_pooler.py
      - cnn_highway_encoder.py
      - __init__.py
      - cnn_encoder.py
      - boe_encoder.py
      - cls_pooler.py
    - text_field_embedders
      - basic_text_field_embedder.py
      - text_field_embedder.py
      - __init__.py
    - lstm_cell_with_projection.py
    - sampled_softmax_loss.py
    - stacked_bidirectional_lstm.py
    - matrix_attention
      - dot_product_matrix_attention.py
      - linear_matrix_attention.py
      - cosine_matrix_attention.py
      - matrix_attention.py
      - bilinear_matrix_attention.py
      - __init__.py
    - time_distributed.py
    - bimpm_matching.py
    - masked_layer_norm.py
- .bulldozer.yml
- README.md
- tests
  - training
    - checkpointer_test.py
    - util_test.py
    - moving_average_test.py
    - learning_rate_schedulers
      - slanted_triangular_test.py
      - cosine_test.py
      - learning_rate_scheduler_test.py
      - __init__.py
    - momentum_schedulers
      - inverted_triangular_test.py
      - __init__.py
    - no_op_trainer_test.py
    - __init__.py
    - trainer_test.py
    - metrics
      - auc_test.py
      - covariance_test.py
      - evalb_bracketing_scorer_test.py
      - pearson_correlation_test.py
      - boolean_accuracy_test.py
      - unigram_recall_test.py
      - categorical_accuracy_test.py
      - spearman_correlation_test.py
      - fbeta_measure_test.py
      - rouge_test.py
      - bleu_test.py
      - sequence_accuracy_test.py
      - __init__.py
      - mean_absolute_error_test.py
      - span_based_f1_measure_test.py
      - entropy_test.py
      - f1_measure_test.py
      - attachment_scores_test.py
    - optimizer_test.py
  - commands
    - main_test.py
    - evaluate_test.py
    - predict_test.py
    - print_results_test.py
    - train_test.py
    - __init__.py
    - no_op_train_test.py
    - find_learning_rate_test.py
    - test_install_test.py
  - models
    - test_model_test_case.py
    - archival_test.py
    - model_test.py
    - simple_tagger_test.py
    - basic_classifier_test.py
    - __init__.py
  - common
    - testing.py
    - logging_test.py
    - file_utils_test.py
    - params_test.py
    - util_test.py
    - __init__.py
    - from_params_test.py
    - plugins_test.py
    - registrable_test.py
  - nn
    - pretrained_model_initializer_test.py
    - util_test.py
    - chu_liu_edmonds_test.py
    - regularizers_test.py
    - __init__.py
    - initializers_test.py
    - beam_search_test.py
  - interpret
    - hotflip_test.py
    - input_reduction_test.py
    - smooth_gradient_test.py
    - __init__.py
    - simple_gradient_test.py
    - integrated_gradient_test.py
  - tutorials
    - tagger
      - basic_allennlp_test.py
      - __init__.py
    - __init__.py
  - predictors
    - predictor_test.py
    - sentence_tagger_test.py
    - text_classifier_test.py
    - __init__.py
  - data
    - instance_test.py
    - vocabulary_test.py
    - fields
      - flag_field_test.py
      - index_field_test.py
      - array_field_test.py
      - adjacency_field_test.py
      - span_field_test.py
      - sequence_label_field_test.py
      - text_field_test.py
      - label_field_test.py
      - list_field_test.py
      - multilabel_field_test.py
      - field_test.py
      - __init__.py
      - metadata_field_test.py
    - token_indexers
      - pretrained_transformer_mismatched_indexer_test.py
      - spacy_indexer_test.py
      - single_id_token_indexer_test.py
      - __init__.py
      - character_token_indexer_test.py
      - elmo_indexer_test.py
      - pretrained_transformer_indexer_test.py
    - dataloader_test.py
    - tokenizers
      - pretrained_transformer_tokenizer_test.py
      - character_tokenizer_test.py
      - letters_digits_tokenizer_test.py
      - sentence_splitter_test.py
      - __init__.py
      - spacy_tokenizer_test.py
    - __init__.py
    - dataset_test.py
    - samplers
      - max_tokens_batch_sampler_test.py
      - sampler_test.py
      - __init__.py
      - bucket_batch_sampler_test.py
    - dataset_readers
      - babi_reader_test.py
      - sequence_tagging_test.py
      - interleaving_dataset_reader_test.py
      - dataset_utils
        span_utils_test.py
      - sharded_dataset_reader_test.py
      - __init__.py
      - text_classification_json_test.py
      - dataset_reader_test.py
      - lazy_dataset_reader_test.py
  - __init__.py
  - modules
    - scalar_mix_test.py
    - masked_layer_norm_test.py
    - encoder_base_test.py
    - seq2seq_encoders
      - feedforward_encoder_test.py
      - pytorch_transformer_wrapper_test.py
      - pytorch_seq2seq_wrapper_test.py
      - compose_encoder_test.py
      - __init__.py
      - pass_through_encoder_test.py
      - gated_cnn_encoder_test.py
    - gated_sum_test.py
    - maxout_test.py
    - token_embedders
      - elmo_token_embedder_test.py
      - bag_of_word_counts_token_embedder_test.py
      - embedding_test.py
      - pretrained_transformer_embedder_test.py
      - token_characters_encoder_test.py
      - pretrained_transformer_mismatched_embedder_test.py
      - __init__.py
      - pass_through_embedder_test.py
    - sampled_softmax_loss_test.py
    - span_extractors
      - self_attentive_span_extractor_test.py
      - endpoint_span_extractor_test.py
      - bidirectional_endpoint_span_extractor_test.py
      - __init__.py
    - stacked_elmo_lstm_test.py
    - feedforward_test.py
    - residual_with_layer_dropout_test.py
    - stacked_alternating_lstm_test.py
    - elmo_test.py
    - attention
      - linear_attention_test.py
      - cosine_attention_test.py
      - bilinear_attention_test.py
      - dot_product_attention_test.py
      - __init__.py
      - additive_attention_test.py
    - seq2seq_encoder_test.py
    - stacked_bidirectional_lstm_test.py
    - conditional_random_field_test.py
    - seq2vec_encoders
      - cnn_encoder_test.py
      - cls_pooler_test.py
      - cnn_highway_encoder_test.py
      - pytorch_seq2vec_wrapper_test.py
      - __init__.py
      - bert_pooler_test.py
      - boe_encoder_test.py
    - augmented_lstm_test.py
    - bimpm_matching_test.py
    - text_field_embedders
      - basic_text_field_embedder_test.py
      - __init__.py
    - highway_test.py
    - matrix_attention
      - cosine_matrix_attention_test.py
      - __init__.py
      - linear_matrix_attention_test.py
      - bilinear_matrix_attention_test.py
      - dot_product_matrix_attention_test.py
    - lstm_cell_with_projection_test.py
    - time_distributed_test.py
    - seq2vec_encoder_test.py
  - version_test.py
- pytest.ini
- scripts
  - compile_coref_data.sh
  - build_docs_config.py
  - 24hr_diff.sh
  - check_links.py
  - check_large_files.sh
  - py2md.py
  - get_version.py
  - tests
    - ai2_internal
      - resume_daemon_test.py
    - py2md
      - basic_example_expected_output.md
      - basic_example.py
      - py2md_test.py
  - train_fixtures.py
  - ai2_internal
    - resumable_train.sh
    - resume_daemon.py
    - run_with_beaker.py
  - build_docs.sh
- pyproject.toml
- Dockerfile
- .gitignore
- docs
  - img
    - favicon.ico
  - css
    - extra.css
- .dockerignore
- MANIFEST.in

import numpy as np
import pytest

from allennlp.common.testing import AllenNlpTestCase
from allennlp.data import Token, Vocabulary, Instance
from allennlp.data.batch import Batch
from allennlp.data.token_indexers import ELMoTokenCharactersIndexer
from allennlp.data.fields import ListField, TextField


class TestELMoTokenCharactersIndexer(AllenNlpTestCase):
    def test_bos_to_char_ids(self):
        indexer = ELMoTokenCharactersIndexer()
        indices = indexer.tokens_to_indices([Token("<S>")], Vocabulary())
        expected_indices = [
            259,
            257,
            260,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
        ]
        assert indices == {"elmo_tokens": [expected_indices]}

    def test_eos_to_char_ids(self):
        indexer = ELMoTokenCharactersIndexer()
        indices = indexer.tokens_to_indices([Token("</S>")], Vocabulary())
        expected_indices = [
            259,
            258,
            260,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
        ]
        assert indices == {"elmo_tokens": [expected_indices]}

    def test_unicode_to_char_ids(self):
        indexer = ELMoTokenCharactersIndexer()
        indices = indexer.tokens_to_indices([Token(chr(256) + "t")], Vocabulary())
        expected_indices = [
            259,
            197,
            129,
            117,
            260,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
            261,
        ]
        assert indices == {"elmo_tokens": [expected_indices]}

    def test_elmo_as_array_produces_token_sequence(self):
        indexer = ELMoTokenCharactersIndexer()
        tokens = [Token("Second"), Token(".")]
        indices = indexer.tokens_to_indices(tokens, Vocabulary())
        padded_tokens = indexer.as_padded_tensor_dict(indices, padding_lengths={"elmo_tokens": 3})
        expected_padded_tokens = [
            [
                259,
                84,
                102,
                100,
                112,
                111,
                101,
                260,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
            ],
            [
                259,
                47,
                260,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
            ],
            [
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
                0,
            ],
        ]

        assert padded_tokens["elmo_tokens"].tolist() == expected_padded_tokens

    def test_elmo_indexer_with_additional_tokens(self):
        indexer = ELMoTokenCharactersIndexer(tokens_to_add={"<first>": 1})
        tokens = [Token("<first>")]
        indices = indexer.tokens_to_indices(tokens, Vocabulary())
        expected_indices = [
            [
                259,
                2,
                260,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
                261,
            ]
        ]
        assert indices["elmo_tokens"] == expected_indices

    def test_elmo_empty_token_list(self):
        # Basic test
        indexer = ELMoTokenCharactersIndexer()
        assert {"elmo_tokens": []} == indexer.get_empty_token_list()
        # Real world test
        indexer = {"elmo": indexer}
        tokens_1 = TextField([Token("Apple")], indexer)
        targets_1 = ListField([TextField([Token("Apple")], indexer)])
        tokens_2 = TextField([Token("Screen"), Token("device")], indexer)
        targets_2 = ListField(
            [TextField([Token("Screen")], indexer), TextField([Token("Device")], indexer)]
        )
        instance_1 = Instance({"tokens": tokens_1, "targets": targets_1})
        instance_2 = Instance({"tokens": tokens_2, "targets": targets_2})
        a_batch = Batch([instance_1, instance_2])
        a_batch.index_instances(Vocabulary())
        batch_tensor = a_batch.as_tensor_dict()
        elmo_target_token_indices = batch_tensor["targets"]["elmo"]["elmo_tokens"]
        # The TextField that is empty should have been created using the
        # `get_empty_token_list` and then padded with zeros.
        empty_target = elmo_target_token_indices[0][1].numpy()
        np.testing.assert_array_equal(np.zeros((1, 50)), empty_target)
        non_empty_targets = [
            elmo_target_token_indices[0][0],
            elmo_target_token_indices[1][0],
            elmo_target_token_indices[1][1],
        ]
        for non_empty_target in non_empty_targets:
            with pytest.raises(AssertionError):
                np.testing.assert_array_equal(np.zeros((1, 50)), non_empty_target)