python source code of token_discriminator

BERT-master
- distributed_horovod_master.sh
- BERT-pytorch
  - BERT-pytorch
    - Makefile
    - LICENSE
    - setup.py
    - README.md
    - requirements.txt
    - bert_pytorch
      - dataset
        __init__.py
        dataset.py
        vocab.py
      - trainer
        optim_schedule.py
        pretrain.py
        __init__.py
      - __main__.py
      - __init__.py
      - model
        utils
        feed_forward.py
        sublayer.py
        layer_norm.py
        gelu.py
        __init__.py
        transformer.py
        bert.py
        attention
        multi_head.py
        single.py
        __init__.py
        __init__.py
        language_model.py
        embedding
        position.py
        segment.py
        bert.py
        __init__.py
        token.py
    - test.py
- language
- vat_tf
- run_horovod.sh
- init.sh
- copy_data.sh
- free_adv_train
- install_requirements.txt
- run_horovod_1_4.sh
- LICENSE
- distributed_horovod_slave.sh
- BERT-keras-master
  - BERT-keras-master
    - .gitmodules
    - LICENSE
    - transformer
      - embedding.py
      - funcs.py
      - model.py
      - layers.py
      - train.py
    - data
      - lm_dataset.py
      - dataset.py
      - vocab.py
    - __init__.py
    - README.md
    - tests
      - test_transformer.py
      - test_data.py
    - .gitignore
- tf_serving.sh
- shadowsocks
- .DS_Store
- config
  - supervisord.conf
- run.sh
- Funnel-Transformer
- pegasus
- data
  - chinese_L-12_H-768_A-12
    - vocab.txt
    - bert_config.json
    - bert_config_distill.json
  - sentence_embedding
    - textcnn
      - textcnn.json
    - textlstm
      - textlstm.json
  - gpt
    - vocab.txt
    - gpt_config.json
  - uncased_L-4_H-256_A-4
    - bert_config.json
  - lcqmc
    - label_dict.json
    - xnli.json
  - green
    - label_dict.json
  - electra_share_embedding
    - discriminator
      - bert_config_tiny_scratch.json
      - bert_config_small.json
      - electra_config_tiny_uncased.json
      - bert_config_tiny_embed_uncased.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
      - bert_config_tiny_large_embed.json
      - bert_config_tiny_embed_sharing.json
      - bert_config_tiny_large_embed_sharing.json
      - bert_config_tiny_embed_sharing_uncased.json
      - electra_config_tiny.json
    - generator
      - bert_config_tiny_scratch.json
      - albert_config_small.json
      - bert_config_small.json
      - electra_config_tiny_uncased.json
      - bert_config_tiny_embed_uncased.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
      - bert_config_tiny_large_embed.json
      - bert_config_tiny_embed_sharing.json
      - bert_config_tiny_large_embed_sharing.json
      - bert_config_tiny_embed_sharing_uncased.json
      - electra_config_tiny.json
  - jd_comment
    - label_dict.json
  - textcnn
    - textcnn_multilingual_embedding.json
    - gated_cnn_seq.json
    - textcnn.json
    - textcnn_multilingual_embedding_dgcnn.json
    - textcnn_chinese_emebdding_light_dgcnn_v1_bi_tiny.json
    - textcnn_multilingual_embedding_light_dgcnn.json
    - textcnn_multilingual_embedding_light_dgcnn_v1_bi.json
    - textcnn_multilingual_embedding_cpc.json
    - textcnn_multilingual_embedding_light_dgcnn_v1.json
  - roberta_zh_l12
    - vocab.txt
    - bert_config_tiny.json
    - bert_config.json
    - bert_config_fixed_attention_size.json
    - bert_config_tiny_fixed_attention_size.json
    - bert_config_tiny_384.json
  - match_pyramid
    - match_pyramid.json
  - cased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
  - porn
    - label_dict.json
  - xlm
    - xlm_tiny_config.json
  - multi_cased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
    - bert_config_tiny_embedding.json
  - qqp
    - label_dict.json
  - politics
    - label_dict.json
    - rule_type
  - textlstm
    - textlstm.json
  - roeberta_zh_L-24_H-768_A-12
    - vocab.txt
    - bert_config_middle.json
  - lazada_multilingual
    - label_dict.json
    - label_dict_mapping.json
  - albert_official
    - vocab_chinese_base.txt
    - albert_config_base.json
  - electra
    - discriminator
      - bert_config_small.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
    - generator
      - albert_config_small.json
      - bert_config_small.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
  - sgcc
    - label_dict.json
  - product_risk
    - 6757
      - label_dict.json
    - multi_class
      - product_risk_label_dict.json
  - uncased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
  - roberta_zh_l12_albert
    - vocab.txt
    - albert_official_tiny.json
    - bert_config_tiny.json
    - albert_config_tiny.json
    - bert_config_tiny_non_factorized.json
    - bert_config_base.json
  - textcnn_feature_distillation
    - textcnn.json
- run_tf_1_11.sh
- __init__.py
- README.md
- run_tf_2.7.sh
- bert-master
  - run_pretraining.py
  - modeling_test.py
  - modeling.py
  - sample_text.txt
  - optimization_test.py
  - LICENSE
  - create_pretrain_data.sh
  - create_pretraining_data.py
  - optimization.py
  - run_squad.py
  - CONTRIBUTING.md
  - sh_run_classifier.sh
  - run_classifier.py
  - multilingual.md
  - __init__.py
  - README.md
  - tokenization.py
  - requirements.txt
  - tokenization_test.py
  - extract_features.py
  - .gitignore
- requirements.txt
- t2t_bert
  - porn_classification
    - test_tf_serving.sh
    - eval.py
    - eval_tfrecord.sh
    - train.sh
    - restore.py
    - classifier_processor.py
    - export.py
    - base_train.py
    - test_tf_serving.py
    - restore.sh
    - porn_prediction.py
    - export.sh
    - __init__.py
    - eval_tfrecord.py
    - data_generator.sh
    - porn_rule_dataset.py
    - eval.sh
    - data_processor.py
    - bert_classifier_estimator.py
  - data_augmentation
    - __init__.py
  - lcqmc
    - export_model.sh
    - test_tf_serving.sh
    - app.py
    - restore.py
    - test_grpc_serving.py
    - test_tf_serving.py
    - test_lcqmc_distributed_order.py
    - restore.sh
    - eval_lcqmc_order.py
    - test_grpc_serving.sh
    - bert_order_estimator.py
    - app_start.sh
    - lcqmc_distributed_order_train.sh
    - eval_lcqmc_order.sh
    - export_model.py
  - distributed_encoder
    - interaction_encoder.py
    - classifynet_encoder.py
    - gpt_encoder.py
    - bert_encoder.py
    - __init__.py
  - utils
    - simclr
      - __init__.py
      - simclr_utils.py
    - drmm
      - drmm_utils.py
      - __init__.py
    - dsmm
      - utils
        np_utils.py
        time_utils.py
        dist_utils.py
        ngram_utils.py
        __init__.py
        log_utils.py
        topk_utils.py
        os_utils.py
      - inputs
        data.py
        dynamic_pooling.py
        __init__.py
      - __init__.py
      - tf_common
        optimizer.py
        metrics.py
        nadam.py
        __init__.py
        nn_module.py
    - textcnn
      - textcnn_utils.py
      - light_conv_utils.py
      - conv1d_transpose.py
      - qanet.py
      - __init__.py
      - effcient_worddropout.py
      - dgcnn_utils.py
    - capsule
      - capsule_layers.py
      - __init__.py
      - capsule_modules.py
      - capsule_utils.py
    - diin
      - util
        blocks.py
        __init__.py
      - diin_utils.py
      - __init__.py
      - tensorflow
        nn.py
        general.py
        rnn_cell.py
        __init__.py
        rnn.py
    - data_ops
      - gen_experimental_dataset_ops.py
      - interleave_ops.py
      - random_ops.py
      - strcuture.py
      - __init__.py
      - dataset_ops.py
      - gen_stateless_random_ops.py
    - mix
      - mix.py
      - __init__.py
    - label_network
      - __init__.py
      - label_network_utils.py
      - attention_gru_cell.py
    - relation_network
      - __init__.py
      - relation_network_utils.py
    - tensor2tensor
      - serving
        export.py
        query.py
        __init__.py
        README.md
        serving_utils.py
      - utils
        video2gif.py
        mtf_model.py
        avg_checkpoints.py
        expert_utils_test.py
        data_reader_test.py
        test_utils.py
        quantization.py
        trainer_lib_test.py
        mlperf_log.py
        hparams_lib_test.py
        hparam_test.py
        usr_dir.py
        get_rouge.py
        sari_hook.py
        metrics_test.py
        learning_rate.py
        devices.py
        yellowfin_test.py
        misc_utils_test.py
        metrics.py
        scheduled_sampling.py
        cloud_mlengine.py
        decoding.py
        adv_attack_utils.py
        sari_hook_test.py
        test_utils_test.py
        rouge.py
        video_metrics.py
        diet_test.py
        flags.py
        adafactor.py
        get_ende_bleu.sh
        diet.py
        data_reader.py
        rouge_test.py
        registry.py
        restore_hook.py
        checkpoint_compatibility_test.py
        hparams_lib.py
        t2t_model.py
        yellowfin.py
        __init__.py
        multistep_optimizer_test.py
        registry_test.py
        misc_utils.py
        video_metrics_test.py
        bleu_hook_test.py
        mlperf_tags.py
        optimize.py
        hparam.py
        expert_utils.py
        pruning_utils.py
        compute_video_metrics.py
        optimize_test.py
        t2t_model_test.py
        metrics_hook_test.py
        beam_search.py
        beam_search_test.py
        trainer_lib.py
        update_ops_hook.py
        get_cnndm_rouge.sh
        metrics_hook.py
        multistep_optimizer.py
        video
        reward_confusion.py
        prediction2gif.py
        bleu_hook.py
      - layers
        bayes.py
        common_video.py
        discretization.py
        latent_layers.py
        transformer_memory.py
        discretization_test.py
        gaussian_process.py
        reversible_layers_test.py
        transformer_memory_test.py
        common_hparams.py
        modalities_test.py
        area_attention_test.py
        bayes_test.py
        message_passing_attention.py
        latent_layers_test.py
        common_image_attention.py
        common_layers.py
        ngram.py
        common_attention_test.py
        common_image_attention_test.py
        gaussian_process_test.py
        ngram_test.py
        vqa_layers.py
        common_video_test.py
        __init__.py
        reversible_layers.py
        vq_discrete.py
        modalities.py
        common_layers_test.py
        area_attention.py
        transformer_layers.py
        common_audio.py
      - problems_colab.py
      - v2
        t2t_trainer.py
        t2t.py
        models
        transformer.py
        basic.py
        resnet.py
        keras_utils.py
      - models
        revnet_test.py
        slicenet.py
        mtf_image_transformer.py
        distillation.py
        transformer.py
        basic_test.py
        slicenet_test.py
        neural_gpu.py
        basic.py
        bytenet_test.py
        image_transformer_2d.py
        mtf_resnet.py
        text_cnn.py
        evolved_transformer.py
        xception.py
        neural_architecture_search
        nas_model_test.py
        nas_layers.py
        __init__.py
        README.md
        nas_model.py
        nas_layers_test.py
        evolved_transformer_test.py
        mtf_transformer_test.py
        bytenet.py
        image_transformer_2d_test.py
        resnet.py
        lstm_test.py
        image_transformer.py
        lstm.py
        mtf_transformer2.py
        mtf_image_transformer_test.py
        xception_test.py
        __init__.py
        README.md
        shake_shake.py
        transformer_test.py
        resnet_test.py
        research
        universal_transformer_util.py
        rl.py
        moe_experiments.py
        autoencoders.py
        similarity_transformer.py
        glow_test.py
        transformer_moe.py
        neural_stack_test.py
        vqa_attention.py
        transformer_aux.py
        cycle_gan.py
        multiquery_paper.py
        autoencoders_test.py
        gene_expression.py
        glow_ops_test.py
        attention_lm_moe.py
        transformer_vae_test.py
        gene_expression_test.py
        transformer_revnet.py
        adafactor_experiments.py
        transformer_nat.py
        vqa_attention_test.py
        glow_ops.py
        transformer_revnet_test.py
        transformer_vae.py
        attention_lm.py
        universal_transformer_test.py
        moe.py
        lm_experiments.py
        transformer_symshard.py
        super_lm.py
        glow.py
        glow_init_hook.py
        transformer_sketch.py
        __init__.py
        universal_transformer.py
        vqa_recurrent_self_attention.py
        neural_stack.py
        vqa_self_attention.py
        aligned.py
        transformer_parallel.py
        transformer_aux_test.py
        neural_gpu_test.py
        revnet.py
        image_transformer_test.py
        vanilla_gan.py
        mtf_transformer.py
        video
        nfg_conv3d_test.py
        sv2p_test.py
        savp.py
        epva_params.py
        emily.py
        base_vae.py
        nfg_conv_test.py
        nfg_uncond_test.py
        next_frame_glow.py
        sv2p_params.py
        basic_deterministic_test.py
        emily_test.py
        nfg_test_utils.py
        basic_stochastic.py
        basic_deterministic_params.py
        basic_recurrent.py
        sv2p.py
        savp_params.py
        nfg_conv_lstm_test.py
        basic_recurrent_test.py
        epva.py
        savp_test.py
        basic_stochastic_test.py
        __init__.py
        nfg_interpolate.py
        basic_deterministic.py
        base.py
        tests_utils.py
      - rl
        gym_utils_test.py
        gym_utils.py
        evaluator.py
        trainer_model_free_tictactoe_test.py
        evaluator_test.py
        batch_runner_test.py
        dopamine_connector.py
        ppo.py
        trainer_model_free.py
        restarter.py
        restarter_test.py
        rl_utils.py
        trainer_model_based.py
        trainer_model_based_agent_only.py
        batch_dqn_agent_test.py
        trainer_model_based_params.py
        trainer_model_free_test.py
        player.py
        trainer_model_based_recurrent_test.py
        __init__.py
        README.md
        datagen_with_agent.py
        player_utils.py
        ppo_learner.py
        trainer_model_based_sv2p_test.py
        trainer_model_based_stochastic_test.py
        policy_learner.py
        trainer_model_based_test.py
        envs
        py_func_batch_env.py
        simulated_batch_gym_env.py
        tf_atari_wrappers.py
        in_graph_batch_env.py
        __init__.py
        simulated_batch_env.py
      - test_data
        example_usr_dir
        my_submodule.py
        __init__.py
        requirements.txt
        vocab.translate_ende_wmt8k.8192.subwords
        transformer_test_ckpt
        flags.txt
        model.ckpt-1.index
        hparams.json
        checkpoint
        model.ckpt-1.data-00000-of-00002
      - data_generators
        wiki_lm.py
        translate_test.py
        translate_enmk.py
        audio_encoder.py
        snli.py
        translate_enzh.py
        mscoco_test.py
        speech_recognition.py
        conll_ner.py
        audio_test.py
        imdb.py
        gym_env_test.py
        algorithmic_math_deepmind.py
        moving_mnist.py
        timeseries_data_generator.py
        desc2code.py
        function_docstring.py
        wsj_parsing.py
        tokenizer.py
        cipher.py
        gene_expression.py
        allen_brain.py
        wiki_multi_problems.py
        wikitext103.py
        mnist.py
        celeba.py
        librispeech.py
        translate_ende.py
        timeseries.py
        translate_entn.py
        gene_expression_test.py
        ptb.py
        problem_hparams.py
        paraphrase_ms_coco_test.py
        dna_encoder_test.py
        translate_enid.py
        text_encoder_test.py
        translate_enes.py
        lm1b.py
        generator_utils.py
        dna_encoder.py
        cnn_dailymail.py
        wnli.py
        transduction_problems.py
        style_transfer_test.py
        fsns.py
        mscoco.py
        celeba_test.py
        imagenet_test.py
        babi_qa.py
        desc2code_test.py
        video_utils_test.py
        vqa.py
        text_encoder_build_subword.py
        wiki_revision_utils.py
        algorithmic_test.py
        multi_problem_v2.py
        tokenizer_test.py
        video_generated.py
        program_search.py
        image_utils.py
        mrpc.py
        transduction_problems_test.py
        multi_problem_v2_test.py
        translate_enro.py
        audio.py
        ice_parsing.py
        image_lsun.py
        cleaner_en_xx.py
        algorithmic_math.py
        scitail.py
        style_transfer.py
        test_data
        vocab-1.txt
        vocab-2.txt
        1.csv
        corpus-1.txt
        corpus-2.txt
        multi_problem.py
        algorithmic.py
        rte.py
        allen_brain_test.py
        lm1b_mnli.py
        video_utils.py
        wikifact
        README.md
        paraphrase_ms_coco.py
        ocr.py
        problem.py
        wiki_revision.py
        stanford_nli.py
        subject_verb_agreement.py
        gym_env.py
        timeseries_data_generator_test.py
        bair_robot_pushing.py
        sst_binary.py
        image_utils_test.py
        text_problems.py
        pointer_generator_word.py
        translate_enet.py
        generator_utils_test.py
        __init__.py
        text_problems_test.py
        common_voice.py
        README.md
        google_robot_pushing.py
        translate_ende_test.py
        yelp_polarity.py
        timeseries_test.py
        text_encoder.py
        program_search_test.py
        ops
        subword_text_encoder.cc
        subword_text_encoder_ops.cc
        testdata
        subwords
        subword_text_encoder_test.cc
        subword_text_encoder.h
        pack_sequences_ops.cc
        pack_sequences_ops_test.py
        subword_text_encoder_ops_test.py
        wikisum
        delete_instances.sh
        html.py
        validate_data.py
        wikisum.py
        utils_test.py
        parallel_launch.py
        get_references_web_single_group.py
        test_data
        para_good1.txt
        para_bad1.txt
        get_references_commoncrawl.py
        get_references_web.py
        produce_examples.py
        __init__.py
        README.md
        utils.py
        generate_vocab.py
        translate_envi.py
        multinli.py
        common_voice_test.py
        problem_test.py
        all_problems.py
        algorithmic_math_test.py
        celebahq.py
        vqa_utils.py
        translate.py
        lm1b_imdb.py
        inspect_tfrecord.py
        cola.py
        imagenet.py
        cifar.py
        yelp_full.py
        algorithmic_math_two_variables.py
        lambada.py
        wiki.py
        qnli.py
        translate_enfr.py
        quora_qpairs.py
        translate_encs.py
        squad.py
      - __init__.py
      - visualization
        visualization_test.py
        attention.py
        attention.js
        __init__.py
        visualization.py
      - bin
        t2t-eval
        t2t-trainer
        t2t_trainer.py
        t2t_translate_all.py
        t2t-translate-all
        t2t_prune.py
        t2t_datagen.py
        t2t-decoder
        t2t-make-tf-configs
        t2t-avg-all
        build_vocab.py
        make_tf_configs.py
        t2t_avg_all.py
        t2t_trainer_test.py
        t2t_distill.py
        t2t_attack.py
        t2t-exporter
        t2t-bleu
        __init__.py
        t2t_eval.py
        t2t-insights-server
        t2t_bleu.py
        t2t_decoder.py
        t2t-datagen
        t2t-query-server
      - keras
        regularizers.py
        constraints.py
        regularizers_test.py
        __init__.py
        initializers_test.py
        initializers.py
      - metrics
        video_conditional_fvd_test.py
        video_conditional_fvd.py
        __init__.py
      - problems_test.py
      - problems.py
      - trax
        trax.py
        backend_test.py
        history.py
        trax_test.py
        layers
        convolution.py
        attention_test.py
        normalization.py
        attention.py
        combinators.py
        rnn_test.py
        normalization_test.py
        convolution_test.py
        pooling_test.py
        pooling.py
        core_test.py
        base_test.py
        __init__.py
        README.md
        combinators_test.py
        rnn.py
        core.py
        initializers_test.py
        initializers.py
        base.py
        learning_rate.py
        inputs_test.py
        models
        transformer.py
        neural_gpu.py
        atari_cnn_test.py
        atari_cnn.py
        resnet.py
        mlp_test.py
        __init__.py
        transformer_test.py
        resnet_test.py
        research
        transformer_revnet.py
        __init__.py
        position_lookup_transformer.py
        neural_gpu_test.py
        mlp.py
        inputs.py
        configs
        transformer_wmt_ende_8gb.gin
        wide_resnet_cifar10_8gb.gin
        transformer_imdb_8gb.gin
        transformer_revnet_imagenet64_8gb.gin
        transformer_revnet_lm1b_8gb.gin
        transformer_lm1b_8gb.gin
        resnet50_imagenet_8gb_testing.gin
        transformer_big_lm1b_8gb.gin
        position_lookup_transformer_copy.gin
        transformer_lm1b_8gb_testing.gin
        resnet50_imagenet_8gb.gin
        __init__.py
        README.md
        rlax
        simulated_env_problem_test.py
        ppo_training_loop_test.py
        ppo.py
        ppo_main.py
        configs
        online_tune_wide_resnet_cifar10.gin
        atari.gin
        __init__.py
        simulated_env_problem.py
        ppo_test.py
        envs
        online_tune_env.py
        fake_env.py
        fake_env_test.py
        online_tune_env_test.py
        __init__.py
        backend.py
        trainer.py
        optimizers
        __init__.py
        base.py
        jaxboard.py
      - insights
        query_processor.py
        graph.py
        insight_configuration.proto
        server.py
        polymer
        explore_view
        explore-view.js
        explore-view.html
        query_card
        query-card.js
        query-card.html
        insights_app
        insights-app.html
        insights-app.js
        language_selector
        language-selector-content.html
        language-selector-content.js
        language-selector.html
        language-selector.js
        attention_visualization
        attention-visualization.js
        attention-visualization.html
        processing_visualization
        processing-visualization.js
        processing-visualization.html
        bower.json
        translation_result
        translation-result.html
        translation-result.js
        common-types.js
        graph_visualization
        graph-visualization.html
        graph-visualization.js
        .bowerrc
        tensor2tensor.html
        index.html
        __init__.py
        README.md
        transformer_model.py
      - envs
        time_step_test.py
        mujoco_problems.py
        env_problem_utils.py
        trajectory.py
        gym_env_problem.py
        gym_env_problem_test.py
        tic_tac_toe_env_test.py
        tic_tac_toe_env_problem.py
        time_step.py
        trajectory_test.py
        env_problem.py
        tic_tac_toe_env.py
        gym_spaces_utils_test.py
        env_problem_utils_test.py
        tic_tac_toe_env_problem_test.py
        __init__.py
        mujoco_problems_test.py
        rendered_env_problem_test.py
        rendered_env_problem.py
        gym_spaces_utils.py
    - drcn
      - __init__.py
      - drcn_utils.py
    - slstm
      - slstm_utils.py
      - __init__.py
    - swem
      - swem_utils.py
      - __init__.py
    - adversarial_utils
      - vat_utils.py
      - __init__.py
    - transformer
      - universal_transformer_utils.py
      - __init__.py
      - base_transformer_utils.py
    - common
      - __init__.py
      - common_utils.py
    - config
      - config.py
      - __init__.py
    - vae
      - tfidf.py
      - vae_utils.py
      - __init__.py
    - qanet
      - __init__.py
      - qanet_layers.py
    - embed
      - integration_func.py
      - __init__.py
      - char_embedding_utils.py
    - moco
      - moco_queue.py
      - __init__.py
    - bimpm
      - layer_utils.py
      - rnn_model.py
      - __init__.py
      - my_rnn.py
      - match_utils.py
    - sampling_utils
      - nuelus_sampling_utils.py
      - gumbel_sampling_utils.py
      - __init__.py
    - export_model
      - export_frozen_model.py
      - __init__.py
    - rnn
      - rnn_utils.py
      - __init__.py
    - __init__.py
    - leam
      - leam_utils.py
      - __init__.py
    - deeppyramid
      - deeppyramid_utils.py
      - __init__.py
    - wmd
      - wmd_utils.py
      - emd_utils.py
      - __init__.py
    - reformer
      - blocks.py
      - reformer_utils.py
      - reformer_modules.py
      - __init__.py
    - conv_deconv
      - model.py
      - deconv_utils.py
      - __init__.py
      - conv_deconv.py
    - re_augument
      - re_augument_utils.py
      - __init__.py
    - biblosa
      - self_attn.py
      - nn.py
      - general.py
      - context_fusion.py
      - cnn.py
      - __init__.py
      - rnn.py
    - man
      - man_utils.py
      - __init__.py
    - esim
      - __init__.py
      - esim_utils.py
    - bert
      - albert_utils_official.py
      - dropout_utils.py
      - layer_norm_utils.py
      - bert_utils.py
      - albert_recurrent_utils.py
      - bert_seq_tpu_utils.py
      - bert_seq_modules.py
      - bert_adapter_modules.py
      - bert_seq_utils.py
      - albert_modules.py
      - reformer_modules.py
      - __init__.py
      - albert_modules_official.py
      - bert_modules.py
      - efficient_multihead_attention.py
      - bert_seq_sample_utils.py
      - preln_transformer_model.py
    - dpp
      - dpp_map.py
      - __init__.py
  - distributed_bin
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st_english_uncased.sh
    - tpu_pretrain_bert_seq_tiny_english_eval.sh
    - tpu_pretrain_bert_seq_base.sh
    - tpu_pretrain_ebm_fce_uncased.sh
    - tpu_pretrain_eval_script.sh
    - tpu_pretrain_bert_base_eval_script.sh
    - iterate_evaluation.py
    - hvd_evaluate.sh
    - tpu_pretrain_electra_script.sh
    - all_reduce_train_eval_api.py
    - tpu_pretrain_bert_tiny_script_english.sh
    - tensorflow_severing.sh
    - tpu_pretrain_script.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed.sh
    - tpu_pretrain_ebm_fce_uncased_base.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed_eval.sh
    - tpu_pretrain_roberta_xlm_tiny.sh
    - tpu_pretrain_electra_joint_gumbel_nce_eval.sh
    - tpu_pretrain_electra_joint_gumbel_script.sh
    - tpu_pretrain_ebm_fce_chinese_base.sh
    - hvd_api.sh
    - tpu_pretrain_bert_base_green.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan_st_english_uncased.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st_eval.sh
    - tpu_pretrain_bert_tiny_green.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_base_local_mask.sh
    - export.py
    - tpu_pretrain_gatedcnn.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st.sh
    - tpu_pretrain_bert_seq_tiny.sh
    - tpu_pretrain_gatedcnn_none_casual_tiny.sh
    - tpu_pretrain_electra_joint_gumbel_script_op_disc.sh
    - tpu_pretrain_bert_script.sh
    - ps_train_eval_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st_eval.sh
    - tpu_pretrain_electra_eval_script.sh
    - tpu_pretrain_electra_joint_gumbel_nce.sh
    - hvd_train_eval_api.py
    - tf_serving_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st.sh
    - tpu_pretrain_gatedcnn_none_casual.sh
    - tpu_train_eval_api.py
    - monitor_evaluation.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st_english_uncased.sh
    - local_train_eval_api.py
    - tpu_pretrain_bert_tiny_script.sh
    - tpu_pretrain_bert_tiny_eval_script.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_base.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_eval.sh
    - hvd_train_eval_api_v1.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_eval.sh
    - export.sh
    - collective_reduce_train_eval_api.py
    - tpu_pretrain_bert_seq_tiny_english.sh
    - tpu_pretrain_bert_tiny_green_eval.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan_st.sh
    - __init__.py
    - module_test.py
    - export_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_small.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group.sh
    - soar_train_eval_api.py
    - tpu_pretrain_electra_joint_script.sh
    - tpu_pretrain_bert_base_random_script.sh
    - requirements.txt
    - tpu_pretrain_bert_tiny_script_xlm.sh
    - albert_brightmart_tpu.sh
    - tpu_pretrain_ebm_fce_chinese.sh
    - tpu_pretrain_electra_joint_gumbel_script_opt.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing.sh
    - tpu_pretrain_electra_joint_gumbel_script_eval.sh
    - tpu_pretrain_bert_eval_script.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed_small.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_eval_st.sh
    - evaluate_api.py
    - tpu_pretrain_bert_seq_tiny_eval.sh
  - task_pretrain
    - train_sess.py
    - train_estimator.sh
    - multi_machine_train.sh
    - train_sess.sh
    - __init__.py
    - classifier_fn.py
    - train_estimator.py
  - adversial
    - adv_wsdm_train.py
    - eval_adv_wsdm.sh
    - adv_wsdm_train.sh
    - base_model.py
    - official_adv_wsdm.sh
    - eval_adv_wsdm.py
    - __init__.py
    - official_adv_wsdm.py
    - adversial_utils.py
  - glue_benchmark
    - modeling.py
    - optimization.py
    - flags.py
    - __init__.py
    - sentence_classification
      - classifier_utils.py
      - __init__.py
    - tokenization.py
    - crmc2018
      - evaluate.py
      - run.sh
      - run_baseline.py
      - run_roberta_wwm.sh
      - __init__.py
  - distributed_pair_sentence_classification
    - local_test.sh
    - model_distillation_model_fn.py
    - export_bpe.sh
    - bert_model_cls.py
    - hvd_evaluate.sh
    - soar.sh
    - pai_classification.sh
    - restore.py
    - hvd_bpe_evaluate_multilingual.sh
    - hvd_api.sh
    - pai_classification_eval.sh
    - hvd_api_multilingual.sh
    - bert_lcqmc
    - export.py
    - bert_qqp_eval
    - interaction_distillation_model_fn.py
    - interaction_model_fn.py
    - bert_esim_model_fn.py
    - tf_serving.sh
    - match_pyramid_lcqmc
    - gatedcnn_sentence_bert_cmnli
    - restore.sh
    - tf_serving_data_prepare.py
    - hvd_evaluate_bpe.sh
    - export.sh
    - pai_evaluate.sh
    - bert_qqp
    - bert_lcqmc_eval
    - interaction_rkd_distillation_model_fn.py
    - __init__.py
    - export_multilingual_bpe.sh
    - all_reduce.sh
    - bert_model_fn.py
    - soar_bert_lcqmc
  - data_generator
    - my_create_pretrain_data.py
    - es_indexing.py
    - data_feature_classifier.py
    - distributed_tf_data_utils.py
    - data_distillation_feature_classifier.py
    - pai_data_utils.py
    - data_distillation_input_classifier.py
    - untitled.py
    - vocab_filter.py
    - data_feature_mrc.py
    - get_w2v_from_model.py
    - flash_text.py
    - nlm_utils.py
    - extra_mask_feature_classifier.py
    - create_pretrain_dataset_efficiency_sample_class.py
    - pretrain_feature.py
    - tf_data_utils.py
    - prepare_data.py
    - create_span_bert_pretrain_dataset_efficiency.py
    - postprocess.py
    - create_bert_pretrain_dataset_efficiency_nlm.py
    - load_w2v.py
    - pretrain_yinpin_embedding.py
    - create_keyword_pretrain_dataset_efficiency.py
    - create_youku_supervised_dataset.py
    - create_bert_pretrain_dataset_efficiency.py
    - hvd_distributed_tf_data_utils.py
    - __init__.py
    - pair_data_feature_classifier.py
    - pretrain_chazi_embedding.py
    - tokenization.py
    - rule_detector.py
    - data_adv_adaptation.py
    - data_structure_distillation.py
    - data_processor.py
    - create_youku_bert_pretrain_dataset_efficiency.py
  - distributed
    - uber_hvd_test.sh
    - examples
      - distributed_test.sh
      - test_hornord_distributed.py
      - test_model_distributed.py
      - __init__.py
      - test_horovod_data_iterator.py
    - uber_mnist_estimator.py
    - __init__.py
  - label_noise
    - __init__.py
    - co_teach.py
  - chinese_benchmark
    - classifier_processor.py
    - __init__.py
  - distributed_multitask
    - pai_train_adv.sh
    - singletask_mnli_sentence_embeding_mbert.json
    - ssl_task.py
    - embed_cpc_task_v1.py
    - multi_task_eval.json
    - train_eval_estimator_fn.py
    - multitask_train_embedding_cpc_mbert
    - hvd_evaluate.sh
    - export_pai.sh
    - pai_single_task_train.sh
    - multi_task_local.json
    - export_multilingual_light_embedding
    - singletask_mnli_embedding_cpc_new_ligth_gs.json
    - regression_task.py
    - eval_sess_fn.py
    - multi_task.json
    - export_multilingual_light_embedding_cpc
    - all_reduce_lm.sh
    - export_model_fn.py
    - cls_task.py
    - export_multilingual_light_embedding_new
    - model_config_parser.py
    - all_reduce_adv.sh
    - sess_evaluate_single_task.sh
    - multitask_model_fn.py
    - single_task_train
    - multitask_model_fn_tmp.py
    - hvd_api.sh
    - pai_train_lm.sh
    - python ..:src:frozen_graph.py --saved_model_dir :d
    - pai_single_task_evaluate.sh
    - single_task_lm.json
    - hvd_train_eval_api.py
    - multitask_train_adv
    - all_reduce
    - embed_cpc_task.py
    - test_data_iterator.py
    - multitask_train_brand_search_cpc
    - sess_evaluate.sh
    - single_task_eval.json
    - model_data_interface.py
    - vae_task.py
    - :notebooks:source:MNN:build:MNNConvert -f TF --mod
    - pai_export.sh
    - pai_train.sh
    - multitask_train_embedding
    - multitask_embedding.json
    - multitask_train_lm
    - pai_evaluate.sh
    - multi_task_eval_local.json
    - single_task.json
    - multitask_train_embedding_new
    - multi_task_local_single_task.json
    - all_reduce_single_task.sh
    - multitask_train_embedding_cpc_new
    - __init__.py
    - train_eval.py
    - export_api.py
    - multi_task_lm.json
    - singletask_mnli_embedding_new.json
    - train_eval_sess_fn.py
    - input_fn.py
    - multitask_eval
    - test_model_fn.py
    - pai_tensorboard.sh
    - multi_task_embedding.json
    - singletask_mnli_embedding_new_light.json
    - embed_task.py
    - multitask_embedding_new.json
    - hvd_train_eval.py
    - run_tensorboard.sh
    - all_reduce.sh
    - single_task_eval
    - singletask_mnli_embedding_cpc_new.json
    - export_model.py
  - pretrain_finetuning
    - export_electra.sh
    - export_gated_seq_lm.py
    - trf_ebm_gpt_joint
    - electra_model_fn_fce.py
    - export_bert_seq_lm.py
    - model_fn_builder
    - discriminator_exporter_alone.py
    - trf_gpt_noise.py
    - electra_model_fn_gumbel_nce.py
    - classifier_fn_tpu_bert_seq_estimator.py
    - train_eval_tpu_estimator.py
    - export_generator_discriminator_as_single.sh
    - export_bert_seq_lm.sh
    - trf_bert_ebm_residual_estimator.py
    - bert_paraphrase
    - multi_model_gs_gumbel_scratch_sharing_embedding_tiny.json
    - multi_model_gs_ebm_fce_uncased_base.json
    - train_sess.py
    - multi_model_config_ebm_fce.json
    - trf_classifier.py
    - pai_eval.sh
    - multi_model_gs_gumbel.json
    - test_green_sample.py
    - multi_model_config_gumbel_share_embedding.json
    - generator_exporter_alone.py
    - electra_model_fn.py
    - multi_model_gs_gumbel_scratch_sharing_embedding_small.json
    - classifier_ema_fn_estimator.py
    - kmeans_algoithm.py
    - iterate_data.py
    - youku_title_comment_pretrain
    - chinese_wiki_albert
    - generator_igr.py
    - mrc_pretrain_finetuning
    - electra_train_debug_sharing_embed_relgan
    - export_discriminator.sh
    - multi_model_gs_ebm_fce_base.json
    - trf_ebm_bert.py
    - discriminator_relgan_exporter.py
    - multi_model_gs_gumbel_scratch_tiny_uncased.json
    - tpu_write_to_summary.py
    - export.py
    - electra_train_debug_sharing_embed_joint_adv
    - multi_model_config_gumbel_sharing_embedding.json
    - multi_model_gs_base_gumbel.json
    - electra_train_debug_sharing_embed_joint_eval
    - multi_model_gs_gumbel_scratch.json
    - electra_train_debug_sharing_embed_joint
    - all_reduce_eval.sh
    - trf_bert_ebm_gpt_estimator.py
    - token_discriminator.py
    - trf_ebm_uncased
    - electra_export_script.py
    - export_gatedcnn_lm.sh
    - token_discriminator_nce.py
    - test_op.py
    - shadowsocks
    - generator.py
    - token_generator.py
    - multi_model_gs_ebm_fce_uncased.json
    - token_discriminator_relgan.py
    - fake_news_2019
    - multi_model_gs.json
    - run_gatedcnn_tensorboard.sh
    - classifier_fn_tpu_estimator.py
    - bert_seq_lm
    - pai_collective.sh
    - multi_model_config_ebm_uncased.json
    - experiments
    - discriminator.py
    - green_text_pretrain_finetuning
    - pai_train.sh
    - multi_model_gs_gumbel_base.json
    - multi_model_config_gumbel_sharing_embedding_tiny.json
    - train_sess.sh
    - generator_exporter.py
    - multi_model_gs_gumbel_scratch_tiny.json
    - electra_model_fn_gumbel.py
    - open_domain_albert_tiny
    - multi_model_config_gumbel_sharing_embedding_relgan.json
    - electra_train_debug
    - token_generator_gumbel.py
    - multi_model_gs_gumbel_albert.json
    - multi_model_gs_gumbel_scratch_sharing_embedding_tiny_uncased.json
    - trf_bert_ebm_gpt.py
    - green_text_pretrain_finetuning_albert
    - multi_model_gs_gumbel_scratch_sharing_embedding.json
    - discriminator_relgan_exporter_alone.py
    - token_generator_hmm.py
    - multi_model_gs_ebm_fce.json
    - __init__.py
    - multi_model_config.json
    - train_eval.py
    - export_api.py
    - trf_hvd_train_v1.sh
    - multi_model_gs_base.json
    - discriminator_gumbel.py
    - gpu_test_cond.py
    - kmeans_test.py
    - generator_gumbel_normal.py
    - electra_export.py
    - classifier_fn_tpu_gatedcnn_estimator.py
    - export_checkpoints.py
    - multi_model_gs_gumbel_scratch_sharing.json
    - trf_ebm_noise_mlm_sample.py
    - multi_model_config_gumbel_sharing_embedding_small.json
    - electra_model_fn_gumbel_relgan.py
    - token_generator_igr.py
    - collective_reduce.sh
    - electra_all_generator_model_fn.py
    - token_generator_as_discriminator.py
    - classifier_fn.py
    - generator_gumbel.py
    - electra_train_debug_share_embedding
    - export_bert_seq_lm_en.sh
    - data_generator.sh
    - gatedcnn_lm_pretrain
    - multi_model_config_ebm_base.json
    - pai_tensorboard.sh
    - electra_train_debug_pretrain_relgan
    - discriminator_exporter.py
    - export_discriminator.py
    - electra_model_fn_gumbel_global.py
    - trf_bert_ebm_gpt_v1.py
    - multi_model_config_gumbel_albert.json
    - discriminator_gumbel_nce.py
    - run_tensorboard.sh
    - all_reduce.sh
    - discriminator_relgan.py
    - iterate_data.sh
    - multi_model_config_gumbel.json
    - data_processor.py
    - multi_model_config_gumbel_sharing_embedding_tiny_same.json
    - green_text_pretrain_finetuning_robusta
    - generator_as_discriminator.py
    - train_eval_gpu_electra_estimator.py
  - bert_rule
    - classifier_processor.py
    - flash_text.py
    - write_to_tfrecords.py
    - __init__.py
    - bert_rule_classifier.py
  - chid_nlpcc2019
    - chid_parameter_roeberta
    - chid_export
    - eval_estimator.py
    - model_batch_infer.py
    - run_export.sh
    - pai_collective_reduce.sh
    - model_fn_crf.py
    - export.py
    - model_infer.sh
    - run_infer.py
    - model_infer.py
    - chid_parameter_robusta_12
    - pai_export.sh
    - pai_train.sh
    - chid_parameter_robusta_12_sent
    - export.sh
    - output_script_test.py
    - out_script.py
    - __init__.py
    - export_api.py
    - model_fn.py
    - chid_parameter
    - chid_parameter_robusta_12_crf
    - chid_eval
    - collective_reduce.sh
    - pai_tensorboard.sh
    - chid_parameter_crf
    - chid_parameter_robusta_12_sent_collective
    - run_tensorboard.sh
    - all_reduce.sh
  - test
    - wsdm_distillation_train.sh
    - official_wsdm_order.py
    - wsdm_distributed_order_vib_train.sh
    - test_wsdm_distributed.py
    - oqmrc_train.sh
    - en_test_wsdm_distributed_order.py
    - test_oqmrc_final.py
    - eval_bert_esim.py
    - official_oqmrc_test.py
    - eval_wsdm_test.py
    - official_wsdm.sh
    - test_oqmrc_1.py
    - test_wsdm.py
    - horovod_test_distributed.sh
    - eval_bert_esim.sh
    - official_wsdm_bert_esim.sh
    - test_wsdm_distributed_bert_esim.py
    - eval_wsdm_esim_bert.py
    - eval_wsdm.sh
    - test_wsdm_order.py
    - test_oqmrc.py
    - official_wsdm.py
    - test_wsdm_distributed_vib_order.py
    - eval_wsdm_interaction.sh
    - wsdm_bert_esim_distributed_train.sh
    - eval_distillation_order.sh
    - official_wsdm_order.sh
    - wsdm_distributed_order_train.sh
    - test.sh
    - wsdm_distributed_train.sh
    - eval_wsdm_vib_order.py
    - official_wsdm_distillation_order.py
    - official_wsdm_bert_esim.py
    - eval_oqmrc.py
    - en_wsdm_distributed_order_train.sh
    - eval_wsdm_interaction_test.py
    - eval_distillation_order.py
    - wsdm_train.sh
    - wsdm_distributed_train_en.sh
    - eval_wsdm_order.py
    - wsdm_order_train.sh
    - wsdm_interaction_train.sh
    - eval_oqmrc_test.py
    - test_oqmrc_distributed_final.py
    - test_wsdm_distributed_order.py
    - oqmrc_distributed_train.sh
    - wsdm_distributed_order_train_en.sh
    - test_wsdm_interaction.py
    - test_wsdm_distributed_esim_bert.py
    - eval_wsdm_esim_bert.sh
    - start.sh
    - official_wsdm_distillation_order.sh
    - requirements.txt
    - en_eval_wsdm_order.sh
    - eval.sh
    - test_wsdm_distillation.py
    - wsdm_esim_bert_distributed_train.sh
    - eval_wsdm_order.sh
  - offline_debug
    - distributed_tf_data_utils.py
    - run.py
    - abuse_2_robusta_12
    - pai_collective_train.sh
    - prepare_data.py
    - abuse_2
    - porn_2
    - abuse_2_robusta
    - itera_data.py
    - __init__.py
    - model_fn.py
    - collective_reduce.sh
    - porn_albert
    - pai_tensorboard.sh
    - abuse_2_albert_base
    - jd_hyparameter
    - itera_data.sh
    - run_tensorboard.sh
    - train_estimator.py
  - distributed_gpt
    - run_export.sh
    - gpt_product_lm_export
    - export.py
    - pai_export.sh
    - pai_train.sh
    - export.sh
    - __init__.py
    - export_api.py
    - model_fn.py
    - gpt_product_title
    - pai_tensorboard.sh
    - run_tensorboard.sh
    - all_reduce.sh
  - task_module
    - span_mrc_classifier.py
    - pretrain_albert.py
    - pretrain.py
    - tsa.py
    - pretrain_adapter.py
    - classifier_adapter.py
    - __init__.py
    - classifier.py
    - tsa_pretrain.py
  - distributed_single_sentence_classification
    - local_test.sh
    - albert_official_base_lcqmc
    - porn_textcnn
    - export_multilingual_abusive.sh
    - bert_tiny_green_multiclass
    - train_eval_tpu_estimator.py
    - export_chenxi_disu.sh
    - train_eval_estimator_fn.py
    - hvd_evaluate.sh
    - bert_electra_tiny_green_multiclass_export
    - bert_tiny_multilingual_ssm_export
    - export_pai.sh
    - porn_2_albert_tiny
    - product_risk_6757_eval
    - model_distillation_adv_adaptation.py
    - porn_bert_small
    - pai_eval.sh
    - model_fn_interface.py
    - eval_sess_fn.py
    - product_risk_6757
    - evaluate.sh
    - bert_tiny_green_multiclass_export
    - pai_collective_train.sh
    - info
    - export_multilingual_ssm.sh
    - export_data_security.sh
    - bert_green_multiclass
    - model_relation_distillation.py
    - restore.py
    - embed_model_fn.py
    - bert_tiny_youku_title_comment_export
    - model_distillation_fn.py
    - albert_tiny_lcqmc_bert
    - eval_estimator_fn.py
    - bert_mtdnn_lcqmc
    - hvd_api_lazada_distillation.sh
    - hvd_evaluate_porn.sh
    - hvd_api.sh
    - multilingual_ssm_eval
    - bert_lcqmc_adv
    - multilingual_abusive_eval
    - porn_2_export
    - politics_hyparameter
    - porn_2_eval
    - export_lazada.sh
    - mrc_search
    - export.py
    - bert_qqp_eval
    - hvd_api_porn_bpe_feature_distillation.sh
    - electra_tiny_ugc_export
    - bert_tiny_youku_title_comment
    - abuse_2
    - local_test.py
    - porn_2
    - disu_albert_export.sh
    - jd_hvd_hparameter
    - gatedcnn_green_multiclass
    - all_reduce
    - model_feature_distillation_fn.py
    - export_lazada_0513.sh
    - tf_serving.sh
    - hvd_api_data_security_bpe.sh
    - multilingual_lazada_eval
    - gatedcnn_sentence_bert_cmnli
    - multilingual_ssm
    - fake_news_2019
    - fake_news_2019_robusta_eval
    - soar_train_eval.py
    - product_multiclass_export
    - chenxi_disu
    - export_textcnn_sentence_embed.sh
    - model_data_interface.py
    - restore.sh
    - multilingual_lazada
    - tf_serving_data_prepare.py
    - bert_tiny_electra_ugc
    - albert_tiny_lcqmc_eval
    - classifynet_model_fn.py
    - porn_bert_distillation
    - pai_export.sh
    - example.py
    - pai_train.sh
    - albert_tiny_lcqmc_export
    - fake_news_2019_robusta_12_eval
    - export.sh
    - pai_evaluate.sh
    - bert_lcqmc_adv_export
    - bert_qqp
    - model_mdd_distillation.py
    - multilingual_ssm_export
    - fake_news_2019_robusta_12
    - pai_ps
    - porn_eval
    - export_porn.sh
    - hvd_evaluate_lazada.sh
    - porn_hparameter
    - bert_small_eval
    - old_export.py
    - label
    - all_reduce_single_task.sh
    - __init__.py
    - train_eval.py
    - model_fn.py
    - bert_electra_tiny_green_multiclass
    - model_fn_co_teach.py
    - bert_base_green_multiclass_export
    - model_interface.py
    - multilingual_abusive
    - ps_train_eval.py
    - abuse_2_export
    - fake_news_2019_eval
    - train_eval_sess_fn.py
    - collective_reduce.sh
    - product_multiclass_eval
    - albert_tiny_xnli_eval
    - fake_news_2019_robusta
    - product_risk_multiclass
    - gatedcnn_green_multiclass_export
    - multilingual_abusive_distill_adv
    - chenxi_disu_eval
    - abuse_2_eval
    - jd_hyparameter
    - mrc_search_eval
    - hvd_train_eval.py
    - albert_tiny_xnli
    - albert_tiny_lcqmc
    - multilingual_ssm_small
    - all_reduce.sh
    - bert_model_fn.py
    - tf_serving_lazada.sh
    - hvd_api_chenxi_disu.sh
    - train_eval_multilabel_sess_fn.py
  - optimizer
    - optimizer.py
    - lookahead_utils.py
    - anneal_strategy.py
    - hvd_distributed_optimizer.py
    - distributed_optimizer.py
    - pai_soar_optimizer_utils.py
    - ema_utils.py
    - radam_utils.py
    - __init__.py
    - adam_weight_decay_exclude_utils.py
    - adam_weight_decay_utils.py
    - optimizer_utils.py
    - lamb_utils.py
  - distillation
    - repo_distillation_utils.py
    - uniform_mapping.py
    - knowledge_distillation.py
    - kdgan_distillation.py
    - repo_opt_utils.py
    - svp.py
    - distillation_utils.py
    - relation_kd_utils.py
    - __init__.py
    - flip_gradient.py
    - mdd_utils.py
    - crd_distillation.py
    - daan_distillation_utils.py
    - homm_utils.py
    - cpc_utils.py
  - multilingual
    - export_model.sh
    - test_tf_serving.sh
    - train.sh
    - restore.py
    - classifier_processor.py
    - base_train.py
    - test_tf_serving.py
    - restore.sh
    - __init__.py
    - data_generator.sh
    - data_processor.py
    - bert_classifier_estimator.py
    - export_model.py
  - distributed_multitask_0LD1
    - pai_train_adv.sh
    - multi_task_eval.json
    - train_eval_estimator_fn.py
    - hvd_evaluate.sh
    - pai_single_task_train.sh
    - eval_sess_fn.py
    - multi_task.json
    - cls_task.py
    - model_config_parser.py
    - multitask_model_fn.py
    - hvd_api.sh
    - hvd_train_eval_api.py
    - all_reduce
    - test_data_iterator.py
    - sess_evaluate.sh
    - multitask_train
    - model_data_interface.py
    - pai_train.sh
    - pai_evaluate.sh
    - multi_task_eval_local.json
    - __init__.py
    - train_eval.py
    - train_eval_sess_fn.py
    - multitask_eval
    - hvd_train_eval.py
    - all_reduce.sh
  - distributed_data_prepare
    - bert_pretrain_prepare.sh
    - data_prepare_lazada.sh
    - bert_classification_data_prepare.sh
    - classification_data_prepare.py
    - classification_distillation_data_prepare.py
    - bert_span_pretrain_effciency_prepare_english.sh
    - multitask_classification_data_prepare.py
    - data_distillation_prepare_chenxi_disu.sh
    - spm_tokenization.sh
    - bert_classification_data_prepare_xnli.sh
    - bert_classification_data_prepare_fake_news.sh
    - bert_classification_data_prepare_abuse.sh
    - pair_classification_data_prepare.py
    - data_distillation_prepare_lazada.sh
    - pair_distillation_multilingual_data_prepare.sh
    - multitask_classification_train_merged.py
    - multitask_data_prepare.sh
    - bert_classification_data_prepare_disu.sh
    - pair_distillation_data_prepare.sh
    - bert_classification_data_prepare_lcqmc.sh
    - bert_pair_data_prepare.sh
    - pair_data_prepare.sh
    - feature_reader.py
    - bert_classification_data_prepare_lazada.sh
    - pair_distillation_data_prepare_qqp.sh
    - data_prepare.sh
    - bert_classification_ssm_data_prepare.sh
    - bert_mrc_search_data_preapre.sh
    - bert_classification_chnsenti.sh
    - data_distilaltion_prepare.sh
    - bert_classification_data_prepare_lazada_adv_adaptation.sh
    - __init__.py
    - bert_pair_classification_prepare.py
    - bert_pretrain_efficiency_prepare_nlm.sh
    - bert_distillation_data_prepare.py
    - bert_classification_prepare.py
    - bert_pretrain_efficiency_prepare.sh
    - multitask_traindata_prepare.sh
    - spm_train.sh
    - language_model_data_prepare.sh
    - bert_span_pretrain_effciency_prepare.sh
    - language_model_data_prepare.py
    - spm_train.py
    - pair_distillation_lcqmc_multlingual.sh
    - bert_classification_data_prepare_porn.sh
    - chinese_adv_paws.sh
    - spm_tokenization.py
    - data_prepare_data_security.sh
  - distributed_distillation
    - train_eval_estimator_fn.py
    - student_model_pretrain_fn.py
    - knowledge_distillation_train
    - distillation_model_fn.py
    - teacher_model_fn.py
    - knowledge_distillation_train_porn
    - knowledge_distillation_train_xnli
    - pai_collective_reduce.sh
    - pretrain_distillation_multilingual_sentence_embedding
    - knowledge_distillation_pretrain.json
    - co_teaching_model_fn.py
    - distillation_config.json
    - pai_train.sh
    - teacher_model_pretrain_fn.py
    - knowledge_distillation_train_porn_collective
    - knowledge_distillation_multilingual_sst
    - __init__.py
    - train_eval.py
    - distillation_multistep_model_fn.py
    - student_model_fn.py
    - distillation_pretrain_model_fn.py
    - collective_reduce.sh
    - distillation_pretrain_config.json
    - knolwedge_distillation_config.json
    - pai_tensorboard.sh
    - pretrain_distillation_multilingual_sst
    - run_tensorboard.sh
    - all_reduce.sh
  - auto_ssh_key.sh
  - nlm_noisy_generator
    - __init__.py
    - utils.py
    - loader.py
  - example
    - bert_interaction_classifier.py
    - feature_writer.py
    - classifier_processor.py
    - write_to_tfrecords.py
    - create_pretrain_data.sh
    - write_to_tfrecords_multitask.py
    - write_to_records_pretrain.py
    - hvd_distributed_estimator_classifier.py
    - esim_bert.py
    - bert_esim_v1.py
    - hvd_bert_order_classifier.py
    - pretrain_classifier_processor.py
    - bert_order_classifier.py
    - __init__.py
    - bert_esim.py
    - sequence_processor.py
    - read_distillation_tfrecord.py
    - mrc_search_script.py
    - hvd_model_distributed_classifier.py
    - hvd_distributed_classifier.py
    - bert_classifier.py
    - bert_classifier_estimator.py
  - dataset_generator
    - dataset_utils.py
    - create_pretrain_generator.py
    - create_masked_lm_generator.py
    - create_generator.py
    - write_to_tfrecords.py
    - create_cls_problem_generator.py
    - generator_test.ipynb.invalid
    - data_reader.py
    - __init__.py
    - input_fn.py
    - problem_generator.py
    - write2tfrecords.sh
  - distributed_pretrain
    - auxiliary_task.py
    - __init__.py
  - knowledge_distillation
    - distillation.py
    - teacher.py
    - __init__.py
    - student.py
  - bunch
    - __init__.py
    - python3_compat.py
  - __init__.py
  - politics_classification
    - test_tf_serving.sh
    - eval.py
    - train.sh
    - restore.py
    - classifier_processor.py
    - export.py
    - base_train.py
    - test_tf_serving.py
    - politics_prediction.py
    - restore.sh
    - export.sh
    - __init__.py
    - data_generator.sh
    - eval.sh
    - data_processor.py
    - bert_classifier_estimator.py
  - distributed_multichoice_classification
    - __init__.py
    - bert_model_fn.py
  - kdgan
    - __init__.py
  - metric
    - metrics_impl_utils.py
    - tf_metrics.py
    - __init__.py
  - data_prepare
    - __init__.py
  - model
    - gpt
      - gpt_utils.py
      - sample.py
      - sample_naive.py
      - __init__.py
      - beam_search.py
      - gpt.py
    - dsmm
      - dsmm.py
      - __init__.py
    - textcnn
      - __init__.py
      - textcnn.py
    - match_pyramid
      - mp_cnn.py
      - match_pyramid.py
      - __init__.py
    - textlstm
      - textlstm.py
      - __init__.py
    - attention
      - attention.py
      - __init__.py
    - regularizer
      - vib.py
      - __init__.py
    - rnn
      - __init__.py
      - rnn.py
    - __init__.py
    - base_classify
      - base_model.py
      - __init__.py
    - esim
      - esim.py
      - __init__.py
    - base_text_similarity
      - base_model.py
      - __init__.py
    - bert
      - bert_rule.py
      - albert.py
      - albert_official_electra_joint.py
      - bert.py
      - distributed_bert.py
      - albert_official.py
      - bert_adapter.py
      - bert_seq.py
      - __init__.py
      - bert_electra_joint.py
    - dan
      - dan.py
      - __init__.py
      - dan_nvdm.py
  - learingww_distillation
    - __init__.py
  - model_io
    - model_io.py
    - free_horovod_graph.py
    - model_io_utils.py
    - __init__.py
    - get_checkpoint_node_name.py
    - extract_weight.py
  - app
    - sentiment_predict.py
    - infer.py
    - event_predict_v1.py
    - __init__.py
    - event_predict.py
  - .2C802669-3F2F-4C16-BA6A-F45AFEEAAA4E-410-000049A87FD26E0A
  - loss
    - triplet_loss_utils.py
    - __init__.py
    - loss_utils.py
  - summary
    - summary.py
    - __init__.py
- TensorFlowSinkhorn
- .idea
  - BERT.iml
  - libraries
    - R_User_Library.xml
  - modules.xml
  - misc.xml
  - workspace.xml
  - vcs.xml
- Dockerfile
- bert_language_understanding-master
  - bert_language_understanding-master
    - pretrain_task.py
    - pretrain_bert_cnn_lm.sh
    - train_bert_transformer.sh
    - evaluation_matrix.py
    - train_transform.py
    - train_bert_fine_tuning.py
    - data
      - old
      - aa1.jpeg
      - aa4.jpeg
    - __init__.py
    - README.md
    - train_bert_lm.py
    - model
      - bert_cnn_model.py
      - config.py
      - config_transformer.py
      - encoder.py
      - base_model.py
      - __init__.py
      - transfomer_model.py
      - layer_norm_residual_conn.py
      - poistion_wise_feed_forward.py
      - bert_model.py
      - multi_head_attention.py
    - data_util_hdf5.py
    - temp_covert.py
- run_tfgpu_docker_1_15.sh
- .gitignore
- adversarial-robustness-public
- build.sh

import tensorflow as tf
import numpy as np

import tensorflow as tf
from utils.bert import bert_utils
from loss import loss_utils
from utils.bert import albert_modules
from metric import tf_metrics

def gradient_penalty(x_real_onehot, x_fake_onehot_appr, config):
	"""compute the gradiet penalty for the WGAN-GP loss"""
	alpha = tf.random_uniform(shape=[config['batch_size'], 1, 1], minval=0., maxval=1.)
	interpolated = alpha * x_real_onehot + (1. - alpha) * x_fake_onehot_appr

	logit = discriminator(x_onehot=interpolated)

	grad = tf.gradients(logit, interpolated)[0]  # gradient of D(interpolated)
	grad_norm = tf.norm(tf.layers.flatten(grad), axis=1)  # l2 norm

	GP = config['reg_param'] * tf.reduce_mean(tf.square(grad_norm - 1.))

	return GP

def global_discriminator_logits(config, input_tensor, reuse=None, **kargs):
	"""Get loss and log probs for the next sentence prediction."""
	# Simple binary classification. Note that 0 is "next sentence" and 1 is
	# "random sentence". This weight matrix is not used after pre-training.

	scope = kargs.get('scope', None)
	if scope:
		scope = scope + '/' + 'cls/seq_global'
	else:
		scope = 'cls/seq_global'
	tf.logging.info("**** nsp scope **** %s", str(scope))

	# with tf.variable_scope("cls/seq_relationship", reuse=reuse):
	with tf.variable_scope(scope, reuse=reuse):
		output_weights = tf.get_variable(
				"output_weights",
				shape=[2, config.hidden_size],
				initializer=albert_modules.create_initializer(config.initializer_range))
		output_bias = tf.get_variable(
				"output_bias", shape=[2], initializer=tf.zeros_initializer())

		logits = tf.matmul(input_tensor, output_weights, transpose_b=True)
		logits = tf.nn.bias_add(logits, output_bias)
		
		return logits

def get_losses(d_out_real, d_out_fake, **kargs):
	# 1:original, 0:fake
	
	input_shape_list = bert_utils.get_shape_list(d_out_real, 
													expected_rank=[1,2,3])

	batch_size = input_shape_list[0]
	gan_type = kargs.get('gan_type', 'standard')

	tf.logging.info("**** gan type **** %s", str(gan_type))

	if gan_type == 'standard':  # the non-satuating GAN loss
		d_loss_real = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_real, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		d_loss_fake = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_fake, labels=tf.cast(tf.zeros(batch_size), tf.int32)
		))
		d_loss = d_loss_real + d_loss_fake

		g_loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_fake, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		tf.logging.info("**** gan type **** %s", str(gan_type))
	elif gan_type == 'JS':  # the vanilla GAN loss
		d_loss_real = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_real, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		d_loss_fake = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_fake, labels=tf.cast(tf.zeros(batch_size), tf.int32)
		))
		d_loss = d_loss_real + d_loss_fake

		g_loss = -d_loss_fake
		tf.logging.info("**** gan type **** %s", str(gan_type))

	elif gan_type == 'KL':  # the GAN loss implicitly minimizing KL-divergence
		d_loss_real = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_real, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		d_loss_fake = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_fake, labels=tf.cast(tf.zeros(batch_size), tf.int32)
		))
		d_loss = d_loss_real + d_loss_fake

		g_loss = tf.reduce_mean(-d_out_fake)
		tf.logging.info("**** gan type **** %s", str(gan_type))

	elif gan_type == 'hinge':  # the hinge loss
		d_loss_real = tf.reduce_mean(tf.nn.relu(1.0 - d_out_real))
		d_loss_fake = tf.reduce_mean(tf.nn.relu(1.0 + d_out_fake))
		d_loss = d_loss_real + d_loss_fake

		g_loss = -tf.reduce_mean(d_out_fake)
		tf.logging.info("**** gan type **** %s", str(gan_type))

	elif gan_type == 'tv':  # the total variation distance
		d_loss = tf.reduce_mean(tf.tanh(d_out_fake) - tf.tanh(d_out_real))
		g_loss = tf.reduce_mean(-tf.tanh(d_out_fake))
		tf.logging.info("**** gan type **** %s", str(gan_type))

	# elif gan_type == 'wgan-gp':  # WGAN-GP
	# 	d_loss = tf.reduce_mean(d_out_fake) - tf.reduce_mean(d_out_real)
	# 	GP = gradient_penalty(discriminator, x_real_onehot, x_fake_onehot_appr, config)
	# 	d_loss += GP

	# 	g_loss = -tf.reduce_mean(d_out_fake)

	elif gan_type == 'LS':  # LS-GAN
		d_loss_real = tf.reduce_mean(tf.squared_difference(d_out_real, 1.0))
		d_loss_fake = tf.reduce_mean(tf.square(d_out_fake))
		d_loss = d_loss_real + d_loss_fake

		g_loss = tf.reduce_mean(tf.squared_difference(d_out_fake, 1.0))
		tf.logging.info("**** gan type **** %s", str(gan_type))

	elif gan_type == 'RSGAN':  # relativistic standard GAN
		d_loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_real - d_out_fake, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		g_loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(
			logits=d_out_fake - d_out_real, labels=tf.cast(tf.ones(batch_size), tf.int32)
		))
		tf.logging.info("**** gan type **** %s", str(gan_type))

	else:
		raise NotImplementedError("Divergence '%s' is not implemented" % gan_type)

	if not kargs.get('use_tpu', True):
		tf.logging.info("====logging discriminator global loss ====")
		tf.summary.scalar('disc_loss', 
							d_loss)

		tf.summary.scalar('gen_loss', 
							g_loss)

	return {"gen_loss":g_loss, "disc_loss":d_loss}

def discriminator_metric_train(input_dict):
	# original:0, replace:1

	d_out_real = input_dict['true_logits']
	d_out_fake = input_dict['fake_logits']

	input_shape_list = bert_utils.get_shape_list(d_out_real, expected_rank=[2])
	batch_size = input_shape_list[0]

	true_labels = tf.cast(tf.ones(batch_size), tf.int32)
	fake_labels = tf.cast(tf.zeros(batch_size), tf.int32)

	pred_true_label = tf.argmax(d_out_real, axis=-1)
	pred_fake_label = tf.argmax(d_out_fake, axis=-1)

	true_accuracy = tf.equal(tf.cast(pred_true_label, tf.int32), tf.cast(true_labels, tf.int32))
	fake_accuracy = tf.equal(tf.cast(pred_fake_label, tf.int32), tf.cast(fake_labels, tf.int32))

	return {
		"true_accuracy":tf.reduce_mean(tf.cast(true_accuracy, tf.float32)),
		"fake_accuracy":tf.reduce_mean(tf.cast(fake_accuracy, tf.float32)),
		"all_accuracy":tf.reduce_mean(tf.cast(true_accuracy, tf.float32)+tf.cast(fake_accuracy, tf.float32))/2

	}

def discriminator_metric_eval(input_dict):

	d_out_real = input_dict['true_logits']
	d_out_fake = input_dict['fake_logits']

	input_shape_list = bert_utils.get_shape_list(d_out_real, expected_rank=[2])
	batch_size = input_shape_list[0]

	true_labels = tf.cast(tf.ones(batch_size), tf.int32)
	fake_labels = tf.cast(tf.zeros(batch_size), tf.int32)

	pred_true_label = tf.argmax(d_out_real, axis=-1)
	pred_fake_label = tf.argmax(d_out_fake, axis=-1)

	all_pred_label = tf.concat([pred_true_label, pred_fake_label], axis=0)
	all_true_label = tf.concat([true_labels, fake_labels], axis=0)

	if not kargs.get('use_tpu', True):
		discriminator_f1 = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										average="macro")
		discriminator_precison = tf_metrics.precision(
										all_true_label,
										all_pred_label,
										2, 
										average="macro")
		discriminator_recall = tf_metrics.recall(
										all_true_label,
										all_pred_label,
										2, 
										average="macro")
		discriminator_f1_original = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_f1_replaced = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")
		discriminator_precision_original = tf_metrics.precision(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_precision_replaced = tf_metrics.precision(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")
		discriminator_recall_original = tf_metrics.recall(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_recall_replaced = tf_metrics.recall(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")
		output_dict['discriminator_f1'] = discriminator_f1
		output_dict['discriminator_precison'] = discriminator_precison
		output_dict['discriminator_recall'] = discriminator_recall
		output_dict['discriminator_f1_original'] = discriminator_f1_original
		output_dict['discriminator_f1_replaced'] = discriminator_f1_replaced
		output_dict['discriminator_precision_original'] = discriminator_precision_original
		output_dict['discriminator_precision_replaced'] = discriminator_precision_replaced
		output_dict['discriminator_recall_original'] = discriminator_recall_original
		output_dict['discriminator_recall_replaced'] = discriminator_recall_replaced
	else:
		discriminator_recall = tf.compat.v1.metrics.recall(
										tf.one_hot(all_true_label, 2), 
										tf.one_hot(all_pred_label, 2))

		discriminator_precison = tf.compat.v1.metrics.precision(
										tf.one_hot(all_true_label, 2), 
										tf.one_hot(all_pred_label, 2))
		discriminator_f1 = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										average="macro")
		discriminator_f1_original = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_f1_replaced = tf_metrics.f1(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")
		discriminator_precision_original = tf_metrics.precision(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_precision_replaced = tf_metrics.precision(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")
		discriminator_recall_original = tf_metrics.recall(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[0],
										average="macro")
		discriminator_recall_replaced = tf_metrics.recall(
										all_true_label,
										all_pred_label,
										2, 
										pos_indices=[1],
										average="macro")

		output_dict['discriminator_f1_original'] = discriminator_f1_original
		output_dict['discriminator_f1_replaced'] = discriminator_f1_replaced
		output_dict['discriminator_precision_original'] = discriminator_precision_original
		output_dict['discriminator_precision_replaced'] = discriminator_precision_replaced
		output_dict['discriminator_recall_original'] = discriminator_recall_original
		output_dict['discriminator_recall_replaced'] = discriminator_recall_replaced
		output_dict['discriminator_f1'] = discriminator_f1
		output_dict['discriminator_precison'] = discriminator_precison
		output_dict['discriminator_recall'] = discriminator_recall
	return output_dict