python source code of embed

BERT-master
- distributed_horovod_master.sh
- BERT-pytorch
  - BERT-pytorch
    - Makefile
    - LICENSE
    - setup.py
    - README.md
    - requirements.txt
    - bert_pytorch
      - dataset
        __init__.py
        dataset.py
        vocab.py
      - trainer
        optim_schedule.py
        pretrain.py
        __init__.py
      - __main__.py
      - __init__.py
      - model
        utils
        feed_forward.py
        sublayer.py
        layer_norm.py
        gelu.py
        __init__.py
        transformer.py
        bert.py
        attention
        multi_head.py
        single.py
        __init__.py
        __init__.py
        language_model.py
        embedding
        position.py
        segment.py
        bert.py
        __init__.py
        token.py
    - test.py
- language
- vat_tf
- run_horovod.sh
- init.sh
- copy_data.sh
- free_adv_train
- install_requirements.txt
- run_horovod_1_4.sh
- LICENSE
- distributed_horovod_slave.sh
- BERT-keras-master
  - BERT-keras-master
    - .gitmodules
    - LICENSE
    - transformer
      - embedding.py
      - funcs.py
      - model.py
      - layers.py
      - train.py
    - data
      - lm_dataset.py
      - dataset.py
      - vocab.py
    - __init__.py
    - README.md
    - tests
      - test_transformer.py
      - test_data.py
    - .gitignore
- tf_serving.sh
- shadowsocks
- .DS_Store
- config
  - supervisord.conf
- run.sh
- Funnel-Transformer
- pegasus
- data
  - chinese_L-12_H-768_A-12
    - vocab.txt
    - bert_config.json
    - bert_config_distill.json
  - sentence_embedding
    - textcnn
      - textcnn.json
    - textlstm
      - textlstm.json
  - gpt
    - vocab.txt
    - gpt_config.json
  - uncased_L-4_H-256_A-4
    - bert_config.json
  - lcqmc
    - label_dict.json
    - xnli.json
  - green
    - label_dict.json
  - electra_share_embedding
    - discriminator
      - bert_config_tiny_scratch.json
      - bert_config_small.json
      - electra_config_tiny_uncased.json
      - bert_config_tiny_embed_uncased.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
      - bert_config_tiny_large_embed.json
      - bert_config_tiny_embed_sharing.json
      - bert_config_tiny_large_embed_sharing.json
      - bert_config_tiny_embed_sharing_uncased.json
      - electra_config_tiny.json
    - generator
      - bert_config_tiny_scratch.json
      - albert_config_small.json
      - bert_config_small.json
      - electra_config_tiny_uncased.json
      - bert_config_tiny_embed_uncased.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
      - bert_config_tiny_large_embed.json
      - bert_config_tiny_embed_sharing.json
      - bert_config_tiny_large_embed_sharing.json
      - bert_config_tiny_embed_sharing_uncased.json
      - electra_config_tiny.json
  - jd_comment
    - label_dict.json
  - textcnn
    - textcnn_multilingual_embedding.json
    - gated_cnn_seq.json
    - textcnn.json
    - textcnn_multilingual_embedding_dgcnn.json
    - textcnn_chinese_emebdding_light_dgcnn_v1_bi_tiny.json
    - textcnn_multilingual_embedding_light_dgcnn.json
    - textcnn_multilingual_embedding_light_dgcnn_v1_bi.json
    - textcnn_multilingual_embedding_cpc.json
    - textcnn_multilingual_embedding_light_dgcnn_v1.json
  - roberta_zh_l12
    - vocab.txt
    - bert_config_tiny.json
    - bert_config.json
    - bert_config_fixed_attention_size.json
    - bert_config_tiny_fixed_attention_size.json
    - bert_config_tiny_384.json
  - match_pyramid
    - match_pyramid.json
  - cased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
  - porn
    - label_dict.json
  - xlm
    - xlm_tiny_config.json
  - multi_cased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
    - bert_config_tiny_embedding.json
  - qqp
    - label_dict.json
  - politics
    - label_dict.json
    - rule_type
  - textlstm
    - textlstm.json
  - roeberta_zh_L-24_H-768_A-12
    - vocab.txt
    - bert_config_middle.json
  - lazada_multilingual
    - label_dict.json
    - label_dict_mapping.json
  - albert_official
    - vocab_chinese_base.txt
    - albert_config_base.json
  - electra
    - discriminator
      - bert_config_small.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
    - generator
      - albert_config_small.json
      - bert_config_small.json
      - bert_config_tiny.json
      - albert_config_base.json
      - albert_config_tiny.json
      - bert_config.json
  - sgcc
    - label_dict.json
  - product_risk
    - 6757
      - label_dict.json
    - multi_class
      - product_risk_label_dict.json
  - uncased_L-12_H-768_A-12
    - bert_config_tiny.json
    - bert_config.json
  - roberta_zh_l12_albert
    - vocab.txt
    - albert_official_tiny.json
    - bert_config_tiny.json
    - albert_config_tiny.json
    - bert_config_tiny_non_factorized.json
    - bert_config_base.json
  - textcnn_feature_distillation
    - textcnn.json
- run_tf_1_11.sh
- __init__.py
- README.md
- run_tf_2.7.sh
- bert-master
  - run_pretraining.py
  - modeling_test.py
  - modeling.py
  - sample_text.txt
  - optimization_test.py
  - LICENSE
  - create_pretrain_data.sh
  - create_pretraining_data.py
  - optimization.py
  - run_squad.py
  - CONTRIBUTING.md
  - sh_run_classifier.sh
  - run_classifier.py
  - multilingual.md
  - __init__.py
  - README.md
  - tokenization.py
  - requirements.txt
  - tokenization_test.py
  - extract_features.py
  - .gitignore
- requirements.txt
- t2t_bert
  - porn_classification
    - test_tf_serving.sh
    - eval.py
    - eval_tfrecord.sh
    - train.sh
    - restore.py
    - classifier_processor.py
    - export.py
    - base_train.py
    - test_tf_serving.py
    - restore.sh
    - porn_prediction.py
    - export.sh
    - __init__.py
    - eval_tfrecord.py
    - data_generator.sh
    - porn_rule_dataset.py
    - eval.sh
    - data_processor.py
    - bert_classifier_estimator.py
  - data_augmentation
    - __init__.py
  - lcqmc
    - export_model.sh
    - test_tf_serving.sh
    - app.py
    - restore.py
    - test_grpc_serving.py
    - test_tf_serving.py
    - test_lcqmc_distributed_order.py
    - restore.sh
    - eval_lcqmc_order.py
    - test_grpc_serving.sh
    - bert_order_estimator.py
    - app_start.sh
    - lcqmc_distributed_order_train.sh
    - eval_lcqmc_order.sh
    - export_model.py
  - distributed_encoder
    - interaction_encoder.py
    - classifynet_encoder.py
    - gpt_encoder.py
    - bert_encoder.py
    - __init__.py
  - utils
    - simclr
      - __init__.py
      - simclr_utils.py
    - drmm
      - drmm_utils.py
      - __init__.py
    - dsmm
      - utils
        np_utils.py
        time_utils.py
        dist_utils.py
        ngram_utils.py
        __init__.py
        log_utils.py
        topk_utils.py
        os_utils.py
      - inputs
        data.py
        dynamic_pooling.py
        __init__.py
      - __init__.py
      - tf_common
        optimizer.py
        metrics.py
        nadam.py
        __init__.py
        nn_module.py
    - textcnn
      - textcnn_utils.py
      - light_conv_utils.py
      - conv1d_transpose.py
      - qanet.py
      - __init__.py
      - effcient_worddropout.py
      - dgcnn_utils.py
    - capsule
      - capsule_layers.py
      - __init__.py
      - capsule_modules.py
      - capsule_utils.py
    - diin
      - util
        blocks.py
        __init__.py
      - diin_utils.py
      - __init__.py
      - tensorflow
        nn.py
        general.py
        rnn_cell.py
        __init__.py
        rnn.py
    - data_ops
      - gen_experimental_dataset_ops.py
      - interleave_ops.py
      - random_ops.py
      - strcuture.py
      - __init__.py
      - dataset_ops.py
      - gen_stateless_random_ops.py
    - mix
      - mix.py
      - __init__.py
    - label_network
      - __init__.py
      - label_network_utils.py
      - attention_gru_cell.py
    - relation_network
      - __init__.py
      - relation_network_utils.py
    - tensor2tensor
      - serving
        export.py
        query.py
        __init__.py
        README.md
        serving_utils.py
      - utils
        video2gif.py
        mtf_model.py
        avg_checkpoints.py
        expert_utils_test.py
        data_reader_test.py
        test_utils.py
        quantization.py
        trainer_lib_test.py
        mlperf_log.py
        hparams_lib_test.py
        hparam_test.py
        usr_dir.py
        get_rouge.py
        sari_hook.py
        metrics_test.py
        learning_rate.py
        devices.py
        yellowfin_test.py
        misc_utils_test.py
        metrics.py
        scheduled_sampling.py
        cloud_mlengine.py
        decoding.py
        adv_attack_utils.py
        sari_hook_test.py
        test_utils_test.py
        rouge.py
        video_metrics.py
        diet_test.py
        flags.py
        adafactor.py
        get_ende_bleu.sh
        diet.py
        data_reader.py
        rouge_test.py
        registry.py
        restore_hook.py
        checkpoint_compatibility_test.py
        hparams_lib.py
        t2t_model.py
        yellowfin.py
        __init__.py
        multistep_optimizer_test.py
        registry_test.py
        misc_utils.py
        video_metrics_test.py
        bleu_hook_test.py
        mlperf_tags.py
        optimize.py
        hparam.py
        expert_utils.py
        pruning_utils.py
        compute_video_metrics.py
        optimize_test.py
        t2t_model_test.py
        metrics_hook_test.py
        beam_search.py
        beam_search_test.py
        trainer_lib.py
        update_ops_hook.py
        get_cnndm_rouge.sh
        metrics_hook.py
        multistep_optimizer.py
        video
        reward_confusion.py
        prediction2gif.py
        bleu_hook.py
      - layers
        bayes.py
        common_video.py
        discretization.py
        latent_layers.py
        transformer_memory.py
        discretization_test.py
        gaussian_process.py
        reversible_layers_test.py
        transformer_memory_test.py
        common_hparams.py
        modalities_test.py
        area_attention_test.py
        bayes_test.py
        message_passing_attention.py
        latent_layers_test.py
        common_image_attention.py
        common_layers.py
        ngram.py
        common_attention_test.py
        common_image_attention_test.py
        gaussian_process_test.py
        ngram_test.py
        vqa_layers.py
        common_video_test.py
        __init__.py
        reversible_layers.py
        vq_discrete.py
        modalities.py
        common_layers_test.py
        area_attention.py
        transformer_layers.py
        common_audio.py
      - problems_colab.py
      - v2
        t2t_trainer.py
        t2t.py
        models
        transformer.py
        basic.py
        resnet.py
        keras_utils.py
      - models
        revnet_test.py
        slicenet.py
        mtf_image_transformer.py
        distillation.py
        transformer.py
        basic_test.py
        slicenet_test.py
        neural_gpu.py
        basic.py
        bytenet_test.py
        image_transformer_2d.py
        mtf_resnet.py
        text_cnn.py
        evolved_transformer.py
        xception.py
        neural_architecture_search
        nas_model_test.py
        nas_layers.py
        __init__.py
        README.md
        nas_model.py
        nas_layers_test.py
        evolved_transformer_test.py
        mtf_transformer_test.py
        bytenet.py
        image_transformer_2d_test.py
        resnet.py
        lstm_test.py
        image_transformer.py
        lstm.py
        mtf_transformer2.py
        mtf_image_transformer_test.py
        xception_test.py
        __init__.py
        README.md
        shake_shake.py
        transformer_test.py
        resnet_test.py
        research
        universal_transformer_util.py
        rl.py
        moe_experiments.py
        autoencoders.py
        similarity_transformer.py
        glow_test.py
        transformer_moe.py
        neural_stack_test.py
        vqa_attention.py
        transformer_aux.py
        cycle_gan.py
        multiquery_paper.py
        autoencoders_test.py
        gene_expression.py
        glow_ops_test.py
        attention_lm_moe.py
        transformer_vae_test.py
        gene_expression_test.py
        transformer_revnet.py
        adafactor_experiments.py
        transformer_nat.py
        vqa_attention_test.py
        glow_ops.py
        transformer_revnet_test.py
        transformer_vae.py
        attention_lm.py
        universal_transformer_test.py
        moe.py
        lm_experiments.py
        transformer_symshard.py
        super_lm.py
        glow.py
        glow_init_hook.py
        transformer_sketch.py
        __init__.py
        universal_transformer.py
        vqa_recurrent_self_attention.py
        neural_stack.py
        vqa_self_attention.py
        aligned.py
        transformer_parallel.py
        transformer_aux_test.py
        neural_gpu_test.py
        revnet.py
        image_transformer_test.py
        vanilla_gan.py
        mtf_transformer.py
        video
        nfg_conv3d_test.py
        sv2p_test.py
        savp.py
        epva_params.py
        emily.py
        base_vae.py
        nfg_conv_test.py
        nfg_uncond_test.py
        next_frame_glow.py
        sv2p_params.py
        basic_deterministic_test.py
        emily_test.py
        nfg_test_utils.py
        basic_stochastic.py
        basic_deterministic_params.py
        basic_recurrent.py
        sv2p.py
        savp_params.py
        nfg_conv_lstm_test.py
        basic_recurrent_test.py
        epva.py
        savp_test.py
        basic_stochastic_test.py
        __init__.py
        nfg_interpolate.py
        basic_deterministic.py
        base.py
        tests_utils.py
      - rl
        gym_utils_test.py
        gym_utils.py
        evaluator.py
        trainer_model_free_tictactoe_test.py
        evaluator_test.py
        batch_runner_test.py
        dopamine_connector.py
        ppo.py
        trainer_model_free.py
        restarter.py
        restarter_test.py
        rl_utils.py
        trainer_model_based.py
        trainer_model_based_agent_only.py
        batch_dqn_agent_test.py
        trainer_model_based_params.py
        trainer_model_free_test.py
        player.py
        trainer_model_based_recurrent_test.py
        __init__.py
        README.md
        datagen_with_agent.py
        player_utils.py
        ppo_learner.py
        trainer_model_based_sv2p_test.py
        trainer_model_based_stochastic_test.py
        policy_learner.py
        trainer_model_based_test.py
        envs
        py_func_batch_env.py
        simulated_batch_gym_env.py
        tf_atari_wrappers.py
        in_graph_batch_env.py
        __init__.py
        simulated_batch_env.py
      - test_data
        example_usr_dir
        my_submodule.py
        __init__.py
        requirements.txt
        vocab.translate_ende_wmt8k.8192.subwords
        transformer_test_ckpt
        flags.txt
        model.ckpt-1.index
        hparams.json
        checkpoint
        model.ckpt-1.data-00000-of-00002
      - data_generators
        wiki_lm.py
        translate_test.py
        translate_enmk.py
        audio_encoder.py
        snli.py
        translate_enzh.py
        mscoco_test.py
        speech_recognition.py
        conll_ner.py
        audio_test.py
        imdb.py
        gym_env_test.py
        algorithmic_math_deepmind.py
        moving_mnist.py
        timeseries_data_generator.py
        desc2code.py
        function_docstring.py
        wsj_parsing.py
        tokenizer.py
        cipher.py
        gene_expression.py
        allen_brain.py
        wiki_multi_problems.py
        wikitext103.py
        mnist.py
        celeba.py
        librispeech.py
        translate_ende.py
        timeseries.py
        translate_entn.py
        gene_expression_test.py
        ptb.py
        problem_hparams.py
        paraphrase_ms_coco_test.py
        dna_encoder_test.py
        translate_enid.py
        text_encoder_test.py
        translate_enes.py
        lm1b.py
        generator_utils.py
        dna_encoder.py
        cnn_dailymail.py
        wnli.py
        transduction_problems.py
        style_transfer_test.py
        fsns.py
        mscoco.py
        celeba_test.py
        imagenet_test.py
        babi_qa.py
        desc2code_test.py
        video_utils_test.py
        vqa.py
        text_encoder_build_subword.py
        wiki_revision_utils.py
        algorithmic_test.py
        multi_problem_v2.py
        tokenizer_test.py
        video_generated.py
        program_search.py
        image_utils.py
        mrpc.py
        transduction_problems_test.py
        multi_problem_v2_test.py
        translate_enro.py
        audio.py
        ice_parsing.py
        image_lsun.py
        cleaner_en_xx.py
        algorithmic_math.py
        scitail.py
        style_transfer.py
        test_data
        vocab-1.txt
        vocab-2.txt
        1.csv
        corpus-1.txt
        corpus-2.txt
        multi_problem.py
        algorithmic.py
        rte.py
        allen_brain_test.py
        lm1b_mnli.py
        video_utils.py
        wikifact
        README.md
        paraphrase_ms_coco.py
        ocr.py
        problem.py
        wiki_revision.py
        stanford_nli.py
        subject_verb_agreement.py
        gym_env.py
        timeseries_data_generator_test.py
        bair_robot_pushing.py
        sst_binary.py
        image_utils_test.py
        text_problems.py
        pointer_generator_word.py
        translate_enet.py
        generator_utils_test.py
        __init__.py
        text_problems_test.py
        common_voice.py
        README.md
        google_robot_pushing.py
        translate_ende_test.py
        yelp_polarity.py
        timeseries_test.py
        text_encoder.py
        program_search_test.py
        ops
        subword_text_encoder.cc
        subword_text_encoder_ops.cc
        testdata
        subwords
        subword_text_encoder_test.cc
        subword_text_encoder.h
        pack_sequences_ops.cc
        pack_sequences_ops_test.py
        subword_text_encoder_ops_test.py
        wikisum
        delete_instances.sh
        html.py
        validate_data.py
        wikisum.py
        utils_test.py
        parallel_launch.py
        get_references_web_single_group.py
        test_data
        para_good1.txt
        para_bad1.txt
        get_references_commoncrawl.py
        get_references_web.py
        produce_examples.py
        __init__.py
        README.md
        utils.py
        generate_vocab.py
        translate_envi.py
        multinli.py
        common_voice_test.py
        problem_test.py
        all_problems.py
        algorithmic_math_test.py
        celebahq.py
        vqa_utils.py
        translate.py
        lm1b_imdb.py
        inspect_tfrecord.py
        cola.py
        imagenet.py
        cifar.py
        yelp_full.py
        algorithmic_math_two_variables.py
        lambada.py
        wiki.py
        qnli.py
        translate_enfr.py
        quora_qpairs.py
        translate_encs.py
        squad.py
      - __init__.py
      - visualization
        visualization_test.py
        attention.py
        attention.js
        __init__.py
        visualization.py
      - bin
        t2t-eval
        t2t-trainer
        t2t_trainer.py
        t2t_translate_all.py
        t2t-translate-all
        t2t_prune.py
        t2t_datagen.py
        t2t-decoder
        t2t-make-tf-configs
        t2t-avg-all
        build_vocab.py
        make_tf_configs.py
        t2t_avg_all.py
        t2t_trainer_test.py
        t2t_distill.py
        t2t_attack.py
        t2t-exporter
        t2t-bleu
        __init__.py
        t2t_eval.py
        t2t-insights-server
        t2t_bleu.py
        t2t_decoder.py
        t2t-datagen
        t2t-query-server
      - keras
        regularizers.py
        constraints.py
        regularizers_test.py
        __init__.py
        initializers_test.py
        initializers.py
      - metrics
        video_conditional_fvd_test.py
        video_conditional_fvd.py
        __init__.py
      - problems_test.py
      - problems.py
      - trax
        trax.py
        backend_test.py
        history.py
        trax_test.py
        layers
        convolution.py
        attention_test.py
        normalization.py
        attention.py
        combinators.py
        rnn_test.py
        normalization_test.py
        convolution_test.py
        pooling_test.py
        pooling.py
        core_test.py
        base_test.py
        __init__.py
        README.md
        combinators_test.py
        rnn.py
        core.py
        initializers_test.py
        initializers.py
        base.py
        learning_rate.py
        inputs_test.py
        models
        transformer.py
        neural_gpu.py
        atari_cnn_test.py
        atari_cnn.py
        resnet.py
        mlp_test.py
        __init__.py
        transformer_test.py
        resnet_test.py
        research
        transformer_revnet.py
        __init__.py
        position_lookup_transformer.py
        neural_gpu_test.py
        mlp.py
        inputs.py
        configs
        transformer_wmt_ende_8gb.gin
        wide_resnet_cifar10_8gb.gin
        transformer_imdb_8gb.gin
        transformer_revnet_imagenet64_8gb.gin
        transformer_revnet_lm1b_8gb.gin
        transformer_lm1b_8gb.gin
        resnet50_imagenet_8gb_testing.gin
        transformer_big_lm1b_8gb.gin
        position_lookup_transformer_copy.gin
        transformer_lm1b_8gb_testing.gin
        resnet50_imagenet_8gb.gin
        __init__.py
        README.md
        rlax
        simulated_env_problem_test.py
        ppo_training_loop_test.py
        ppo.py
        ppo_main.py
        configs
        online_tune_wide_resnet_cifar10.gin
        atari.gin
        __init__.py
        simulated_env_problem.py
        ppo_test.py
        envs
        online_tune_env.py
        fake_env.py
        fake_env_test.py
        online_tune_env_test.py
        __init__.py
        backend.py
        trainer.py
        optimizers
        __init__.py
        base.py
        jaxboard.py
      - insights
        query_processor.py
        graph.py
        insight_configuration.proto
        server.py
        polymer
        explore_view
        explore-view.js
        explore-view.html
        query_card
        query-card.js
        query-card.html
        insights_app
        insights-app.html
        insights-app.js
        language_selector
        language-selector-content.html
        language-selector-content.js
        language-selector.html
        language-selector.js
        attention_visualization
        attention-visualization.js
        attention-visualization.html
        processing_visualization
        processing-visualization.js
        processing-visualization.html
        bower.json
        translation_result
        translation-result.html
        translation-result.js
        common-types.js
        graph_visualization
        graph-visualization.html
        graph-visualization.js
        .bowerrc
        tensor2tensor.html
        index.html
        __init__.py
        README.md
        transformer_model.py
      - envs
        time_step_test.py
        mujoco_problems.py
        env_problem_utils.py
        trajectory.py
        gym_env_problem.py
        gym_env_problem_test.py
        tic_tac_toe_env_test.py
        tic_tac_toe_env_problem.py
        time_step.py
        trajectory_test.py
        env_problem.py
        tic_tac_toe_env.py
        gym_spaces_utils_test.py
        env_problem_utils_test.py
        tic_tac_toe_env_problem_test.py
        __init__.py
        mujoco_problems_test.py
        rendered_env_problem_test.py
        rendered_env_problem.py
        gym_spaces_utils.py
    - drcn
      - __init__.py
      - drcn_utils.py
    - slstm
      - slstm_utils.py
      - __init__.py
    - swem
      - swem_utils.py
      - __init__.py
    - adversarial_utils
      - vat_utils.py
      - __init__.py
    - transformer
      - universal_transformer_utils.py
      - __init__.py
      - base_transformer_utils.py
    - common
      - __init__.py
      - common_utils.py
    - config
      - config.py
      - __init__.py
    - vae
      - tfidf.py
      - vae_utils.py
      - __init__.py
    - qanet
      - __init__.py
      - qanet_layers.py
    - embed
      - integration_func.py
      - __init__.py
      - char_embedding_utils.py
    - moco
      - moco_queue.py
      - __init__.py
    - bimpm
      - layer_utils.py
      - rnn_model.py
      - __init__.py
      - my_rnn.py
      - match_utils.py
    - sampling_utils
      - nuelus_sampling_utils.py
      - gumbel_sampling_utils.py
      - __init__.py
    - export_model
      - export_frozen_model.py
      - __init__.py
    - rnn
      - rnn_utils.py
      - __init__.py
    - __init__.py
    - leam
      - leam_utils.py
      - __init__.py
    - deeppyramid
      - deeppyramid_utils.py
      - __init__.py
    - wmd
      - wmd_utils.py
      - emd_utils.py
      - __init__.py
    - reformer
      - blocks.py
      - reformer_utils.py
      - reformer_modules.py
      - __init__.py
    - conv_deconv
      - model.py
      - deconv_utils.py
      - __init__.py
      - conv_deconv.py
    - re_augument
      - re_augument_utils.py
      - __init__.py
    - biblosa
      - self_attn.py
      - nn.py
      - general.py
      - context_fusion.py
      - cnn.py
      - __init__.py
      - rnn.py
    - man
      - man_utils.py
      - __init__.py
    - esim
      - __init__.py
      - esim_utils.py
    - bert
      - albert_utils_official.py
      - dropout_utils.py
      - layer_norm_utils.py
      - bert_utils.py
      - albert_recurrent_utils.py
      - bert_seq_tpu_utils.py
      - bert_seq_modules.py
      - bert_adapter_modules.py
      - bert_seq_utils.py
      - albert_modules.py
      - reformer_modules.py
      - __init__.py
      - albert_modules_official.py
      - bert_modules.py
      - efficient_multihead_attention.py
      - bert_seq_sample_utils.py
      - preln_transformer_model.py
    - dpp
      - dpp_map.py
      - __init__.py
  - distributed_bin
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st_english_uncased.sh
    - tpu_pretrain_bert_seq_tiny_english_eval.sh
    - tpu_pretrain_bert_seq_base.sh
    - tpu_pretrain_ebm_fce_uncased.sh
    - tpu_pretrain_eval_script.sh
    - tpu_pretrain_bert_base_eval_script.sh
    - iterate_evaluation.py
    - hvd_evaluate.sh
    - tpu_pretrain_electra_script.sh
    - all_reduce_train_eval_api.py
    - tpu_pretrain_bert_tiny_script_english.sh
    - tensorflow_severing.sh
    - tpu_pretrain_script.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed.sh
    - tpu_pretrain_ebm_fce_uncased_base.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed_eval.sh
    - tpu_pretrain_roberta_xlm_tiny.sh
    - tpu_pretrain_electra_joint_gumbel_nce_eval.sh
    - tpu_pretrain_electra_joint_gumbel_script.sh
    - tpu_pretrain_ebm_fce_chinese_base.sh
    - hvd_api.sh
    - tpu_pretrain_bert_base_green.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan_st_english_uncased.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st_eval.sh
    - tpu_pretrain_bert_tiny_green.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_base_local_mask.sh
    - export.py
    - tpu_pretrain_gatedcnn.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st.sh
    - tpu_pretrain_bert_seq_tiny.sh
    - tpu_pretrain_gatedcnn_none_casual_tiny.sh
    - tpu_pretrain_electra_joint_gumbel_script_op_disc.sh
    - tpu_pretrain_bert_script.sh
    - ps_train_eval_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st_eval.sh
    - tpu_pretrain_electra_eval_script.sh
    - tpu_pretrain_electra_joint_gumbel_nce.sh
    - hvd_train_eval_api.py
    - tf_serving_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_st.sh
    - tpu_pretrain_gatedcnn_none_casual.sh
    - tpu_train_eval_api.py
    - monitor_evaluation.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_grl_st_english_uncased.sh
    - local_train_eval_api.py
    - tpu_pretrain_bert_tiny_script.sh
    - tpu_pretrain_bert_tiny_eval_script.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_base.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_eval.sh
    - hvd_train_eval_api_v1.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_eval.sh
    - export.sh
    - collective_reduce_train_eval_api.py
    - tpu_pretrain_bert_seq_tiny_english.sh
    - tpu_pretrain_bert_tiny_green_eval.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_relgan_st.sh
    - __init__.py
    - module_test.py
    - export_api.py
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_small.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group.sh
    - soar_train_eval_api.py
    - tpu_pretrain_electra_joint_script.sh
    - tpu_pretrain_bert_base_random_script.sh
    - requirements.txt
    - tpu_pretrain_bert_tiny_script_xlm.sh
    - albert_brightmart_tpu.sh
    - tpu_pretrain_ebm_fce_chinese.sh
    - tpu_pretrain_electra_joint_gumbel_script_opt.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing.sh
    - tpu_pretrain_electra_joint_gumbel_script_eval.sh
    - tpu_pretrain_bert_eval_script.sh
    - tpu_pretrain_electra_joint_script_no_sharing_pretrain_embed_small.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed.sh
    - tpu_pretrain_electra_joint_gumbel_script_no_sharing_pretrain_embed_group_eval_st.sh
    - evaluate_api.py
    - tpu_pretrain_bert_seq_tiny_eval.sh
  - task_pretrain
    - train_sess.py
    - train_estimator.sh
    - multi_machine_train.sh
    - train_sess.sh
    - __init__.py
    - classifier_fn.py
    - train_estimator.py
  - adversial
    - adv_wsdm_train.py
    - eval_adv_wsdm.sh
    - adv_wsdm_train.sh
    - base_model.py
    - official_adv_wsdm.sh
    - eval_adv_wsdm.py
    - __init__.py
    - official_adv_wsdm.py
    - adversial_utils.py
  - glue_benchmark
    - modeling.py
    - optimization.py
    - flags.py
    - __init__.py
    - sentence_classification
      - classifier_utils.py
      - __init__.py
    - tokenization.py
    - crmc2018
      - evaluate.py
      - run.sh
      - run_baseline.py
      - run_roberta_wwm.sh
      - __init__.py
  - distributed_pair_sentence_classification
    - local_test.sh
    - model_distillation_model_fn.py
    - export_bpe.sh
    - bert_model_cls.py
    - hvd_evaluate.sh
    - soar.sh
    - pai_classification.sh
    - restore.py
    - hvd_bpe_evaluate_multilingual.sh
    - hvd_api.sh
    - pai_classification_eval.sh
    - hvd_api_multilingual.sh
    - bert_lcqmc
    - export.py
    - bert_qqp_eval
    - interaction_distillation_model_fn.py
    - interaction_model_fn.py
    - bert_esim_model_fn.py
    - tf_serving.sh
    - match_pyramid_lcqmc
    - gatedcnn_sentence_bert_cmnli
    - restore.sh
    - tf_serving_data_prepare.py
    - hvd_evaluate_bpe.sh
    - export.sh
    - pai_evaluate.sh
    - bert_qqp
    - bert_lcqmc_eval
    - interaction_rkd_distillation_model_fn.py
    - __init__.py
    - export_multilingual_bpe.sh
    - all_reduce.sh
    - bert_model_fn.py
    - soar_bert_lcqmc
  - data_generator
    - my_create_pretrain_data.py
    - es_indexing.py
    - data_feature_classifier.py
    - distributed_tf_data_utils.py
    - data_distillation_feature_classifier.py
    - pai_data_utils.py
    - data_distillation_input_classifier.py
    - untitled.py
    - vocab_filter.py
    - data_feature_mrc.py
    - get_w2v_from_model.py
    - flash_text.py
    - nlm_utils.py
    - extra_mask_feature_classifier.py
    - create_pretrain_dataset_efficiency_sample_class.py
    - pretrain_feature.py
    - tf_data_utils.py
    - prepare_data.py
    - create_span_bert_pretrain_dataset_efficiency.py
    - postprocess.py
    - create_bert_pretrain_dataset_efficiency_nlm.py
    - load_w2v.py
    - pretrain_yinpin_embedding.py
    - create_keyword_pretrain_dataset_efficiency.py
    - create_youku_supervised_dataset.py
    - create_bert_pretrain_dataset_efficiency.py
    - hvd_distributed_tf_data_utils.py
    - __init__.py
    - pair_data_feature_classifier.py
    - pretrain_chazi_embedding.py
    - tokenization.py
    - rule_detector.py
    - data_adv_adaptation.py
    - data_structure_distillation.py
    - data_processor.py
    - create_youku_bert_pretrain_dataset_efficiency.py
  - distributed
    - uber_hvd_test.sh
    - examples
      - distributed_test.sh
      - test_hornord_distributed.py
      - test_model_distributed.py
      - __init__.py
      - test_horovod_data_iterator.py
    - uber_mnist_estimator.py
    - __init__.py
  - label_noise
    - __init__.py
    - co_teach.py
  - chinese_benchmark
    - classifier_processor.py
    - __init__.py
  - distributed_multitask
    - pai_train_adv.sh
    - singletask_mnli_sentence_embeding_mbert.json
    - ssl_task.py
    - embed_cpc_task_v1.py
    - multi_task_eval.json
    - train_eval_estimator_fn.py
    - multitask_train_embedding_cpc_mbert
    - hvd_evaluate.sh
    - export_pai.sh
    - pai_single_task_train.sh
    - multi_task_local.json
    - export_multilingual_light_embedding
    - singletask_mnli_embedding_cpc_new_ligth_gs.json
    - regression_task.py
    - eval_sess_fn.py
    - multi_task.json
    - export_multilingual_light_embedding_cpc
    - all_reduce_lm.sh
    - export_model_fn.py
    - cls_task.py
    - export_multilingual_light_embedding_new
    - model_config_parser.py
    - all_reduce_adv.sh
    - sess_evaluate_single_task.sh
    - multitask_model_fn.py
    - single_task_train
    - multitask_model_fn_tmp.py
    - hvd_api.sh
    - pai_train_lm.sh
    - python ..:src:frozen_graph.py --saved_model_dir :d
    - pai_single_task_evaluate.sh
    - single_task_lm.json
    - hvd_train_eval_api.py
    - multitask_train_adv
    - all_reduce
    - embed_cpc_task.py
    - test_data_iterator.py
    - multitask_train_brand_search_cpc
    - sess_evaluate.sh
    - single_task_eval.json
    - model_data_interface.py
    - vae_task.py
    - :notebooks:source:MNN:build:MNNConvert -f TF --mod
    - pai_export.sh
    - pai_train.sh
    - multitask_train_embedding
    - multitask_embedding.json
    - multitask_train_lm
    - pai_evaluate.sh
    - multi_task_eval_local.json
    - single_task.json
    - multitask_train_embedding_new
    - multi_task_local_single_task.json
    - all_reduce_single_task.sh
    - multitask_train_embedding_cpc_new
    - __init__.py
    - train_eval.py
    - export_api.py
    - multi_task_lm.json
    - singletask_mnli_embedding_new.json
    - train_eval_sess_fn.py
    - input_fn.py
    - multitask_eval
    - test_model_fn.py
    - pai_tensorboard.sh
    - multi_task_embedding.json
    - singletask_mnli_embedding_new_light.json
    - embed_task.py
    - multitask_embedding_new.json
    - hvd_train_eval.py
    - run_tensorboard.sh
    - all_reduce.sh
    - single_task_eval
    - singletask_mnli_embedding_cpc_new.json
    - export_model.py
  - pretrain_finetuning
    - export_electra.sh
    - export_gated_seq_lm.py
    - trf_ebm_gpt_joint
    - electra_model_fn_fce.py
    - export_bert_seq_lm.py
    - model_fn_builder
    - discriminator_exporter_alone.py
    - trf_gpt_noise.py
    - electra_model_fn_gumbel_nce.py
    - classifier_fn_tpu_bert_seq_estimator.py
    - train_eval_tpu_estimator.py
    - export_generator_discriminator_as_single.sh
    - export_bert_seq_lm.sh
    - trf_bert_ebm_residual_estimator.py
    - bert_paraphrase
    - multi_model_gs_gumbel_scratch_sharing_embedding_tiny.json
    - multi_model_gs_ebm_fce_uncased_base.json
    - train_sess.py
    - multi_model_config_ebm_fce.json
    - trf_classifier.py
    - pai_eval.sh
    - multi_model_gs_gumbel.json
    - test_green_sample.py
    - multi_model_config_gumbel_share_embedding.json
    - generator_exporter_alone.py
    - electra_model_fn.py
    - multi_model_gs_gumbel_scratch_sharing_embedding_small.json
    - classifier_ema_fn_estimator.py
    - kmeans_algoithm.py
    - iterate_data.py
    - youku_title_comment_pretrain
    - chinese_wiki_albert
    - generator_igr.py
    - mrc_pretrain_finetuning
    - electra_train_debug_sharing_embed_relgan
    - export_discriminator.sh
    - multi_model_gs_ebm_fce_base.json
    - trf_ebm_bert.py
    - discriminator_relgan_exporter.py
    - multi_model_gs_gumbel_scratch_tiny_uncased.json
    - tpu_write_to_summary.py
    - export.py
    - electra_train_debug_sharing_embed_joint_adv
    - multi_model_config_gumbel_sharing_embedding.json
    - multi_model_gs_base_gumbel.json
    - electra_train_debug_sharing_embed_joint_eval
    - multi_model_gs_gumbel_scratch.json
    - electra_train_debug_sharing_embed_joint
    - all_reduce_eval.sh
    - trf_bert_ebm_gpt_estimator.py
    - token_discriminator.py
    - trf_ebm_uncased
    - electra_export_script.py
    - export_gatedcnn_lm.sh
    - token_discriminator_nce.py
    - test_op.py
    - shadowsocks
    - generator.py
    - token_generator.py
    - multi_model_gs_ebm_fce_uncased.json
    - token_discriminator_relgan.py
    - fake_news_2019
    - multi_model_gs.json
    - run_gatedcnn_tensorboard.sh
    - classifier_fn_tpu_estimator.py
    - bert_seq_lm
    - pai_collective.sh
    - multi_model_config_ebm_uncased.json
    - experiments
    - discriminator.py
    - green_text_pretrain_finetuning
    - pai_train.sh
    - multi_model_gs_gumbel_base.json
    - multi_model_config_gumbel_sharing_embedding_tiny.json
    - train_sess.sh
    - generator_exporter.py
    - multi_model_gs_gumbel_scratch_tiny.json
    - electra_model_fn_gumbel.py
    - open_domain_albert_tiny
    - multi_model_config_gumbel_sharing_embedding_relgan.json
    - electra_train_debug
    - token_generator_gumbel.py
    - multi_model_gs_gumbel_albert.json
    - multi_model_gs_gumbel_scratch_sharing_embedding_tiny_uncased.json
    - trf_bert_ebm_gpt.py
    - green_text_pretrain_finetuning_albert
    - multi_model_gs_gumbel_scratch_sharing_embedding.json
    - discriminator_relgan_exporter_alone.py
    - token_generator_hmm.py
    - multi_model_gs_ebm_fce.json
    - __init__.py
    - multi_model_config.json
    - train_eval.py
    - export_api.py
    - trf_hvd_train_v1.sh
    - multi_model_gs_base.json
    - discriminator_gumbel.py
    - gpu_test_cond.py
    - kmeans_test.py
    - generator_gumbel_normal.py
    - electra_export.py
    - classifier_fn_tpu_gatedcnn_estimator.py
    - export_checkpoints.py
    - multi_model_gs_gumbel_scratch_sharing.json
    - trf_ebm_noise_mlm_sample.py
    - multi_model_config_gumbel_sharing_embedding_small.json
    - electra_model_fn_gumbel_relgan.py
    - token_generator_igr.py
    - collective_reduce.sh
    - electra_all_generator_model_fn.py
    - token_generator_as_discriminator.py
    - classifier_fn.py
    - generator_gumbel.py
    - electra_train_debug_share_embedding
    - export_bert_seq_lm_en.sh
    - data_generator.sh
    - gatedcnn_lm_pretrain
    - multi_model_config_ebm_base.json
    - pai_tensorboard.sh
    - electra_train_debug_pretrain_relgan
    - discriminator_exporter.py
    - export_discriminator.py
    - electra_model_fn_gumbel_global.py
    - trf_bert_ebm_gpt_v1.py
    - multi_model_config_gumbel_albert.json
    - discriminator_gumbel_nce.py
    - run_tensorboard.sh
    - all_reduce.sh
    - discriminator_relgan.py
    - iterate_data.sh
    - multi_model_config_gumbel.json
    - data_processor.py
    - multi_model_config_gumbel_sharing_embedding_tiny_same.json
    - green_text_pretrain_finetuning_robusta
    - generator_as_discriminator.py
    - train_eval_gpu_electra_estimator.py
  - bert_rule
    - classifier_processor.py
    - flash_text.py
    - write_to_tfrecords.py
    - __init__.py
    - bert_rule_classifier.py
  - chid_nlpcc2019
    - chid_parameter_roeberta
    - chid_export
    - eval_estimator.py
    - model_batch_infer.py
    - run_export.sh
    - pai_collective_reduce.sh
    - model_fn_crf.py
    - export.py
    - model_infer.sh
    - run_infer.py
    - model_infer.py
    - chid_parameter_robusta_12
    - pai_export.sh
    - pai_train.sh
    - chid_parameter_robusta_12_sent
    - export.sh
    - output_script_test.py
    - out_script.py
    - __init__.py
    - export_api.py
    - model_fn.py
    - chid_parameter
    - chid_parameter_robusta_12_crf
    - chid_eval
    - collective_reduce.sh
    - pai_tensorboard.sh
    - chid_parameter_crf
    - chid_parameter_robusta_12_sent_collective
    - run_tensorboard.sh
    - all_reduce.sh
  - test
    - wsdm_distillation_train.sh
    - official_wsdm_order.py
    - wsdm_distributed_order_vib_train.sh
    - test_wsdm_distributed.py
    - oqmrc_train.sh
    - en_test_wsdm_distributed_order.py
    - test_oqmrc_final.py
    - eval_bert_esim.py
    - official_oqmrc_test.py
    - eval_wsdm_test.py
    - official_wsdm.sh
    - test_oqmrc_1.py
    - test_wsdm.py
    - horovod_test_distributed.sh
    - eval_bert_esim.sh
    - official_wsdm_bert_esim.sh
    - test_wsdm_distributed_bert_esim.py
    - eval_wsdm_esim_bert.py
    - eval_wsdm.sh
    - test_wsdm_order.py
    - test_oqmrc.py
    - official_wsdm.py
    - test_wsdm_distributed_vib_order.py
    - eval_wsdm_interaction.sh
    - wsdm_bert_esim_distributed_train.sh
    - eval_distillation_order.sh
    - official_wsdm_order.sh
    - wsdm_distributed_order_train.sh
    - test.sh
    - wsdm_distributed_train.sh
    - eval_wsdm_vib_order.py
    - official_wsdm_distillation_order.py
    - official_wsdm_bert_esim.py
    - eval_oqmrc.py
    - en_wsdm_distributed_order_train.sh
    - eval_wsdm_interaction_test.py
    - eval_distillation_order.py
    - wsdm_train.sh
    - wsdm_distributed_train_en.sh
    - eval_wsdm_order.py
    - wsdm_order_train.sh
    - wsdm_interaction_train.sh
    - eval_oqmrc_test.py
    - test_oqmrc_distributed_final.py
    - test_wsdm_distributed_order.py
    - oqmrc_distributed_train.sh
    - wsdm_distributed_order_train_en.sh
    - test_wsdm_interaction.py
    - test_wsdm_distributed_esim_bert.py
    - eval_wsdm_esim_bert.sh
    - start.sh
    - official_wsdm_distillation_order.sh
    - requirements.txt
    - en_eval_wsdm_order.sh
    - eval.sh
    - test_wsdm_distillation.py
    - wsdm_esim_bert_distributed_train.sh
    - eval_wsdm_order.sh
  - offline_debug
    - distributed_tf_data_utils.py
    - run.py
    - abuse_2_robusta_12
    - pai_collective_train.sh
    - prepare_data.py
    - abuse_2
    - porn_2
    - abuse_2_robusta
    - itera_data.py
    - __init__.py
    - model_fn.py
    - collective_reduce.sh
    - porn_albert
    - pai_tensorboard.sh
    - abuse_2_albert_base
    - jd_hyparameter
    - itera_data.sh
    - run_tensorboard.sh
    - train_estimator.py
  - distributed_gpt
    - run_export.sh
    - gpt_product_lm_export
    - export.py
    - pai_export.sh
    - pai_train.sh
    - export.sh
    - __init__.py
    - export_api.py
    - model_fn.py
    - gpt_product_title
    - pai_tensorboard.sh
    - run_tensorboard.sh
    - all_reduce.sh
  - task_module
    - span_mrc_classifier.py
    - pretrain_albert.py
    - pretrain.py
    - tsa.py
    - pretrain_adapter.py
    - classifier_adapter.py
    - __init__.py
    - classifier.py
    - tsa_pretrain.py
  - distributed_single_sentence_classification
    - local_test.sh
    - albert_official_base_lcqmc
    - porn_textcnn
    - export_multilingual_abusive.sh
    - bert_tiny_green_multiclass
    - train_eval_tpu_estimator.py
    - export_chenxi_disu.sh
    - train_eval_estimator_fn.py
    - hvd_evaluate.sh
    - bert_electra_tiny_green_multiclass_export
    - bert_tiny_multilingual_ssm_export
    - export_pai.sh
    - porn_2_albert_tiny
    - product_risk_6757_eval
    - model_distillation_adv_adaptation.py
    - porn_bert_small
    - pai_eval.sh
    - model_fn_interface.py
    - eval_sess_fn.py
    - product_risk_6757
    - evaluate.sh
    - bert_tiny_green_multiclass_export
    - pai_collective_train.sh
    - info
    - export_multilingual_ssm.sh
    - export_data_security.sh
    - bert_green_multiclass
    - model_relation_distillation.py
    - restore.py
    - embed_model_fn.py
    - bert_tiny_youku_title_comment_export
    - model_distillation_fn.py
    - albert_tiny_lcqmc_bert
    - eval_estimator_fn.py
    - bert_mtdnn_lcqmc
    - hvd_api_lazada_distillation.sh
    - hvd_evaluate_porn.sh
    - hvd_api.sh
    - multilingual_ssm_eval
    - bert_lcqmc_adv
    - multilingual_abusive_eval
    - porn_2_export
    - politics_hyparameter
    - porn_2_eval
    - export_lazada.sh
    - mrc_search
    - export.py
    - bert_qqp_eval
    - hvd_api_porn_bpe_feature_distillation.sh
    - electra_tiny_ugc_export
    - bert_tiny_youku_title_comment
    - abuse_2
    - local_test.py
    - porn_2
    - disu_albert_export.sh
    - jd_hvd_hparameter
    - gatedcnn_green_multiclass
    - all_reduce
    - model_feature_distillation_fn.py
    - export_lazada_0513.sh
    - tf_serving.sh
    - hvd_api_data_security_bpe.sh
    - multilingual_lazada_eval
    - gatedcnn_sentence_bert_cmnli
    - multilingual_ssm
    - fake_news_2019
    - fake_news_2019_robusta_eval
    - soar_train_eval.py
    - product_multiclass_export
    - chenxi_disu
    - export_textcnn_sentence_embed.sh
    - model_data_interface.py
    - restore.sh
    - multilingual_lazada
    - tf_serving_data_prepare.py
    - bert_tiny_electra_ugc
    - albert_tiny_lcqmc_eval
    - classifynet_model_fn.py
    - porn_bert_distillation
    - pai_export.sh
    - example.py
    - pai_train.sh
    - albert_tiny_lcqmc_export
    - fake_news_2019_robusta_12_eval
    - export.sh
    - pai_evaluate.sh
    - bert_lcqmc_adv_export
    - bert_qqp
    - model_mdd_distillation.py
    - multilingual_ssm_export
    - fake_news_2019_robusta_12
    - pai_ps
    - porn_eval
    - export_porn.sh
    - hvd_evaluate_lazada.sh
    - porn_hparameter
    - bert_small_eval
    - old_export.py
    - label
    - all_reduce_single_task.sh
    - __init__.py
    - train_eval.py
    - model_fn.py
    - bert_electra_tiny_green_multiclass
    - model_fn_co_teach.py
    - bert_base_green_multiclass_export
    - model_interface.py
    - multilingual_abusive
    - ps_train_eval.py
    - abuse_2_export
    - fake_news_2019_eval
    - train_eval_sess_fn.py
    - collective_reduce.sh
    - product_multiclass_eval
    - albert_tiny_xnli_eval
    - fake_news_2019_robusta
    - product_risk_multiclass
    - gatedcnn_green_multiclass_export
    - multilingual_abusive_distill_adv
    - chenxi_disu_eval
    - abuse_2_eval
    - jd_hyparameter
    - mrc_search_eval
    - hvd_train_eval.py
    - albert_tiny_xnli
    - albert_tiny_lcqmc
    - multilingual_ssm_small
    - all_reduce.sh
    - bert_model_fn.py
    - tf_serving_lazada.sh
    - hvd_api_chenxi_disu.sh
    - train_eval_multilabel_sess_fn.py
  - optimizer
    - optimizer.py
    - lookahead_utils.py
    - anneal_strategy.py
    - hvd_distributed_optimizer.py
    - distributed_optimizer.py
    - pai_soar_optimizer_utils.py
    - ema_utils.py
    - radam_utils.py
    - __init__.py
    - adam_weight_decay_exclude_utils.py
    - adam_weight_decay_utils.py
    - optimizer_utils.py
    - lamb_utils.py
  - distillation
    - repo_distillation_utils.py
    - uniform_mapping.py
    - knowledge_distillation.py
    - kdgan_distillation.py
    - repo_opt_utils.py
    - svp.py
    - distillation_utils.py
    - relation_kd_utils.py
    - __init__.py
    - flip_gradient.py
    - mdd_utils.py
    - crd_distillation.py
    - daan_distillation_utils.py
    - homm_utils.py
    - cpc_utils.py
  - multilingual
    - export_model.sh
    - test_tf_serving.sh
    - train.sh
    - restore.py
    - classifier_processor.py
    - base_train.py
    - test_tf_serving.py
    - restore.sh
    - __init__.py
    - data_generator.sh
    - data_processor.py
    - bert_classifier_estimator.py
    - export_model.py
  - distributed_multitask_0LD1
    - pai_train_adv.sh
    - multi_task_eval.json
    - train_eval_estimator_fn.py
    - hvd_evaluate.sh
    - pai_single_task_train.sh
    - eval_sess_fn.py
    - multi_task.json
    - cls_task.py
    - model_config_parser.py
    - multitask_model_fn.py
    - hvd_api.sh
    - hvd_train_eval_api.py
    - all_reduce
    - test_data_iterator.py
    - sess_evaluate.sh
    - multitask_train
    - model_data_interface.py
    - pai_train.sh
    - pai_evaluate.sh
    - multi_task_eval_local.json
    - __init__.py
    - train_eval.py
    - train_eval_sess_fn.py
    - multitask_eval
    - hvd_train_eval.py
    - all_reduce.sh
  - distributed_data_prepare
    - bert_pretrain_prepare.sh
    - data_prepare_lazada.sh
    - bert_classification_data_prepare.sh
    - classification_data_prepare.py
    - classification_distillation_data_prepare.py
    - bert_span_pretrain_effciency_prepare_english.sh
    - multitask_classification_data_prepare.py
    - data_distillation_prepare_chenxi_disu.sh
    - spm_tokenization.sh
    - bert_classification_data_prepare_xnli.sh
    - bert_classification_data_prepare_fake_news.sh
    - bert_classification_data_prepare_abuse.sh
    - pair_classification_data_prepare.py
    - data_distillation_prepare_lazada.sh
    - pair_distillation_multilingual_data_prepare.sh
    - multitask_classification_train_merged.py
    - multitask_data_prepare.sh
    - bert_classification_data_prepare_disu.sh
    - pair_distillation_data_prepare.sh
    - bert_classification_data_prepare_lcqmc.sh
    - bert_pair_data_prepare.sh
    - pair_data_prepare.sh
    - feature_reader.py
    - bert_classification_data_prepare_lazada.sh
    - pair_distillation_data_prepare_qqp.sh
    - data_prepare.sh
    - bert_classification_ssm_data_prepare.sh
    - bert_mrc_search_data_preapre.sh
    - bert_classification_chnsenti.sh
    - data_distilaltion_prepare.sh
    - bert_classification_data_prepare_lazada_adv_adaptation.sh
    - __init__.py
    - bert_pair_classification_prepare.py
    - bert_pretrain_efficiency_prepare_nlm.sh
    - bert_distillation_data_prepare.py
    - bert_classification_prepare.py
    - bert_pretrain_efficiency_prepare.sh
    - multitask_traindata_prepare.sh
    - spm_train.sh
    - language_model_data_prepare.sh
    - bert_span_pretrain_effciency_prepare.sh
    - language_model_data_prepare.py
    - spm_train.py
    - pair_distillation_lcqmc_multlingual.sh
    - bert_classification_data_prepare_porn.sh
    - chinese_adv_paws.sh
    - spm_tokenization.py
    - data_prepare_data_security.sh
  - distributed_distillation
    - train_eval_estimator_fn.py
    - student_model_pretrain_fn.py
    - knowledge_distillation_train
    - distillation_model_fn.py
    - teacher_model_fn.py
    - knowledge_distillation_train_porn
    - knowledge_distillation_train_xnli
    - pai_collective_reduce.sh
    - pretrain_distillation_multilingual_sentence_embedding
    - knowledge_distillation_pretrain.json
    - co_teaching_model_fn.py
    - distillation_config.json
    - pai_train.sh
    - teacher_model_pretrain_fn.py
    - knowledge_distillation_train_porn_collective
    - knowledge_distillation_multilingual_sst
    - __init__.py
    - train_eval.py
    - distillation_multistep_model_fn.py
    - student_model_fn.py
    - distillation_pretrain_model_fn.py
    - collective_reduce.sh
    - distillation_pretrain_config.json
    - knolwedge_distillation_config.json
    - pai_tensorboard.sh
    - pretrain_distillation_multilingual_sst
    - run_tensorboard.sh
    - all_reduce.sh
  - auto_ssh_key.sh
  - nlm_noisy_generator
    - __init__.py
    - utils.py
    - loader.py
  - example
    - bert_interaction_classifier.py
    - feature_writer.py
    - classifier_processor.py
    - write_to_tfrecords.py
    - create_pretrain_data.sh
    - write_to_tfrecords_multitask.py
    - write_to_records_pretrain.py
    - hvd_distributed_estimator_classifier.py
    - esim_bert.py
    - bert_esim_v1.py
    - hvd_bert_order_classifier.py
    - pretrain_classifier_processor.py
    - bert_order_classifier.py
    - __init__.py
    - bert_esim.py
    - sequence_processor.py
    - read_distillation_tfrecord.py
    - mrc_search_script.py
    - hvd_model_distributed_classifier.py
    - hvd_distributed_classifier.py
    - bert_classifier.py
    - bert_classifier_estimator.py
  - dataset_generator
    - dataset_utils.py
    - create_pretrain_generator.py
    - create_masked_lm_generator.py
    - create_generator.py
    - write_to_tfrecords.py
    - create_cls_problem_generator.py
    - generator_test.ipynb.invalid
    - data_reader.py
    - __init__.py
    - input_fn.py
    - problem_generator.py
    - write2tfrecords.sh
  - distributed_pretrain
    - auxiliary_task.py
    - __init__.py
  - knowledge_distillation
    - distillation.py
    - teacher.py
    - __init__.py
    - student.py
  - bunch
    - __init__.py
    - python3_compat.py
  - __init__.py
  - politics_classification
    - test_tf_serving.sh
    - eval.py
    - train.sh
    - restore.py
    - classifier_processor.py
    - export.py
    - base_train.py
    - test_tf_serving.py
    - politics_prediction.py
    - restore.sh
    - export.sh
    - __init__.py
    - data_generator.sh
    - eval.sh
    - data_processor.py
    - bert_classifier_estimator.py
  - distributed_multichoice_classification
    - __init__.py
    - bert_model_fn.py
  - kdgan
    - __init__.py
  - metric
    - metrics_impl_utils.py
    - tf_metrics.py
    - __init__.py
  - data_prepare
    - __init__.py
  - model
    - gpt
      - gpt_utils.py
      - sample.py
      - sample_naive.py
      - __init__.py
      - beam_search.py
      - gpt.py
    - dsmm
      - dsmm.py
      - __init__.py
    - textcnn
      - __init__.py
      - textcnn.py
    - match_pyramid
      - mp_cnn.py
      - match_pyramid.py
      - __init__.py
    - textlstm
      - textlstm.py
      - __init__.py
    - attention
      - attention.py
      - __init__.py
    - regularizer
      - vib.py
      - __init__.py
    - rnn
      - __init__.py
      - rnn.py
    - __init__.py
    - base_classify
      - base_model.py
      - __init__.py
    - esim
      - esim.py
      - __init__.py
    - base_text_similarity
      - base_model.py
      - __init__.py
    - bert
      - bert_rule.py
      - albert.py
      - albert_official_electra_joint.py
      - bert.py
      - distributed_bert.py
      - albert_official.py
      - bert_adapter.py
      - bert_seq.py
      - __init__.py
      - bert_electra_joint.py
    - dan
      - dan.py
      - __init__.py
      - dan_nvdm.py
  - learingww_distillation
    - __init__.py
  - model_io
    - model_io.py
    - free_horovod_graph.py
    - model_io_utils.py
    - __init__.py
    - get_checkpoint_node_name.py
    - extract_weight.py
  - app
    - sentiment_predict.py
    - infer.py
    - event_predict_v1.py
    - __init__.py
    - event_predict.py
  - .2C802669-3F2F-4C16-BA6A-F45AFEEAAA4E-410-000049A87FD26E0A
  - loss
    - triplet_loss_utils.py
    - __init__.py
    - loss_utils.py
  - summary
    - summary.py
    - __init__.py
- TensorFlowSinkhorn
- .idea
  - BERT.iml
  - libraries
    - R_User_Library.xml
  - modules.xml
  - misc.xml
  - workspace.xml
  - vcs.xml
- Dockerfile
- bert_language_understanding-master
  - bert_language_understanding-master
    - pretrain_task.py
    - pretrain_bert_cnn_lm.sh
    - train_bert_transformer.sh
    - evaluation_matrix.py
    - train_transform.py
    - train_bert_fine_tuning.py
    - data
      - old
      - aa1.jpeg
      - aa4.jpeg
    - __init__.py
    - README.md
    - train_bert_lm.py
    - model
      - bert_cnn_model.py
      - config.py
      - config_transformer.py
      - encoder.py
      - base_model.py
      - __init__.py
      - transfomer_model.py
      - layer_norm_residual_conn.py
      - poistion_wise_feed_forward.py
      - bert_model.py
      - multi_head_attention.py
    - data_util_hdf5.py
    - temp_covert.py
- run_tfgpu_docker_1_15.sh
- .gitignore
- adversarial-robustness-public
- build.sh

try:
	from distributed_single_sentence_classification.model_interface import model_zoo
	from distillation import distillation_utils
	from loss import loss_utils
except:
	from distributed_single_sentence_classification.model_interface import model_zoo
	from distillation import distillation_utils
	from loss import loss_utils

import tensorflow as tf
import numpy as np

from model_io import model_io
from task_module import classifier
import tensorflow as tf
from metric import tf_metrics
from task_module import pretrain
from utils.bert import bert_utils
from optimizer import distributed_optimizer as optimizer
from utils.simclr import simclr_utils

def build_accuracy(logits, labels, mask, loss_type):
	mask = tf.cast(mask, tf.float32)
	if loss_type == 'contrastive_loss':
		temp_sim = tf.subtract(tf.ones_like(logits), tf.rint(logits), name="temp_sim") #auto threshold 0.5
		correct = tf.equal(
							tf.cast(temp_sim, tf.float32),
							tf.cast(labels, tf.float32)
		)
		accuracy = tf.reduce_sum(tf.cast(correct, tf.float32)*mask)/(1e-10+tf.reduce_sum(mask))
	elif loss_type == 'exponent_neg_manhattan_distance_mse':
		temp_sim = tf.rint(logits)
		correct = tf.equal(
							tf.cast(temp_sim, tf.float32),
							tf.cast(labels, tf.float32)
		)
		accuracy = tf.reduce_sum(tf.cast(correct, tf.float32)*mask)/(1e-10+tf.reduce_sum(mask))
	return accuracy

def model_fn_builder(model,
					model_config,
					num_labels,
					init_checkpoint,
					model_reuse=None,
					load_pretrained=True,
					model_io_config={},
					opt_config={},
					exclude_scope="",
					not_storage_params=[],
					target="a",
					label_lst=None,
					output_type="sess",
					task_layer_reuse=None,
					**kargs):

	def model_fn(features, labels, mode):

		task_type = kargs.get("task_type", "cls")

		label_ids = tf.cast(features["{}_label_ids".format(task_type)], tf.float32)
		if task_type in ['mnli', 'cmnli']:
			loss_mask = tf.cast(features["{}_loss_multipiler".format(task_type)], tf.float32)
			nerual_label = tf.not_equal(
							label_ids,
							tf.zeros_like(label_ids)
			)

			pos_label =  tf.equal(
							label_ids,
							tf.ones_like(label_ids)
			)

			neg_label =  tf.not_equal(
							label_ids,
							2*tf.ones_like(label_ids)
			)

			loss_mask *= tf.cast(nerual_label, dtype=tf.float32) # make neural label
			label_ids *= tf.cast(neg_label, dtype=tf.float32)

		else:
			loss_mask = tf.cast(features["{}_loss_multipiler".format(task_type)], tf.float32)

		num_task = kargs.get('num_task', 1)

		model_io_fn = model_io.ModelIO(model_io_config)

		if mode == tf.estimator.ModeKeys.TRAIN:
			dropout_prob = model_config.dropout_prob
			is_training = True
		else:
			dropout_prob = 0.0
			is_training = False

		if model_io_config.fix_lm == True:
			scope = model_config.scope + "_finetuning"
		else:
			scope = model_config.scope

		if kargs.get("get_pooled_output", "pooled_output") == "pooled_output":
			pooled_feature = model.get_pooled_output()
		elif kargs.get("get_pooled_output", "task_output") == "task_output":
			pooled_feature_dict = model.get_task_output()
			pooled_feature = pooled_feature_dict['pooled_feature']

		if kargs.get('apply_head_proj', False):
			with tf.variable_scope(scope+"/head_proj", reuse=tf.AUTO_REUSE):
				feature_a = simclr_utils.projection_head(pooled_feature_dict['feature_a'], 
										is_training, 
										head_proj_dim=128,
										num_nlh_layers=1,
										head_proj_mode='nonlinear',
										name='head_contrastive')
				pooled_feature_dict['feature_a'] = feature_a

			with tf.variable_scope(scope+"/head_proj", reuse=tf.AUTO_REUSE):
				feature_b = simclr_utils.projection_head(pooled_feature_dict['feature_b'], 
										is_training, 
										head_proj_dim=128,
										num_nlh_layers=1,
										head_proj_mode='nonlinear',
										name='head_contrastive')
				pooled_feature_dict['feature_b'] = feature_b
			tf.logging.info("****** apply contrastive feature projection *******")		

		loss = tf.constant(0.0)

		params_size = model_io_fn.count_params(model_config.scope)
		print("==total encoder params==", params_size)

		if kargs.get("feature_distillation", True):
			universal_feature_a = features.get("input_ids_a_features", None)
			universal_feature_b = features.get("input_ids_b_features", None)
			
			if universal_feature_a is None or universal_feature_b is None:
				tf.logging.info("****** not apply feature distillation *******")
				feature_loss = tf.constant(0.0)
			else:
				feature_a = pooled_feature_dict['feature_a']
				feature_a_shape = bert_utils.get_shape_list(feature_a, expected_rank=[2,3])
				pretrain_feature_a_shape = bert_utils.get_shape_list(universal_feature_a, expected_rank=[2,3])
				if feature_a_shape[-1] != pretrain_feature_a_shape[-1]:
					with tf.variable_scope(scope+"/feature_proj", reuse=tf.AUTO_REUSE):
						proj_feature_a = tf.layers.dense(feature_a, pretrain_feature_a_shape[-1])
					# with tf.variable_scope(scope+"/feature_rec", reuse=tf.AUTO_REUSE):
					# 	proj_feature_a_rec = tf.layers.dense(proj_feature_a, feature_a_shape[-1])
					# loss += tf.reduce_mean(tf.reduce_sum(tf.square(proj_feature_a_rec-feature_a), axis=-1))/float(num_task)
					tf.logging.info("****** apply auto-encoder for feature compression *******")
				else:
					proj_feature_a = feature_a
				feature_a_norm = tf.stop_gradient(tf.sqrt(tf.reduce_sum(tf.pow(proj_feature_a, 2), axis=-1, keepdims=True))+1e-20)
				proj_feature_a /= feature_a_norm

				feature_b = pooled_feature_dict['feature_b'] 
				if feature_a_shape[-1] != pretrain_feature_a_shape[-1]:
					with tf.variable_scope(scope+"/feature_proj", reuse=tf.AUTO_REUSE):
						proj_feature_b = tf.layers.dense(feature_b, pretrain_feature_a_shape[-1])
					# with tf.variable_scope(scope+"/feature_rec", reuse=tf.AUTO_REUSE):
					# 	proj_feature_b_rec = tf.layers.dense(proj_feature_b, feature_a_shape[-1])
					# loss += tf.reduce_mean(tf.reduce_sum(tf.square(proj_feature_b_rec-feature_b), axis=-1))/float(num_task)
					tf.logging.info("****** apply auto-encoder for feature compression *******")
				else:
					proj_feature_b = feature_b

				feature_b_norm = tf.stop_gradient(tf.sqrt(tf.reduce_sum(tf.pow(proj_feature_b, 2), axis=-1, keepdims=True))+1e-20)
				proj_feature_b /= feature_b_norm

				feature_a_distillation = tf.reduce_mean(tf.square(universal_feature_a-proj_feature_a), axis=-1)
				feature_b_distillation = tf.reduce_mean(tf.square(universal_feature_b-proj_feature_b), axis=-1)

				feature_loss = tf.reduce_mean((feature_a_distillation + feature_b_distillation)/2.0)/float(num_task)
				loss += feature_loss
				tf.logging.info("****** apply prertained feature distillation *******")

		if kargs.get("embedding_distillation", True):
			word_embed = model.emb_mat
			random_embed_shape = bert_utils.get_shape_list(word_embed, expected_rank=[2,3])
			print("==random_embed_shape==", random_embed_shape)
			pretrained_embed = kargs.get('pretrained_embed', None)
			if pretrained_embed is None:
				tf.logging.info("****** not apply prertained feature distillation *******")
				embed_loss = tf.constant(0.0)
			else:
				pretrain_embed_shape = bert_utils.get_shape_list(pretrained_embed, expected_rank=[2,3])
				print("==pretrain_embed_shape==", pretrain_embed_shape)
				if random_embed_shape[-1] != pretrain_embed_shape[-1]:
					with tf.variable_scope(scope+"/embedding_proj", reuse=tf.AUTO_REUSE):
						proj_embed = tf.layers.dense(word_embed, pretrain_embed_shape[-1])
				else:
					proj_embed = word_embed
				
				embed_loss = tf.reduce_mean(tf.reduce_mean(tf.square(proj_embed-pretrained_embed), axis=-1))/float(num_task)
				loss += embed_loss
				tf.logging.info("****** apply prertained feature distillation *******")

		if kargs.get('loss', 'contrastive_loss') == 'contrastive_loss':

			feature_a = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_a'], axis=-1)
			feature_b = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_b'], axis=-1)

			# feature_a = pooled_feature_dict['feature_a']
			# feature_b = pooled_feature_dict['feature_b']

			per_example_loss, logits = loss_utils.contrastive_loss(label_ids, 
									feature_a,
									feature_b,
									kargs.get('margin', 1.0))
			tf.logging.info("****** contrastive_loss *******")
		elif kargs.get('loss', 'contrastive_loss') == 'exponent_neg_manhattan_distance_mse':
			feature_a = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_a'], axis=-1)
			feature_b = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_b'], axis=-1)

			# feature_a = pooled_feature_dict['feature_a']
			# feature_b = pooled_feature_dict['feature_b']

			per_example_loss, logits = loss_utils.exponent_neg_manhattan_distance(label_ids, 
									feature_a,
									feature_b,
									'mse')
			tf.logging.info("****** exponent_neg_manhattan_distance_mse *******")
		else:
			feature_a = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_a'], axis=-1)
			feature_b = tf.nn.l2_normalize(1e-20+pooled_feature_dict['feature_b'], axis=-1)

			# feature_a = pooled_feature_dict['feature_a']
			# feature_b = pooled_feature_dict['feature_b']

			per_example_loss, logits = loss_utils.contrastive_loss(label_ids, 
									feature_a,
									feature_b,
									kargs.get('margin', 1.0))
			tf.logging.info("****** contrastive_loss *******")
		# loss_mask = tf.cast(features["{}_loss_multipiler".format(task_type)], tf.float32)

		masked_per_example_loss = per_example_loss * loss_mask
		task_loss = tf.reduce_sum(masked_per_example_loss) / (1e-10+tf.reduce_sum(loss_mask))
		loss += task_loss

		# with tf.variable_scope(scope+"/{}/classifier".format(task_type), reuse=task_layer_reuse):
			
		# 	feature_a = pooled_feature_dict['feature_a']
		# 	feature_b = pooled_feature_dict['feature_a']

		# 	logtis_feature = tf.concat([feature_a, feature_b], axis=-1)

		# 	(_, 
		# 		cls_per_example_loss, 
		# 		cls_logits) = classifier.classifier(model_config,
		# 									logtis_feature,
		# 									num_labels,
		# 									label_ids,
		# 									dropout_prob)

		# loss_mask = tf.cast(features["{}_loss_multipiler".format(task_type)], tf.float32)
		# masked_per_example_loss = cls_per_example_loss * loss_mask
		# task_loss = tf.reduce_sum(masked_per_example_loss) / (1e-10+tf.reduce_sum(loss_mask))
		# loss += task_loss

		if mode == tf.estimator.ModeKeys.TRAIN:
			multi_task_config = kargs.get("multi_task_config", {})
			if multi_task_config[task_type].get("lm_augumentation", False):
				print("==apply lm_augumentation==")
				masked_lm_positions = features["masked_lm_positions"]
				masked_lm_ids = features["masked_lm_ids"]
				masked_lm_weights = features["masked_lm_weights"]
				(masked_lm_loss,
				masked_lm_example_loss, 
				masked_lm_log_probs) = pretrain.get_masked_lm_output(
												model_config, 
												model.get_sequence_output(), 
												model.get_embedding_table(),
												masked_lm_positions, 
												masked_lm_ids, 
												masked_lm_weights,
												reuse=model_reuse)

				masked_lm_loss_mask = tf.expand_dims(loss_mask, -1) * tf.ones((1, multi_task_config[task_type]["max_predictions_per_seq"]))
				masked_lm_loss_mask = tf.reshape(masked_lm_loss_mask, (-1, ))

				masked_lm_label_weights = tf.reshape(masked_lm_weights, [-1])
				masked_lm_loss_mask *= tf.cast(masked_lm_label_weights, tf.float32)

				masked_lm_example_loss *= masked_lm_loss_mask# multiply task_mask
				masked_lm_loss = tf.reduce_sum(masked_lm_example_loss) / (1e-10+tf.reduce_sum(masked_lm_loss_mask))
				loss += multi_task_config[task_type]["masked_lm_loss_ratio"]*masked_lm_loss

				masked_lm_label_ids = tf.reshape(masked_lm_ids, [-1])
				
				print(masked_lm_log_probs.get_shape(), "===masked lm log probs===")
				print(masked_lm_label_ids.get_shape(), "===masked lm ids===")
				print(masked_lm_label_weights.get_shape(), "===masked lm mask===")

				lm_acc = build_accuracy(masked_lm_log_probs, masked_lm_label_ids, masked_lm_loss_mask)

		if kargs.get("task_invariant", "no") == "yes":
			print("==apply task adversarial training==")
			with tf.variable_scope(scope+"/dann_task_invariant", reuse=model_reuse):
				(_, 
				task_example_loss, 
				task_logits)  = distillation_utils.feature_distillation(model.get_pooled_output(), 
														1.0, 
														features["task_id"], 
														kargs.get("num_task", 7),
														dropout_prob, 
														True)
				masked_task_example_loss = loss_mask * task_example_loss
				masked_task_loss = tf.reduce_sum(masked_task_example_loss) / (1e-10+tf.reduce_sum(loss_mask))
				loss += kargs.get("task_adversarial", 1e-2) * masked_task_loss

		tvars = model_io_fn.get_params(model_config.scope, 
										not_storage_params=not_storage_params)

		if mode == tf.estimator.ModeKeys.TRAIN:
			multi_task_config = kargs.get("multi_task_config", {})
			if multi_task_config[task_type].get("lm_augumentation", False):
				print("==apply lm_augumentation==")
				masked_lm_pretrain_tvars = model_io_fn.get_params("cls/predictions", 
												not_storage_params=not_storage_params)
				tvars.extend(masked_lm_pretrain_tvars)

		try:
			params_size = model_io_fn.count_params(model_config.scope)
			print("==total params==", params_size)
		except:
			print("==not count params==")
		# print(tvars)
		if load_pretrained == "yes":
			model_io_fn.load_pretrained(tvars, 
										init_checkpoint,
										exclude_scope=exclude_scope)

		if mode == tf.estimator.ModeKeys.TRAIN:

			acc = build_accuracy(logits, 
								label_ids, 
								loss_mask,
								loss_type=kargs.get('loss', 'contrastive_loss'))

			return_dict = {
					"loss":loss, 
					"logits":logits,
					"task_num":tf.reduce_sum(loss_mask),
					"tvars":tvars,
					"positive_label":tf.reduce_sum(label_ids*loss_mask)
				}
			return_dict["{}_acc".format(task_type)] = acc
			if kargs.get("task_invariant", "no") == "yes":
				return_dict["{}_task_loss".format(task_type)] = masked_task_loss
				task_acc = build_accuracy(task_logits, features["task_id"], loss_mask)
				return_dict["{}_task_acc".format(task_type)] = task_acc
			if multi_task_config[task_type].get("lm_augumentation", False):
				return_dict["{}_masked_lm_loss".format(task_type)] = masked_lm_loss
				return_dict["{}_masked_lm_acc".format(task_type)] = lm_acc
			if kargs.get("embedding_distillation", True):
				return_dict["embed_loss"] = embed_loss*float(num_task)
			else:
				return_dict["embed_loss"] = task_loss
			if kargs.get("feature_distillation", True):
				return_dict["feature_loss"] = feature_loss*float(num_task)
			else:
				return_dict["feature_loss"] = task_loss
			return_dict["task_loss"] = task_loss
			return return_dict
		elif mode == tf.estimator.ModeKeys.EVAL:
			eval_dict = {
				"loss":loss, 
				"logits":logits,
				"feature":model.get_pooled_output()
			}
			if kargs.get("adversarial", "no") == "adversarial":
				 eval_dict["task_logits"] = task_logits
			return eval_dict
	return model_fn