python source code of gradient_boosting

Project: DataMiningCompetitionFirstPrize (GitHub Link)

DataMiningCompetitionFirstPrize-master
- processing
  - trainProcessed
    - .DS_Store
    - examples_train.txt_backup
    - collumInfo.txt
  - newFeatures
    - extract_location_info.py
    - card_feature_selection.py
    - faculty_feature_selection.py
    - loc_dict.csv
    - consume_rank_feature.py
    - .DS_Store
    - __init__.py
    - loc_impor.csv
  - processCard.py
  - processCardZhendong.py
  - processLibrary.py
  - standardization.py
  - testProcessed
    - examples_test.txt_backup
    - collumInfo.txt
  - .DS_Store
  - add_head.py
  - CheckFeature.py
  - refresh_train.sh
  - processScore.py
  - processDorm.py
  - readFromFile.py
  - createStudentForms.py
  - refresh_test.sh
  - checkRules.py
  - processBorrow.py
  - processsCardZhendong.py
  - tool.py
  - processCard4.py
- data_analysis
  - user_record.py
  - library
    - __init__.py
    - trace_one.py
  - concat_dorm.py
  - subsidy_distribution_in_faculty.py
  - score_distribution.py
  - subsidy_distribution.py
  - borrow_distribution.py
  - card
    - find_consume_type.py
    - trace_one.py
  - .DS_Store
  - __init__.py
  - dorm
    - __init__.py
    - dorm_distribution.py
    - trace_one.py
  - test.py
  - trace_one.py
- online
  - add_subsidy_info.py
  - prediction_for_test.py
  - __init__.py
- offline
  - learning_validation.py
  - __init__.pyc
  - .DS_Store
  - learning_validation.pyc
  - __init__.py
- LICENSE
- blending
  - prepare_testing_set.py
  - .DS_Store
  - learning_online.py
  - __init__.py
  - prepare_training_set.py
  - learning_offline.py
- commons
  - validation.pyc
  - variables.py
  - tools.pyc
  - __init__.pyc
  - validation.py
  - tools.py
  - __init__.py
  - variables.pyc
- learning_algorithm
  - knn_bagging.pyc
  - support_vector_machine_linear.py
  - gradient_boosting_blending.py
  - xgboosting.py
  - gradient_boosting.pyc
  - vote_blending.pyc
  - decision_tree_blending.py
  - xgboosting.pyc
  - single_algorithm_blending.py
  - knn.pyc
  - logistic_regression_blending.pyc
  - vote_blending.py
  - ada_boosting.pyc
  - gradient_boosting_blending.pyc
  - __init__.pyc
  - knn_bagging.py
  - extra_trees.py
  - random_forest.pyc
  - single_algorithm_blending.pyc
  - decision_tree_blending.pyc
  - support_vector_machine.pyc
  - support_vector_machine.py
  - gradient_boosting.py
  - __init__.py
  - ada_boosting.py
  - knn.py
  - neural_network.pyc
  - logistic_regression_blending.py
  - extra_trees.pyc
  - neural_network.py
  - random_forest.py
- commond
  - pull_from_server
  - kill_on_cluster_single
  - run_on_cluster_single
  - run_on_cluster_test
  - kill_on_cluster
  - updata_server_code
  - run_on_cluster_train
  - updata_server_data
- feature_importance
  - feature_importance.py
  - __init__.py
- README.md
- .gitignore
- doc
- preprocess
  - card_feature_selection.py
  - stratified_split_cross_validation.py
  - split_cross_validation.py
  - card_feature_selection_backup.py
  - remove_duplicate_card.py
  - find_useless_user.py
  - compare_two_file.py
  - __init__.py

from sklearn.ensemble import GradientBoostingClassifier
from commons import variables
from commons import tools
from scipy.stats import mode


def learn(x, y, test_x):
    # set sample weight


    weight_list = []
    for j in range(len(y)):
        if y[j] == "0":
            weight_list.append(variables.weight_0_gdbt_b)
        if y[j] == "1000":
            weight_list.append(variables.weight_1000_gdbt_b)
        if y[j] == "1500":
            weight_list.append(variables.weight_1500_gdbt_b)
        if y[j] == "2000":
            weight_list.append(variables.weight_2000_gdbt_b)

    clf = GradientBoostingClassifier(loss='deviance', n_estimators=variables.n_estimators_gdbt_b,
                                     learning_rate=variables.learning_rate_gdbt_b,
                                     max_depth=variables.max_depth_gdbt_b, random_state=0,
                                     min_samples_split=variables.min_samples_split_gdbt_b,
                                     min_samples_leaf=variables.min_samples_leaf_gdbt_b,
                                     subsample=variables.subsample_gdbt_b,
                                     ).fit(x, y, weight_list)
    prediction_list = clf.predict(test_x)

    return prediction_list