scala source code of XGBoostInference

xgbspark-text-classification-master
- src
  - main
    - resources
      - META-INF
        MANIFEST.MF
      - ansj_library.properties
    - scala
      - com
        lenovo
        ml
        XGBoostTrain.scala
        DataPreprocess.scala
        XGBoostInference.scala
        Word2Vector.scala
- xgbspark-text-classification.iml
- pom.xml
- LICENSE
- README.md
- .idea
  - libraries
    - Maven__org_apache_commons_commons_math3_3_4_1.xml
    - Maven__org_apache_calcite_calcite_linq4j_1_2_0_incubating.xml
    - Maven__net_sf_opencsv_opencsv_2_3.xml
    - Maven__org_glassfish_hk2_external_javax_inject_2_4_0_b34.xml
    - Maven__org_apache_spark_spark_core_2_11_2_1_1.xml
    - Maven__com_thoughtworks_paranamer_paranamer_2_3.xml
    - Maven__joda_time_joda_time_2_9_3.xml
    - Maven__com_google_guava_guava_14_0_1.xml
    - Maven__ml_dmlc_xgboost4j_spark_0_7.xml
    - Maven__com_github_fommil_netlib_core_1_1_2.xml
    - Maven__net_sf_py4j_py4j_0_10_4.xml
    - Maven__org_apache_commons_commons_lang3_3_5.xml
    - Maven__org_apache_hadoop_hadoop_client_2_2_0.xml
    - Maven__org_fusesource_leveldbjni_leveldbjni_all_1_8.xml
    - Maven__net_jpountz_lz4_lz4_1_3_0.xml
    - Maven__commons_net_commons_net_2_2.xml
    - Maven__io_dropwizard_metrics_metrics_core_3_1_2.xml
    - Maven__org_apache_calcite_calcite_avatica_1_2_0_incubating.xml
    - Maven__org_apache_spark_spark_graphx_2_11_2_1_1.xml
    - Maven__org_apache_hadoop_hadoop_auth_2_2_0.xml
    - Maven__com_github_rwl_jtransforms_2_4_0.xml
    - Maven__org_glassfish_hk2_osgi_resource_locator_1_0_1.xml
    - Maven__org_apache_hadoop_hadoop_yarn_common_2_2_0.xml
    - Maven__org_apache_hadoop_hadoop_annotations_2_2_0.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_2_0.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_2_0.xml
    - Maven__log4j_log4j_1_2_17.xml
    - Maven__org_iq80_snappy_snappy_0_2.xml
    - Maven__com_ning_compress_lzf_1_0_3.xml
    - Maven__com_google_code_findbugs_jsr305_1_3_9.xml
    - Maven__org_slf4j_jul_to_slf4j_1_7_16.xml
    - Maven__org_json4s_json4s_ast_2_11_3_2_11.xml
    - Maven__org_glassfish_jersey_core_jersey_server_2_22_2.xml
    - Maven__org_apache_zookeeper_zookeeper_3_4_5.xml
    - Maven__org_datanucleus_datanucleus_core_3_2_10.xml
    - Maven__org_apache_httpcomponents_httpclient_4_5_2.xml
    - Maven__org_scala_lang_scala_compiler_2_11_0.xml
    - Maven__org_codehaus_jackson_jackson_core_asl_1_9_13.xml
    - Maven__org_apache_httpcomponents_httpcore_4_4_4.xml
    - Maven__xmlenc_xmlenc_0_52.xml
    - Maven__com_google_inject_guice_3_0.xml
    - Maven__io_dropwizard_metrics_metrics_json_3_1_2.xml
    - Maven__org_spire_math_spire_macros_2_11_0_7_4.xml
    - Maven__oro_oro_2_0_8.xml
    - Maven__com_googlecode_javaewah_JavaEWAH_0_3_2.xml
    - Maven__javax_validation_validation_api_1_1_0_Final.xml
    - Maven__commons_beanutils_commons_beanutils_1_7_0.xml
    - Maven__org_datanucleus_datanucleus_rdbms_3_2_9.xml
    - Maven__commons_pool_commons_pool_1_5_4.xml
    - Maven__org_apache_spark_spark_unsafe_2_11_2_1_1.xml
    - Maven__com_google_protobuf_protobuf_java_2_5_0.xml
    - Maven__org_apache_hadoop_hadoop_yarn_api_2_2_0.xml
    - Maven__org_apache_parquet_parquet_format_2_3_0_incubating.xml
    - Maven__commons_digester_commons_digester_1_8.xml
    - Maven__org_apache_xbean_xbean_asm5_shaded_4_4.xml
    - Maven__commons_logging_commons_logging_1_1_3.xml
    - Maven__javax_jdo_jdo_api_3_0_1.xml
    - Maven__commons_codec_commons_codec_1_10.xml
    - Maven__org_roaringbitmap_RoaringBitmap_0_5_11.xml
    - Maven__commons_beanutils_commons_beanutils_core_1_8_0.xml
    - Maven__commons_io_commons_io_2_4.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_2_0.xml
    - Maven__org_codehaus_janino_commons_compiler_3_0_0.xml
    - Maven__org_apache_avro_avro_ipc_1_7_7.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_6_5.xml
    - Maven__io_dropwizard_metrics_metrics_jvm_3_1_2.xml
    - Maven__org_apache_spark_spark_catalyst_2_11_2_1_1.xml
    - Maven__org_scalanlp_breeze_macros_2_11_0_12.xml
    - Maven__aopalliance_aopalliance_1_0.xml
    - Maven__javolution_javolution_5_5_1.xml
    - Maven__org_apache_commons_commons_crypto_1_0_0.xml
    - Maven__org_apache_hadoop_hadoop_hdfs_2_2_0.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_22_2.xml
    - Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_6_5.xml
    - Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_0_1.xml
    - Maven__org_apache_calcite_calcite_core_1_2_0_incubating.xml
    - Maven__javax_transaction_jta_1_1.xml
    - Maven__commons_cli_commons_cli_1_2.xml
    - Maven__org_glassfish_jersey_bundles_repackaged_jersey_guava_2_22_2.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_2_0.xml
    - Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_22_2.xml
    - Maven__net_java_dev_jets3t_jets3t_0_7_1.xml
    - Maven__javax_ws_rs_javax_ws_rs_api_2_0_1.xml
    - Maven__org_antlr_antlr4_runtime_4_5_3.xml
    - Maven__org_glassfish_hk2_hk2_api_2_4_0_b34.xml
    - Maven__org_codehaus_jackson_jackson_mapper_asl_1_9_13.xml
    - Maven__org_apache_avro_avro_1_7_7.xml
    - Maven__org_apache_commons_commons_math_2_1.xml
    - Maven__org_apache_spark_spark_hive_2_11_2_1_1.xml
    - Maven__javax_inject_javax_inject_1.xml
    - Maven__org_ansj_ansj_seg_5_1_2.xml
    - Maven__org_objenesis_objenesis_2_1.xml
    - Maven__org_antlr_ST4_4_0_4.xml
    - Maven__org_antlr_antlr_runtime_3_4.xml
    - Maven__org_apache_spark_spark_sketch_2_11_2_1_1.xml
    - Maven__javax_annotation_javax_annotation_api_1_2.xml
    - Maven__com_fasterxml_jackson_core_jackson_core_2_6_5.xml
    - Maven__org_json4s_json4s_jackson_2_11_3_2_11.xml
    - Maven__org_apache_hadoop_hadoop_yarn_client_2_2_0.xml
    - Maven__com_twitter_chill_java_0_8_0.xml
    - Maven__javax_servlet_javax_servlet_api_3_1_0.xml
    - Maven__org_apache_parquet_parquet_column_1_8_1.xml
    - Maven__org_apache_parquet_parquet_encoding_1_8_1.xml
    - Maven__org_scala_lang_scala_reflect_2_11_7.xml
    - Maven__io_netty_netty_all_4_0_42_Final.xml
    - Maven__commons_httpclient_commons_httpclient_3_1.xml
    - Maven__net_razorvine_pyrolite_4_13.xml
    - Maven__com_esotericsoftware_kryo_shaded_3_0_3.xml
    - Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_2_0.xml
    - Maven__org_apache_thrift_libfb303_0_9_3.xml
    - Maven__org_slf4j_jcl_over_slf4j_1_7_16.xml
    - Maven__com_twitter_chill_2_11_0_8_0.xml
    - Maven__junit_junit_4_12.xml
    - Maven__org_datanucleus_datanucleus_api_jdo_3_2_6.xml
    - Maven__org_spark_project_hive_hive_exec_1_2_1_spark2.xml
    - Maven__org_xerial_snappy_snappy_java_1_1_2_6.xml
    - Maven__org_apache_parquet_parquet_hadoop_1_8_1.xml
    - Maven__org_spark_project_spark_unused_1_0_0.xml
    - Maven__org_apache_curator_curator_framework_2_4_0.xml
    - Maven__org_apache_spark_spark_mllib_2_11_2_1_1.xml
    - Maven__org_apache_spark_spark_network_common_2_11_2_1_1.xml
    - Maven__io_netty_netty_3_8_0_Final.xml
    - Maven__com_fasterxml_jackson_core_jackson_annotations_2_6_5.xml
    - Maven__org_spire_math_spire_2_11_0_7_4.xml
    - Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_22_2.xml
    - Maven__org_apache_curator_curator_client_2_4_0.xml
    - Maven__org_json4s_json4s_core_2_11_3_2_11.xml
    - Maven__org_slf4j_slf4j_log4j12_1_7_16.xml
    - Maven__com_jolbox_bonecp_0_8_0_RELEASE.xml
    - Maven__org_apache_ivy_ivy_2_4_0.xml
    - Maven__com_chuusai_shapeless_2_11_2_0_0.xml
    - Maven__commons_configuration_commons_configuration_1_6.xml
    - Maven__org_codehaus_janino_janino_3_0_0.xml
    - Maven__org_glassfish_hk2_external_aopalliance_repackaged_2_4_0_b34.xml
    - Maven__org_apache_spark_spark_sql_2_11_2_1_1.xml
    - Maven__org_apache_spark_spark_launcher_2_11_2_1_1.xml
    - Maven__org_glassfish_hk2_hk2_utils_2_4_0_b34.xml
    - Maven__com_univocity_univocity_parsers_2_2_1.xml
    - Maven__stax_stax_api_1_0_1.xml
    - Maven__com_esotericsoftware_minlog_1_3_0.xml
    - Maven__org_spark_project_hive_hive_metastore_1_2_1_spark2.xml
    - Maven__antlr_antlr_2_7_7.xml
    - Maven__org_apache_parquet_parquet_common_1_8_1.xml
    - Maven__org_apache_derby_derby_10_10_2_0.xml
    - Maven__log4j_apache_log4j_extras_1_2_17.xml
    - Maven__org_apache_thrift_libthrift_0_9_3.xml
    - Maven__org_scala_lang_modules_scala_xml_2_11_1_0_1.xml
    - Maven__org_nlpcn_nlp_lang_1_7_2.xml
    - Maven__com_clearspring_analytics_stream_2_7_0.xml
    - Maven__org_apache_spark_spark_network_shuffle_2_11_2_1_1.xml
    - Maven__org_scalanlp_breeze_2_11_0_12.xml
    - Maven__org_apache_avro_avro_ipc_tests_1_7_7.xml
    - Maven__com_twitter_parquet_hadoop_bundle_1_6_0.xml
    - Maven__org_apache_hadoop_hadoop_yarn_server_common_2_2_0.xml
    - Maven__net_hydromatic_eigenbase_properties_1_1_5.xml
    - Maven__commons_collections_commons_collections_3_2_1.xml
    - Maven__org_glassfish_jersey_core_jersey_client_2_22_2.xml
    - Maven__org_slf4j_slf4j_api_1_7_16.xml
    - Maven__org_apache_avro_avro_mapred_hadoop2_1_7_7.xml
    - Maven__org_jpmml_pmml_schema_1_2_15.xml
    - Maven__org_jpmml_pmml_model_1_2_15.xml
    - Maven__commons_lang_commons_lang_2_6.xml
    - Maven__org_tukaani_xz_1_0.xml
    - Maven__org_antlr_stringtemplate_3_2_1.xml
    - Maven__org_apache_spark_spark_mllib_local_2_11_2_1_1.xml
    - Maven__org_apache_parquet_parquet_jackson_1_8_1.xml
    - Maven__org_javassist_javassist_3_18_1_GA.xml
    - Maven__org_glassfish_jersey_core_jersey_common_2_22_2.xml
    - Maven__commons_dbcp_commons_dbcp_1_4.xml
    - Maven__org_scala_lang_scala_library_2_11_8.xml
    - Maven__org_mortbay_jetty_jetty_util_6_1_26.xml
    - Maven__org_apache_spark_spark_tags_2_11_2_1_1.xml
    - Maven__org_glassfish_hk2_hk2_locator_2_4_0_b34.xml
    - Maven__org_jodd_jodd_core_3_5_2.xml
    - Maven__org_apache_commons_commons_compress_1_4_1.xml
    - Maven__com_fasterxml_jackson_core_jackson_databind_2_6_5.xml
    - Maven__org_apache_curator_curator_recipes_2_4_0.xml
    - Maven__org_apache_hadoop_hadoop_common_2_2_0.xml
    - Maven__org_hamcrest_hamcrest_core_1_3.xml
    - Maven__org_scala_lang_scalap_2_11_0.xml
    - Maven__io_dropwizard_metrics_metrics_graphite_3_1_2.xml
    - Maven__org_apache_spark_spark_streaming_2_11_2_1_1.xml
    - Maven__net_sourceforge_f2j_arpack_combined_all_0_1.xml
  - compiler.xml
  - modules.xml
  - uiDesigner.xml
  - encodings.xml
  - artifacts
    - xgbspark_text_classification_jar.xml
  - misc.xml
  - vcs.xml
  - copyright
    - profiles_settings.xml
- .gitignore

package com.lenovo.ml

/**
  * Created by YangChenguang on 2017/9/15.
  */
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.StructType
import DataPreprocess.segWords
import org.apache.spark.ml.PipelineModel

object XGBoostInference {
  def main(args:Array[String]): Unit = {
    // 1、创建Spark程序入口
    val sparkSession = SparkSession.builder().appName("XGBoostInference").enableHiveSupport().getOrCreate()

    // 2、读取训练数据，对文本预处理后分词
    val tableName = args(0)
    val matrix = sparkSession.sql("SELECT * FROM " + tableName)
    val words = segWords(sparkSession, args(1), args(2), args(3), args(4), matrix.select("text"))

    // 3、将原数据与分词结果关联起来
    val rows = matrix.rdd.zip(words.rdd).map{
      case (rowLeft, rowRight) => Row.fromSeq(rowLeft.toSeq ++ rowRight.toSeq)
    }
    val schema = StructType(matrix.schema.fields ++ words.schema.fields)
    val matrixMerge = sparkSession.createDataFrame(rows, schema)

    // 4、构建特征向量
    val featuredModelTrained = sparkSession.sparkContext.broadcast(PipelineModel.read.load(args(5)))
    val dataPrepared = featuredModelTrained.value.transform(matrixMerge).repartition(18).cache()

    // 5、加载分类模型，产出故障预测结果
    val xgbModelTrained = sparkSession.sparkContext.broadcast(PipelineModel.read.load(args(6)))
    val prediction = xgbModelTrained.value.transform(dataPrepared)

    // 6、将预测结果写到HDFS
    prediction.select("text", "predictedLabel", "probabilities").rdd.coalesce(1).saveAsTextFile(args(7))

    sparkSession.stop()
  }
}