scala source code of NaiveBayesTest

AI-master
- .github
  - PULL_REQUEST_TEMPLATE
- src
  - main
    - resources
      - stopWords
      - emailConnect
        enrondata
      - configResource
        hbaseNews.xml
        hbaseNews.properties
      - nbData
        i100-i500
    - scala
      - com
        bigchange
        kafka
        KafkaProducer.scala
        DriverApp.scala
        KafkaConsumer.scala
        ml
        SimpleTextClassificationPipeline.scala
        MovieLensALS.scala
        corenlp
        NLPProcessor.scala
        hbase
        HBase.scala
        test
        DistanceRecommendTest.scala
        Test.scala
        TestCKMeans.scala
        TestLabeledFaces.scala
        NaiveBayesTest.scala
        log
        CLogger.scala
        streaming
        StreamingModelProducer.scala
        StreamingSimpleModel.scala
        SocketCousumer.scala
        StreamingReceiveDataFromKafka.scala
        SocketProducer.scala
        util
        ExcelWriter.scala
        StringUtil.scala
        TimeUtil.scala
        HDFSFileUtil.scala
        FileUtil.scala
        FileContentWriter.scala
        Redis.scala
        BloomFilter.scala
        HBaseUtil.scala
        config
        HbaseConfig.scala
        Dom4jParser.scala
        FileConfig.scala
        SXMLConfig.scala
        XMLConfig.scala
        Parameter.scala
        thread
        ThreadPool.scala
        spark
        Configuration.scala
        Spark.scala
        datamining
        note.md
        DistanceRecommend.scala
        CustomNaiveBayes.scala
        CKMeans.scala
        graphX
        PageRankExample.scala
        Analytics.scala
        ssql
        MySQLDemo.scala
        DataBase.scala
        DataSetPractice.scala
        akka
        message
        Respond.scala
        Result.scala
        Word.scala
        AggData.scala
        MapData.scala
        ReduceData.scala
        TestAkka.scala
        Scheduler.scala
        actor
        MapActor.scala
        AggregateActor.scala
        TestActor.scala
        MasterActor.scala
        ReduceActor.scala
        ResultActor.scala
        basic
        GraphOperation.scala
        DataFrameTest.scala
        PolyFunctionImp.scala
        KafkaWordCount.scala
        FilesAndArchivesTest.scala
        BroadcastTest2.scala
        HiveOperationTest.scala
        MonitorHDFSDirFiles.scala
        GraphAlgorithms.scala
        RecommendationTest.scala
        SparkKMeans.scala
        SparkLR.scala
        http
        Http.scala
        concurrent
        FutureDemo.scala
        FutureCon.scala
        deeplearning
        LeNet.scala
        train
        ObjectRecognitionInImages.scala
        DigitRecognizer.scala
        KaggleEverGreen.scala
        LoadModel.scala
        metrics
        MetricsForApp.scala
        mllib
        DenseKMeans.scala
        MovieALS.scala
        AbstractParams.scala
        StreamingLogisticRegression.scala
        LabeledFaces.scala
        RelationWithItemToItem.scala
        NewsGroups.scala
        KaggleEverGreen.scala
        MoviesLensALS.scala
        LR.scala
        TFIDF.scala
        SparseNaiveBayes.scala
        usercase
        telecom
        SHRealTimeStockHeatData.scala
        Test.scala
        SHRealTimeSearchAndVisitCount.scala
        log
        SparkLogOutputConfigTest.scala
        SparkStreamingLogAnalysis.scala
    - java
      - com
        bigchange
        reflect
        MyReflect.java
        City.java
        Person.java
        TestInterface.java
        socket
        TestServer.java
        TestClient.java
        IBusiness.java
        TestBusiness.java
        TestServerTask.java
        concurrent
        blockingqueue
        main
        Test.java
        TestBlockingQueueConsumer.java
        TestBlockingQueue.java
        TestBlockingQueueProducer.java
        consumer
        Consumer.java
        producer
        Producer.java
        thread
        pool
        ExecutorDemo.java
        ThreadPoolWithRunable.java
        TaskRunnable.java
        ThreadPoolWithcallable.java
        TaskCallable.java
        TestPool.java
        lock
        MySynchronizedReadWrite.java
        Test.java
        MyReentrantReadWriteLock.java
        MyTryLock.java
        MyLockTest.java
        MyInterruptibly.java
  - test
    - resources
      - config.xml
      - message.xml
    - scala
      - com
        bigchange
        util
        TestBloomFilter.scala
        config
        TestDom4jParser.scala
        TestXMLConfig.scala
- PULL_REQUEST_TEMPLATE
- LICENSE
- project
  - build.properties
  - plugins.sbt
- README.md
- .idea
  - libraries
    - SBT__com_101tec_zkclient_0_3_jar.xml
    - SBT__com_google_inject_guice_3_0_jar.xml
    - SBT__com_fasterxml_jackson_core_jackson_annotations_2_4_4_jar.xml
    - SBT__org_apache_avro_avro_mapred_1_7_7_hadoop2_jar.xml
    - SBT__org_apache_mesos_mesos_0_21_1_shaded_protobuf_jar.xml
    - SBT__junit_junit_4_11_jar.xml
    - SBT__javax_inject_javax_inject_1_jar.xml
    - SBT__org_mortbay_jetty_servlet_api_2_5_6_1_14_jar.xml
    - SBT__xerces_xercesImpl_2_9_1_jar.xml
    - SBT__org_apache_parquet_parquet_generator_1_7_0_jar.xml
    - SBT__com_fasterxml_jackson_core_jackson_core_2_4_4_jar.xml
    - SBT__org_scala_lang_scala_compiler_2_10_0_jar.xml
    - SBT__org_apache_spark_spark_streaming_2_10_1_5_2_jar.xml
    - SBT__net_razorvine_pyrolite_4_4_jar.xml
    - SBT__com_sun_xml_bind_jaxb_core_2_2_7_jar.xml
    - SBT__com_github_rwl_jtransforms_2_4_0_jar.xml
    - SBT__org_apache_spark_spark_catalyst_2_10_1_5_2_jar.xml
    - SBT__commons_httpclient_commons_httpclient_3_1_jar.xml
    - SBT__io_netty_netty_all_4_0_29_Final_jar.xml
    - SBT__com_sun_jersey_contribs_jersey_guice_1_9_jar.xml
    - SBT__io_dropwizard_metrics_metrics_jvm_3_1_2_jar.xml
    - SBT__org_json_json_20140107_jar.xml
    - SBT__org_jamon_jamon_runtime_2_3_1_jar.xml
    - SBT__org_mortbay_jetty_jetty_util_6_1_26_jar.xml
    - SBT__org_eclipse_jetty_orbit_javax_servlet_3_0_0_v201112011016_jar.xml
    - SBT__org_json4s_json4s_ast_2_10_3_2_10_jar.xml
    - SBT__io_dropwizard_metrics_metrics_core_3_1_2_jar.xml
    - SBT__org_apache_hbase_hbase_client_1_1_2_jar.xml
    - SBT__net_java_dev_jets3t_jets3t_0_7_1_jar.xml
    - SBT__org_apache_avro_avro_ipc_1_7_7_tests_jar.xml
    - SBT__commons_configuration_commons_configuration_1_6_jar.xml
    - SBT__org_uncommons_maths_uncommons_maths_1_2_2a_jar.xml
    - SBT__org_apache_hadoop_hadoop_mapreduce_client_core_2_7_1_jar.xml
    - SBT__net_sourceforge_f2j_arpack_combined_all_0_1_jar.xml
    - SBT__org_apache_hadoop_hadoop_common_2_7_1_jar.xml
    - SBT__org_apache_spark_spark_network_common_2_10_1_5_2_jar.xml
    - SBT__com_fasterxml_jackson_module_jackson_module_scala_2_10_2_4_4_jar.xml
    - SBT__commons_el_commons_el_1_0_jar.xml
    - SBT__org_apache_commons_commons_pool2_2_3_jar.xml
    - SBT__oro_oro_2_0_8_jar.xml
    - SBT__org_scalanlp_breeze_2_10_0_11_2_jar.xml
    - SBT__org_apache_hadoop_hadoop_hdfs_2_7_1_jar.xml
    - SBT__org_apache_directory_api_api_asn1_api_1_0_0_M20_jar.xml
    - SBT__org_apache_hadoop_hadoop_mapreduce_client_common_2_7_1_jar.xml
    - SBT__net_sf_py4j_py4j_0_8_2_1_jar.xml
    - SBT__com_google_code_gson_gson_2_2_4_jar.xml
    - SBT__org_apache_directory_api_api_util_1_0_0_M20_jar.xml
    - SBT__javax_servlet_servlet_api_2_5_jar.xml
    - SBT__org_codehaus_jackson_jackson_mapper_asl_1_9_13_jar.xml
    - SBT__org_apache_parquet_parquet_jackson_1_7_0_jar.xml
    - SBT__org_json4s_json4s_jackson_2_10_3_2_10_jar.xml
    - SBT__com_esotericsoftware_reflectasm_reflectasm_1_07_shaded_jar.xml
    - SBT__org_codehaus_jackson_jackson_jaxrs_1_9_13_jar.xml
    - SBT__com_yammer_metrics_metrics_core_2_2_0_jar.xml
    - SBT__org_apache_curator_curator_client_2_7_1_jar.xml
    - SBT__org_tachyonproject_tachyon_underfs_local_0_7_1_jar.xml
    - SBT__net_databinder_dispatch_dispatch_core_2_10_0_11_0_jar.xml
    - SBT__net_sf_opencsv_opencsv_2_3_jar.xml
    - SBT__org_mortbay_jetty_jetty_sslengine_6_1_26_jar.xml
    - SBT__com_sun_istack_istack_commons_runtime_2_16_jar.xml
    - SBT__com_sun_jersey_jersey_core_1_9_jar.xml
    - SBT__log4j_log4j_1_2_17_jar.xml
    - SBT__com_esotericsoftware_minlog_minlog_1_2_jar.xml
    - SBT__com_ning_compress_lzf_1_0_3_jar.xml
    - SBT__org_tachyonproject_tachyon_client_0_7_1_jar.xml
    - SBT__commons_beanutils_commons_beanutils_1_7_0_jar.xml
    - SBT__commons_collections_commons_collections_3_2_1_jar.xml
    - SBT__org_xerial_snappy_snappy_java_1_1_1_7_jar.xml
    - SBT__org_apache_parquet_parquet_format_2_3_0_incubating_jar.xml
    - SBT__org_apache_kafka_kafka_clients_0_8_2_1_jar.xml
    - SBT__commons_beanutils_commons_beanutils_core_1_8_0_jar.xml
    - SBT__org_apache_hadoop_hadoop_client_2_7_1_jar.xml
    - SBT__org_tukaani_xz_1_0_jar.xml
    - SBT__com_typesafe_akka_akka_remote_2_10_2_3_11_jar.xml
    - SBT__org_apache_kafka_kafka_2_10_0_8_2_1_jar.xml
    - SBT__commons_io_commons_io_2_4_jar.xml
    - SBT__org_jboss_netty_netty_3_2_4_Final_jar.xml
    - SBT__commons_cli_commons_cli_1_2_jar.xml
    - SBT__javax_xml_bind_jsr173_api_1_0_jar.xml
    - SBT__org_apache_avro_avro_1_7_7_jar.xml
    - SBT__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_7_1_jar.xml
    - SBT__com_twitter_chill_java_0_5_0_jar.xml
    - SBT__tomcat_jasper_runtime_5_5_23_jar.xml
    - SBT__org_codehaus_jackson_jackson_core_asl_1_9_13_jar.xml
    - SBT__net_jpountz_lz4_lz4_1_3_0_jar.xml
    - SBT__com_typesafe_akka_akka_actor_2_10_2_3_11_jar.xml
    - SBT__com_twitter_chill_2_10_0_5_0_jar.xml
    - SBT__org_tachyonproject_tachyon_underfs_hdfs_0_7_1_jar.xml
    - SBT__commons_codec_commons_codec_1_9_jar.xml
    - SBT__org_objenesis_objenesis_1_2_jar.xml
    - SBT__org_codehaus_janino_janino_2_7_8_jar.xml
    - SBT__org_apache_parquet_parquet_encoding_1_7_0_jar.xml
    - SBT__org_jpmml_pmml_agent_1_1_15_jar.xml
    - SBT__org_roaringbitmap_RoaringBitmap_0_4_5_jar.xml
    - SBT__com_ning_async_http_client_1_7_16_jar.xml
    - SBT__org_apache_curator_curator_framework_2_7_1_jar.xml
    - SBT__com_google_guava_guava_16_0_1_jar.xml
    - SBT__org_apache_hbase_hbase_common_1_1_2_jar.xml
    - SBT__org_apache_spark_spark_unsafe_2_10_1_5_2_jar.xml
    - SBT__commons_logging_commons_logging_1_2_jar.xml
    - SBT__org_codehaus_janino_commons_compiler_2_7_8_jar.xml
    - SBT__org_apache_hadoop_hadoop_auth_2_7_1_jar.xml
    - SBT__org_codehaus_jackson_jackson_xc_1_9_13_jar.xml
    - SBT__net_java_dev_jets3t_jets3t_0_9_0_jar.xml
    - SBT__org_apache_ivy_ivy_2_4_0_jar.xml
    - SBT__com_sun_jersey_jersey_server_1_9_jar.xml
    - SBT__org_slf4j_jul_to_slf4j_1_7_10_jar.xml
    - SBT__org_apache_spark_spark_streaming_kafka_2_10_1_5_2_jar.xml
    - SBT__commons_lang_commons_lang_2_6_jar.xml
    - SBT__org_apache_hbase_hbase_annotations_1_1_2_jar.xml
    - SBT__org_apache_hbase_hbase_procedure_1_1_2_jar.xml
    - SBT__commons_digester_commons_digester_1_8_jar.xml
    - SBT__com_fasterxml_jackson_core_jackson_databind_2_4_4_jar.xml
    - SBT__org_apache_spark_spark_core_2_10_1_5_2_jar.xml
    - SBT__org_apache_hbase_hbase_it_1_1_2_jar.xml
    - SBT__com_lmax_disruptor_3_3_0_jar.xml
    - SBT__org_jruby_jcodings_jcodings_1_0_8_jar.xml
    - SBT__org_apache_hbase_hbase_prefix_tree_1_1_2_jar.xml
    - SBT__org_scalamacros_quasiquotes_2_10_2_0_0_jar.xml
    - SBT__org_codehaus_jettison_jettison_1_1_jar.xml
    - SBT__org_apache_spark_spark_launcher_2_10_1_5_2_jar.xml
    - SBT__io_netty_netty_3_8_0_Final_jar.xml
    - SBT__com_github_stephenc_findbugs_findbugs_annotations_1_3_9_1_jar.xml
    - SBT__org_spark_project_spark_unused_1_0_0_jar.xml
    - SBT__org_apache_parquet_parquet_column_1_7_0_jar.xml
    - SBT__org_apache_spark_spark_graphx_2_10_1_5_2_jar.xml
    - SBT__tomcat_jasper_compiler_5_5_23_jar.xml
    - SBT__com_sun_xml_fastinfoset_FastInfoset_1_2_12_jar.xml
    - SBT__org_slf4j_slf4j_api_1_7_10_jar.xml
    - SBT__org_mortbay_jetty_jsp_2_1_6_1_14_jar.xml
    - SBT__org_scalanlp_breeze_macros_2_10_0_11_2_jar.xml
    - SBT__com_github_fommil_netlib_core_1_1_2_jar.xml
    - SBT__org_apache_commons_commons_lang3_3_4_jar.xml
    - SBT__org_jpmml_pmml_model_1_1_15_jar.xml
    - SBT__com_jcraft_jsch_0_1_42_jar.xml
    - SBT__com_thoughtworks_paranamer_paranamer_2_6_jar.xml
    - SBT__commons_net_commons_net_3_1_jar.xml
    - SBT__org_sonatype_sisu_inject_cglib_2_2_1_v20090111_jar.xml
    - SBT__org_apache_hadoop_hadoop_yarn_client_2_7_1_jar.xml
    - SBT__aopalliance_aopalliance_1_0_jar.xml
    - SBT__org_apache_commons_commons_math_2_2_jar.xml
    - SBT__com_typesafe_akka_akka_slf4j_2_10_2_3_11_jar.xml
    - SBT__org_hamcrest_hamcrest_core_1_3_jar.xml
    - SBT__io_dropwizard_metrics_metrics_json_3_1_2_jar.xml
    - SBT__redis_clients_jedis_2_8_0_jar.xml
    - SBT__org_apache_curator_curator_recipes_2_7_1_jar.xml
    - SBT__org_apache_zookeeper_zookeeper_3_4_6_jar.xml
    - SBT__org_apache_commons_commons_math3_3_4_1_jar.xml
    - SBT__org_apache_spark_spark_mllib_2_10_1_5_2_jar.xml
    - SBT__org_apache_directory_server_apacheds_i18n_2_0_0_M15_jar.xml
    - SBT__org_apache_spark_spark_sql_2_10_1_5_2_jar.xml
    - SBT__org_apache_spark_spark_network_shuffle_2_10_1_5_2_jar.xml
    - SBT__org_mortbay_jetty_jsp_api_2_1_6_1_14_jar.xml
    - SBT__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_7_1_jar.xml
    - SBT__org_apache_parquet_parquet_hadoop_1_7_0_jar.xml
    - SBT__org_apache_commons_commons_compress_1_4_1_jar.xml
    - SBT__org_apache_hadoop_hadoop_annotations_2_7_1_jar.xml
    - SBT__com_esotericsoftware_kryo_kryo_2_21_jar.xml
    - SBT__com_typesafe_config_1_2_1_jar.xml
    - SBT__com_sun_jersey_jersey_client_1_9_jar.xml
    - SBT__javax_servlet_jsp_jsp_api_2_1_jar.xml
    - SBT__io_dropwizard_metrics_metrics_graphite_3_1_2_jar.xml
    - SBT__org_apache_hbase_hbase_protocol_1_1_2_jar.xml
    - SBT__org_apache_httpcomponents_httpcore_4_2_4_jar.xml
    - SBT__javax_xml_bind_jaxb_api_2_2_7_jar.xml
    - SBT__com_sun_xml_bind_jaxb_impl_2_2_7_jar.xml
    - SBT__org_slf4j_slf4j_log4j12_1_7_10_jar.xml
    - SBT__org_apache_parquet_parquet_common_1_7_0_jar.xml
    - SBT__org_apache_htrace_htrace_core_3_1_0_incubating_jar.xml
    - SBT__org_spire_math_spire_2_10_0_7_4_jar.xml
    - SBT__xmlenc_xmlenc_0_52_jar.xml
    - SBT__org_apache_httpcomponents_httpclient_4_2_5_jar.xml
    - SBT__com_sun_jersey_jersey_json_1_9_jar.xml
    - SBT__com_clearspring_analytics_stream_2_7_0_jar.xml
    - SBT__com_google_code_findbugs_jsr305_3_0_0_jar.xml
    - SBT__org_apache_hadoop_hadoop_yarn_server_common_2_7_1_jar.xml
    - SBT__org_apache_hbase_hbase_server_1_1_2_jar.xml
    - SBT__org_apache_hadoop_hadoop_yarn_api_2_7_1_jar.xml
    - SBT__asm_asm_3_2_jar.xml
    - SBT__org_mortbay_jetty_jetty_6_1_26_jar.xml
    - SBT__org_apache_avro_avro_ipc_1_7_7_jar.xml
    - SBT__org_jruby_joni_joni_2_1_2_jar.xml
    - SBT__org_json4s_json4s_core_2_10_3_2_10_jar.xml
    - SBT__com_jamesmurty_utils_java_xmlbuilder_0_4_jar.xml
    - SBT__com_google_protobuf_protobuf_java_2_5_0_jar.xml
    - SBT__org_scala_lang_scala_compiler_2_10_4_jar.xml
    - SBT__org_jpmml_pmml_schema_1_1_15_jar.xml
    - SBT__org_slf4j_jcl_over_slf4j_1_7_10_jar.xml
    - SBT__org_apache_hadoop_hadoop_yarn_common_2_7_1_jar.xml
    - SBT__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15_jar.xml
    - SBT__org_fusesource_leveldbjni_leveldbjni_all_1_8_jar.xml
    - SBT__org_spire_math_spire_macros_2_10_0_7_4_jar.xml
    - SBT__org_scala_lang_scalap_2_10_0_jar.xml
    - SBT__org_apache_hadoop_hadoop_mapreduce_client_app_2_7_1_jar.xml
  - modules.xml
  - uiDesigner.xml
  - sbt.xml
  - vcs.xml
  - scala_compiler.xml
  - modules
    - ai-build.iml
    - ai.iml
- build.sbt

package com.bigchange.test

import com.bigchange.datamining.CustomNaiveBayes

import scala.collection.mutable
import scala.collection.mutable.ListBuffer
import scala.io.Source

/**
  * Created by C.J.YOU on 2016/9/13.
  */
object NaiveBayesTest {

  /**
    * 数据 :
    * feature1: 健康（health）、外表（appearance）、两者皆是（both）
    * feature2: 很少运动（sedentary）、一般（moderate）、经常运动（active）
    * feature3: 热情是高（aggressive）还是一般（moderate）；
    * feature4: 最后，我们会问他是否适应使用高科技产品
    */
  def main(args: Array[String]) {

    // val Array(dataPath) = args
    val data = Source.fromFile("src/main/resources/nbData/i100-i500").getLines().toList
    // 可实现打完包后读取jar包中对应文件数据
    val data2 = Source.fromInputStream(this.getClass.getResourceAsStream("src/main/resources/nbData/i100-i500")).getLines().toList
    // 十折交叉验证(index,List(item1,item2))
    val splitData  = data.zipWithIndex.map(x => (x._2 % 10,x._1)).groupBy(_._1).mapValues(x => x.map(_._2))
    val modelMap = new mutable.HashMap[Int,String]()

    val model = CustomNaiveBayes.model(0, splitData)
    var list = List((0,model))

    for (id <- 1 until 10) {
      // 训练
      val model = CustomNaiveBayes.model(id, splitData)
      list = list ::: List((id,model))

    }

    // 分类
    val listP = new ListBuffer[(String, Double)]
    list.foreach(x => {
      println("model:" + x)
      val pred = CustomNaiveBayes.predict(Array("health", "moderate", "moderate1", "yes"), x._2)
     listP.+=(pred)
    })
    println("tobe:"+ listP)
    println("tobe:"+ listP.max)

  }

}