java source code of JavaKafkaConsumerHighAPIHdfsImpl

dk-fitting-master
- elasticsql-web
  - src
    - main
      - resources
        log4j.properties
        test.json
        elasticsearch-zips-model2.json
        selectResult.txt
        elasticsearch-zips-model3.json
        routing.properties
        application.properties
        static
        index2.html
        js
        bootstrap.min.js
        bootstrap-dialog.min.js
        jquery-1.10.2.min.js
        essql.js
        css
        font-awesome
        less
        path.less
        bootstrap.less
        core.less
        extras.less
        font-awesome.less
        icons.less
        font-awesome-ie7.less
        mixins.less
        variables.less
        scss
        _bootstrap.scss
        font-awesome-ie7.scss
        _variables.scss
        _core.scss
        _path.scss
        _mixins.scss
        font-awesome.scss
        _icons.scss
        _extras.scss
        font
        fontawesome-webfont.woff
        fontawesome-webfont.eot
        FontAwesome.otf
        fontawesome-webfont.ttf
        fontawesome-webfont.svg
        css
        font-awesome-ie7.min.css
        font-awesome.css
        font-awesome-ie7.css
        font-awesome.min.css
        bootstrap.min.css
        index.css
        bootstrap-dialog.min.css
      - java
        com
        dksou
        essql
        ElasticsearchSchemaFactory.java
        utils
        CalciteUtil.java
        ElasticsearchUtil.java
        ElasticSearchFieldType.java
        TwoTuple.java
        ElasticsearchFunction.java
        ElasticsearchRelNode.java
        TypeConverter.java
        ElasticSearchEnumerator.java
        ElasticsearchSchema.java
        ElasticsearchTableScan.java
        rules
        ElasticsearchLimitRule.java
        ElasticsearchToEnumerableConverter.java
        ElasticsearchJoin.java
        ElasticsearchLimit.java
        ElasticsearchSort.java
        ElasticsearchSortRule.java
        ElasticsearchRules.java
        ElasticsearchAggregateRule.java
        ElasticsearchAggregate.java
        ElasticsearchProject.java
        ElasticsearchFilter.java
        ElasticsearchProjectRule.java
        ElasticsearchFilterRule.java
        ElasticsearchCalcRule.java
        ElasticsearchToEnumerableConverterRule.java
        ElasticsearchJoinRule.java
        ElasticsearchTable.java
        config
        RestTemplateConfig.java
        service
        DkesService.java
        Utils
        CalciteUtil.java
        DkEssqlApplication.java
        controller
        TemplateController.java
        DkesController.java
      - assembly
        assembly.xml
      - bin
        run.sh
    - test
      - java
        com
        dksou
        sql
        SQLTest.java
        TestSql.java
  - pom.xml
- ml
  - src
    - main
      - resources
        log4j.properties
        dkml.properties
      - java
        com
        dksou
        fitting
        ml
        utils
        MM.scala
        LibUtils.java
        RuntimeSUtils.scala
        DKUtil2.scala
        RuntimeUtil2.java
        PropUtils.java
        RuntimeUtils.java
        SparkSubmitUtils.java
        PathUtils.java
        service
        serviceImpl
        lr
        LRModelBuild.scala
        LRModelPredict.scala
        nb
        NBModelPredict.scala
        NBModelBuild.scala
        randomforest
        RFClassModelBuild.scala
        RFModelPredict.scala
        RFRegresModelBuild.scala
        DKMLImpl.java
        fpgrowth
        FPGrowthModel.scala
        als
        RMUsers.scala
        ALSModelBuild.scala
        RMProducts.scala
        kmeans
        KMModelBuild.scala
        KMModelPredict.scala
        svm
        SVMModelBuild.scala
        SVMModelPredict.scala
        gaussian
        GMModelPredict.scala
        GMModelBuild.scala
        pca
        PCAModel.scala
        DKMLConf.java
        DKMLServer.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - dkml.thrift
    - gen-java
      - com
        dksou
        fitting
        ml
        service
        DKMLConf.java
- elasticsql
  - src
    - main
      - resources
        test
      - java
        com
        dksou
        essql
        ElasticsearchSchemaFactory.java
        utils
        CalciteUtil.java
        ElasticsearchUtil.java
        ElasticSearchFieldType.java
        TwoTuple.java
        ElasticsearchFunction.java
        ElasticsearchRelNode.java
        TypeConverter.java
        ElasticSearchEnumerator.java
        ElasticsearchSchema.java
        ElasticsearchTableScan.java
        rules
        ElasticsearchLimitRule.java
        ElasticsearchToEnumerableConverter.java
        ElasticsearchJoin.java
        ElasticsearchLimit.java
        ElasticsearchSort.java
        ElasticsearchSortRule.java
        ElasticsearchRules.java
        ElasticsearchAggregateRule.java
        ElasticsearchAggregate.java
        ElasticsearchProject.java
        ElasticsearchFilter.java
        ElasticsearchProjectRule.java
        ElasticsearchFilterRule.java
        ElasticsearchCalcRule.java
        ElasticsearchToEnumerableConverterRule.java
        ElasticsearchJoinRule.java
        ElasticsearchTable.java
      - assembly
        assembly.xml
    - test
      - java
        com
        dksou
        sql
        SQLTest.java
        elasticsearch-zips-model2.json
        elasticsearch-zips-model3.json
        TestSql.java
        model.json
  - pom.xml
  - README.md
  - .gitignore
- nlp
  - src
    - main
      - resources
        log4j.properties
        nlp.properties
        application.properties
      - java
        com
        dksou
        fitting
        nlp
        utils
        Nlputil.java
        DKNLPClassification.java
        DKNLPBase.java
        hadoop
        HDFSDataSet.java
        HDFSIOAdapter.java
        Application.java
        controller
        NLPController.java
        APIController.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
- stream
  - src
    - main
      - resources
        consumer-hbase.properties
        consumer-es.properties
        log4j.properties
        stream.properties
        provider.properties
        consumer-hdfs.properties
        freerchstream.properties
        key
        kafka.client.truststore.jks
        kafka.server.keystore.jks
      - java
        com
        dksou
        fitting
        stream
        utils
        ElasticsearchUtils.java
        EsClientPoolFactory.java
        HDFSUtils.java
        Topicutil.java
        PropUtils.java
        ProducerUtils.java
        HbaseUtils.java
        PathUtils.java
        service
        impl
        JavaKafkaConsumerHighAPIESImpl.java
        DKStreamProducerServiceImpl.java
        JavaKafkaConsumerHighAPIHbaseImpl.java
        JavaKafkaConsumerHighAPIHdfsImpl.java
        JavaKafkaConsumerHighAPIHdfsService.java
        DKStreamProducerService.java
        JavaKafkaConsumerHighAPIESService.java
        JavaKafkaConsumerHighAPIHbaseService.java
        server
        DKStreamDataServer.java
        aaa
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - JavaKafkaConsumerHighAPIHdfsService.thrift
    - JavaKafkaConsumerHighAPIHbaseService.thrift
    - DKStreamProducerService.thrift
    - gen-java
      - com
        dksou
        fitting
        stream
        service
        JavaKafkaConsumerHighAPIHdfsService.java
        DKStreamProducerService.java
        JavaKafkaConsumerHighAPIESService.java
        JavaKafkaConsumerHighAPIHbaseService.java
    - JavaKafkaConsumerHighAPIESService.thrift
- graphx
  - src
    - main
      - resources
        log4j.properties
        dkgraphx.properties
      - java
        com
        dksou
        fitting
        graphx
        utils
        LibUtils.java
        PropUtils.java
        SparkSubmitUtils.java
        dklouvain
        LouvainHarness.scala
        RuntimeSUtils.scala
        LouvainCore.scala
        HDFSLouvainRunner.scala
        PathUtils.java
        GuavaUtil.scala
        VertexState.scala
        service
        DKGraphxConf.java
        DKGraphx.java
        serviceImpl
        DKShortPaths.scala
        DKPageRank.scala
        DKlouvain.scala
        DKGraphxImpl.java
        DKGraphxServer.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - dkgraphx.thrift
    - gen-java
      - com
        dksou
        fitting
        graphx
        service
        DKGraphxConf.java
        DKGraphx.java
- search
  - src
    - main
      - resources
        admin-keystore.jks
        log4j.properties
        truststore.jks
        dkSearch.properties
      - java
        com
        dksou
        fitting
        utils
        EsClientPoolFactory.java
        RSAUtilsEN.java
        PoiUtil.java
        FileEncode.java
        FileUtils.java
        PropUtils.java
        Base64UtilsEN.java
        DateUtils.java
        ExportExcelUtils.java
        OfficeUtils.java
        PathUtils.java
        ESUtils.java
        MD5Utils.java
        search
        SearchService
        impl
        SearchServiceImpl.java
        SearchIOService
        impl
        DKSearchOutputImpl.java
        DKSearchInputImpl.java
        DKSearchOutput.java
        FileData.java
        DKSearchInput.java
        server
        DKSearchService.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - DKSearchOutput.thrift
    - DKSearch.thrift
    - DKSearchinput.thrift
    - com
      - dksou
        fitting
        search
        SearchService
        SearchIOService
        DKSearchOutput.java
        FileData.java
- pom.xml
- LICENSE
- fitting-img
  - ml
  - install
- datasource
  - src
    - main
      - resources
        log4j.properties
        datasource.properties
      - java
        com
        dksou
        fitting
        datasource
        util
        HdfsUtils.java
        PropUtil.java
        SSHImportUtils.java
        SshUtil.java
        service
        DKESHandle.java
        FileData.java
        DKDBConf.java
        serviceimpl
        DKDBOutputImpl.java
        DKDBInputImpl.java
        DKFileOutputImpl.java
        DKESHandleImpl.java
        DKFileInputImpl.java
        ResultEntity.java
        DKDBOutput.java
        DKFILEConf.java
        DKFileInput.java
        DKFileOutput.java
        server
        DKDataSourceServer.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - DKFileOutput.thrift
    - DKDBOutput.thrift
    - DKESHandle.thrift
    - DKDBInput.thrift
    - DKFileInput.thrift
    - gen-java
      - com
        dksou
        fitting
        datasource
        service
        DKESHandle.java
        FileData.java
        DKDBConf.java
        ResultEntity.java
        DKDBOutput.java
        DKFILEConf.java
        DKFileInput.java
        DKFileOutput.java
- README.md
- .gitignore
- dataprocess
  - src
    - main
      - resources
        log4j.properties
        dataprocess.properties
      - java
        com
        dksou
        fitting
        dataprocess
        util
        PropUtils.java
        HiveUtil.java
        PathUtils.java
        service
        impl
        FormatFieldImpl.java
        DataCleanKerberosImpl.java
        SelectRecImpl.java
        DataStaticImpl.java
        DedupeKerberosImpl.java
        DataStaticKerberosImpl.java
        DataAnalysisImpl.java
        FormatRecImpl.java
        DedupeImpl.java
        SelectFieldImlp.java
        DataStaticKerberosService.java
        FormatRecService.java
        FormatFieldService.java
        SelectFieldService.java
        SelectRecService.java
        DedupeKerberosService.java
        DedupeService.java
        DataAnalysisService.java
        DataStaticService.java
        server
        DataProcess.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - FormatRecService.thrift
    - SelectRecService.thrift
    - FormatFieldService.thrift
    - DedupeService.thrift
    - DataStaticKerberosService.thrift
    - DedupeKerberosService.thrift
    - DataAnalysisService.thrift
    - DataCleanKerberosService.thrift
    - SelectFieldService.thrift
    - gen-java
      - com
        dksou
        fitting
        dataprocess
        service
        DataStaticKerberosService.java
        FormatRecService.java
        FormatFieldService.java
        SelectFieldService.java
        SelectRecService.java
        DedupeKerberosService.java
        DedupeService.java
        DataAnalysisService.java
        DataStaticService.java
    - DataStaticService.thrift
- sqlutils
  - src
    - main
      - resources
        log4j.properties
        sqlutils.properties
      - java
        com
        dksou
        fitting
        sqlutils
        utils
        PropUtil.java
        SQLUtils.java
        service
        DKSQLConf.java
        serviceimpl
        DKSQLEngineImpl.java
        ResultEntity.java
        server
        DKSQLUtilsServer.java
      - assembly
        assembly.xml
      - bin
        run.sh
  - pom.xml
  - thrift
    - DKSQLEngine.thrift
    - gen-java
      - com
        dksou
        fitting
        sqlutils
        service
        DKSQLConf.java
        ResultEntity.java

package com.dksou.fitting.stream.service.impl;


import com.dksou.fitting.stream.service.JavaKafkaConsumerHighAPIHdfsService;
import com.dksou.fitting.stream.utils.HDFSUtils;
import com.dksou.fitting.stream.utils.PropUtils;
import kafka.consumer.Consumer;
import kafka.consumer.ConsumerConfig;
import kafka.consumer.ConsumerIterator;
import kafka.consumer.KafkaStream;
import kafka.javaapi.consumer.ConsumerConnector;
import kafka.message.MessageAndMetadata;
import kafka.serializer.StringDecoder;
import kafka.utils.VerifiableProperties;
import org.apache.log4j.Logger;
import org.apache.thrift.TException;

import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;

public class JavaKafkaConsumerHighAPIHdfsImpl implements JavaKafkaConsumerHighAPIHdfsService.Iface,Runnable{

    static Logger logger = Logger.getLogger(JavaKafkaConsumerHighAPIHdfsImpl.class);
    static Properties providerProp = PropUtils.getProp("consumer-hdfs.properties");
    static String zookeeper = providerProp.getProperty("consumer.hdfs.zookeeper.connect");//"192.168.1.126:2181";
    static String groupId = providerProp.getProperty("consumer.hdfs.group.id");//"group1";
    static int threads = Integer.parseInt(providerProp.getProperty("consumer.hdfs.kafka.topicConsumerNum")); //1
    static String hdfsPath = providerProp.getProperty("consumer.hdfs.hdfsFilePath");

    /**
     * Kafka数据消费对象
     */
    private ConsumerConnector consumer;

    /**
     * Kafka Topic名称
     */
    private String topic;

    /**
     * 线程数量，一般就是Topic的分区数量
     */
    private int numThreads;

    /**
     * 线程池
     */
    private ExecutorService executorPool;

    /**
     * 构造函数
     *
     * @param topic      Kafka消息Topic主题
     * @param numThreads 处理数据的线程数/可以理解为Topic的分区数
     * @param zookeeper  Kafka的Zookeeper连接字符串
     * @param groupId    该消费者所属group ID的值
     */
    public JavaKafkaConsumerHighAPIHdfsImpl(String topic, int numThreads, String zookeeper, String groupId) {
        // 1. 创建Kafka连接器
        this.consumer = Consumer.createJavaConsumerConnector(createConsumerConfig(zookeeper, groupId));
        // 2. 数据赋值
        this.topic = topic;
        this.numThreads = numThreads;
    }

    public JavaKafkaConsumerHighAPIHdfsImpl() {

    }


    public void run() {
        // 1. 指定Topic
        Map<String, Integer> topicCountMap = new HashMap<String, Integer>();
        topicCountMap.put(this.topic, this.numThreads);

        // 2. 指定数据的解码器
        StringDecoder keyDecoder = new StringDecoder(new VerifiableProperties());
        StringDecoder valueDecoder = new StringDecoder(new VerifiableProperties());

        // 3. 获取连接数据的迭代器对象集合
        /**
         * Key: Topic主题
         * Value: 对应Topic的数据流读取器，大小是topicCountMap中指定的topic大小
         */
        Map<String, List<KafkaStream<String, String>>> consumerMap = this.consumer.createMessageStreams(topicCountMap, keyDecoder, valueDecoder);

        // 4. 从返回结果中获取对应topic的数据流处理器
        List<KafkaStream<String, String>> streams = consumerMap.get(this.topic);

        // 5. 创建线程池
        this.executorPool = Executors.newFixedThreadPool(this.numThreads);


        // 6. 构建数据输出对象
        int threadNumber = 0;
        for (final KafkaStream<String, String> stream : streams) {
            this.executorPool.submit(new ConsumerKafkaStreamProcesser(stream, threadNumber));
            threadNumber++;
        }
    }

    public void shutdown() {
        // 1. 关闭和Kafka的连接，这样会导致stream.hashNext返回false
        if (this.consumer != null) {
            this.consumer.shutdown();
        }

        // 2. 关闭线程池，会等待线程的执行完成
        if (this.executorPool != null) {
            // 2.1 关闭线程池
            this.executorPool.shutdown();

            // 2.2. 等待关闭完成, 等待五秒
            try {
                if (!this.executorPool.awaitTermination(5, TimeUnit.SECONDS)) {
                    logger.info("Timed out waiting for consumer threads to shut down, exiting uncleanly!!");
                }
            } catch (InterruptedException e) {
                logger.error("Interrupted during shutdown, exiting uncleanly!!");
            }
        }

    }

    /**
     * 根据传入的zk的连接信息和groupID的值创建对应的ConsumerConfig对象
     *
     * @param zookeeper zk的连接信息，类似于：<br/>
     *
     * @param groupId   该kafka consumer所属的group id的值， group id值一样的kafka consumer会进行负载均衡
     * @return Kafka连接信息
     */
    private ConsumerConfig createConsumerConfig(String zookeeper, String groupId) {
        // 1. 构建属性对象
        Properties prop = new Properties();
        // 2. 添加相关属性
        prop.put("group.id", groupId); // 指定分组id
        prop.put("zookeeper.connect", zookeeper); // 指定zk的连接url
        prop.put("zookeeper.session.timeout.ms", providerProp.getProperty("consumer.hdfs.zookeeper.session.timeout.ms")); //
        prop.put("session.timeout.ms",providerProp.getProperty("consumer.hdfs.session.timeout.ms"));
        prop.put("enable.auto.commit",providerProp.getProperty("consumer.hdfs.enable.auto.commit"));
        prop.put("auto.offset.reset",providerProp.getProperty("consumer.hdfs.auto.offset.reset"));
        prop.put("offsets.storage",providerProp.getProperty("consumer.hdfs.offsets.storage"));
        prop.put("dual.commit",providerProp.getProperty("consumer.hdfs.dual.commit"));
        //prop.put("zookeeper.sync.time.ms", providerProp.getProperty("consumer.es.auto.commit.interval.ms"));
        prop.put("auto.commit.interval.ms", providerProp.getProperty("consumer.hdfs.auto.commit.interval.ms"));


        if(!providerProp.getProperty("consumer.hdfs.security.protocol").equals("")&& providerProp.getProperty("consumer.hdfs.security.protocol") != null && !providerProp.getProperty("consumer.hdfs.ssl.truststore.location").equals("null")){

            prop.put("security.protocol", providerProp.getProperty("consumer.hdfs.security.protocol"));
            prop.put("ssl.truststore.location", providerProp.getProperty("consumer.hdfs.ssl.truststore.location"));
            prop.put("ssl.truststore.password", providerProp.getProperty("consumer.hdfs.ssl.truststore.password"));
            prop.put("ssl.keystore.location", providerProp.getProperty("consumer.hdfs.ssl.keystore.location"));
            prop.put("ssl.keystore.password", providerProp.getProperty("consumer.hdfs.ssl.keystore.password"));
            prop.put("ssl.key.password", providerProp.getProperty("consumer.hdfs.ssl.key.password"));

        }

        // 3. 构建ConsumerConfig对象
        return new ConsumerConfig(prop);
    }




    /**
     * Kafka消费者数据处理线程
     */
    public static class ConsumerKafkaStreamProcesser implements Runnable {
        // Kafka数据流
        private KafkaStream<String, String> stream;
        // 线程ID编号
        private int threadNumber;

        public ConsumerKafkaStreamProcesser(KafkaStream<String, String> stream, int threadNumber) {
            this.stream = stream;
            this.threadNumber = threadNumber;
        }

        int count = 0;


        public void run() {
            // 1. 获取数据迭代器
            ConsumerIterator<String, String> iter = this.stream.iterator();
            // 2. 迭代输出数据
            while (iter.hasNext()) {
                // 2.1 获取数据值
                MessageAndMetadata value = iter.next();
                count++;
                // 2.2 输出
//                logger.info(count + ":" + this.threadNumber + ":" + value.offset() +":" + value.key() + ":" + value.message());
//                System.out.println(count + ":" + this.threadNumber + ":" + value.offset() +":"  + value.key() + ":" + value.message());
                try {
                    String hdfs_xml = providerProp.getProperty("consumer.hdfs.hdfs.path");
                    String core_xml = providerProp.getProperty("consumer.hdfs.core.path");
                    String krb5_conf = providerProp.getProperty("consumer.hdfs.krb5.path");
                    String principal = providerProp.getProperty("consumer.hdfs.principal.path");
                    String keytab = providerProp.getProperty("consumer.hdfs.keytab.pat");



                    HDFSUtils.sendToHDFS(hdfs_xml,core_xml,krb5_conf,principal,keytab,
                            hdfsPath + "/" + this.threadNumber,value.message().toString() + "\n");
                    //+ this.threadNumber,value.message().toString() + "\n");
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
            // 3. 表示当前线程执行完成
            System.out.println("Shutdown Thread:" + this.threadNumber);
        }
    }


    public String StartHdfs() throws TException {
        JavaKafkaConsumerHighAPIHdfsImpl example = null;
        String CG = "成功";
        try {
            String topicName = providerProp.getProperty("consumer.hdfs.kafka.topicNames");
            example = new JavaKafkaConsumerHighAPIHdfsImpl(topicName, threads, zookeeper, groupId);
            new Thread(example).start();
        } catch (Exception e) {
            e.printStackTrace();
            return  e.toString();
        } finally {
            example.shutdown();
        }
        return CG;
    }








}