java source code of ParseLogJob

163-bigdate-note-master
- Scala
  - Scala集合及高级特性.md
  - Scala学习.md
- 数据平台综述
  - 数据管理技术的演化.md
  - img
  - 分布式系统可扩展性.md
  - 分布式系统CAP理论.md
  - 学习的方法论.md
- 数据存储：HDFS
  - 6.HDFS高可用性.md
  - draw
    - 集群关系.odg
    - HDFS高可用.odg
    - Sequenc文件压缩.odg
  - 2.HDFS环境搭建.md
  - img
    - HDFS联邦架构.gif
    - HDFS单节点架构.gif
    - HDFS架构中文简图.jpg
  - 4.YARN配置.md
  - 7.HDFS联邦.md
  - 1.HDFS架构.md
  - 9.压缩与分片.md
  - 10.异常处理.md
  - 8.HDFS安全.md
  - 3.HDFS操作验证.md
  - 5.HDFS管理和使用.md
- cmds
  - 1015146591
  - bigdata4
  - [email protected]
  - openvpn
  - git_log
- 数据获取和预处理：Sqoop
  - 5.Java Hadoop-client等基础依赖安装.md
  - img
    - sqoop.odg
  - 7.语法分析.md
  - 4.数据划分.md
  - 1.业务系统数据.md
  - 3.Sqoop功能与架构.md
  - 6.sqoop服务安装.md
  - 8.案例.md
  - 2.数据同步与传统数据仓库.md
  - homework
    - homework.md
- flink
  - 05.flink与kafka结合.md
  - 01.flink开发.md
  - flink-train-scala
    - src
      - main
        resources
        log4j.properties
        scala
        learnScala
        MyModule.scala
        datastructrue.scala
        test
        Persons.scala
        ArrayTest.scala
        TestScala.scala
        ClassTest.scala
        com
        imooc
        flink
        scala
        course05
        CustomRichParallelSourceFunction.scala
        DataStreamTransformationApp.scala
        ScalaDataStreamSourceApp.scala
        CustomNonParallelSourceFunction.scala
        CustomParallelSourceFunction.scala
        course08
        KafkaConnectorProducerApp.scala
        KafkaConnectorConsumerApp.scala
        FileSystemSinkApp.scala
        course01
        StreamingJob.scala
        BatchJob.scala
        course06
        TableSQLAPI.scala
        StreamingJob.scala
        course04
        DBUtils.scala
        DataSetTransformationApp.scala
        DataSetSinkApp.scala
        DistributeCatchApp.scala
        CounterApp.scala
        DataSetDataSourceApp.scala
        DataSetTransformatinoApp.scala
        BatchJob.scala
        course07
        WindowApp.scala
        WindowProcessApp.scala
        WindowReduceApp.scala
        course02
        BatchWCScalaApp.scala
        StreamingWCScalaApp.scala
        course03
        StreamingWCScalaApp.scala
        java
        test
        TestJava.java
        com
        imooc
        flink
        course05
        JavaCustomNonParallelSourceFunction.java
        Student.java
        JavaDataStreamSourceApp.java
        JavaCustomRichParallelSourceFunction.java
        JavaDataStreamTransformationApp.java
        JavaCustomSinkToMySQL.java
        SinkToMysql.java
        JavaCustomParallelSourceFunction.java
        course06
        JavaTableSQLAPI.java
        course04
        JavaCounterApp.java
        JavaDataSetSinkApp.java
        Person.java
        JavaDistributeApp.java
        DataSetTransformationApp.java
        JavaDataSetDataSourceApp.java
        course07
        JavaWindowReduceApp.java
        JavaWindowApp.java
        JavaWindowProcessApp.java
    - pom.xml
    - bin
      - src
        main
        resources
        log4j.properties
        scala
        learnScala
        MyModule.scala
        test
        TestScala.scala
        DataStructures.scala
        com
        imooc
        flink
        scala
        course05
        CustomRichParallelSourceFunction.scala
        DataStreamTransformationApp.scala
        ScalaDataStreamSourceApp.scala
        CustomNonParallelSourceFunction.scala
        CustomParallelSourceFunction.scala
        course06
        TableSQLAPI.scala
        StreamingJob.scala
        course04
        DBUtils.scala
        DataSetTransformationApp.scala
        DataSetSinkApp.scala
        DistributeCatchApp.scala
        CounterApp.scala
        DataSetDataSourceApp.scala
        DataSetTransformatinoApp.scala
        BatchJob.scala
        course02
        BatchWCScalaApp.scala
        StreamingWCScalaApp.scala
        course03
        StreamingWCScalaApp.scala
      - pom.xml
      - .settings
        org.eclipse.jdt.apt.core.prefs
        org.eclipse.m2e.core.prefs
        org.eclipse.jdt.core.prefs
        org.eclipse.core.resources.prefs
      - .project
  - 02.Flink编程概念.md
  - 03.DataSet API编程.md
  - 04.DataStream编程.md
  - projects
    - my-flink-project
      - src
        main
        resources
        log4j.properties
        java
        myflink
        BatchJob.java
        SocketWindowWordCount.java
        HotItems.java
        StreamingJob.java
      - pom.xml
  - 06.Flink部署使用.md
  - flink-train-java
    - src
      - main
        resources
        log4j.properties
        java
        com
        imooc
        flink
        java
        BatchJob.java
        course02
        StreamingWCJavaApp.java
        StreamingWCJava02App.java
        BatchWCJavaApp.java
        course03
        StreamingWCJavaApp.java
        StreamingJob.java
    - pom.xml
    - flink-train-java.iml
- LICENSE
- 日志解析及计算：MR
  - 10.MR程序的输出
    - etl
      - src
        main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogOutputFormat.java
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - copyToBg0
    - MR程序的输出.md
  - 14.数据倾斜.md
  - 9.MR程序的输入
    - etl
      - src
        main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - copyToBg0
    - MR程序的输入.md
  - 8.精确控制Shuffle过程
    - etl
      - src
        main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - copyToBg0
    - 精确控制Shuffle过程.md
  - 1.MR的应用场景.md
  - img
    - MapRedece中文架构图.jpg
  - 7.灵活应用Configuration
    - etl
      - src
        main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogGenericWritable.java
        LogBeanWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - copyToBg0
    - 灵活应用Configuration.md
  - 13.MR参数调优.md
  - 12.MR实现关联操作.md
  - HW
    - etl
      - src
        main
        com
        bigdata
        etl
        homework
        GetLinesUsersJob.java
  - 6.完整编写Map和Reduce
    - 完整编写Map和Reduce.md
    - etl
      - src
        main
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogGenericWritable.java
        LogBeanWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - pom.xml
  - 4.Hadoop的IO模型-上
    - etl
      - src
        main
        com
        bigdata
        etl
        mr
        LogBeanWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - .settings
        org.eclipse.jdt.apt.core.prefs
        org.eclipse.jdt.core.prefs
      - .project
      - .classpath
    - Hadoop的IO模-上.md
  - 3.编写一个MR程序
    - etl
      - src
        main
        com
        bigdata
        etl
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
    - 编写一个MR程序.md
    - 搭建本地hadoop测试环境.md
  - 11.简单好用的计数器
    - 简单好用的计数器.md
    - etl
      - src
        main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        mr
        LogOutputFormat.java
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
      - copyToBg0
      - bin
        src
        main
        resources
        mr.xml
        etl.iml
        pom.xml
        copyToBg0
  - 2.MR的原理和运行流程.md
  - 5.Hadoop的IO模型-下
    - etl
      - src
        main
        com
        bigdata
        etl
        mr
        LogGenericWritable.java
        LogBeanWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
      - etl.iml
      - pom.xml
    - Hadoop的IO模型-下.md
- 大数据调度框架：Azkaban
  - img
    - azkaban.odg
  - 1.调度系统背景知识.md
  - 2.Azkaban系统介绍.md
  - 9.如何提高任务可用性.md
  - 4.插件的安装hadoopjava、spark等.md
  - 5.插件的使用要素和DAG设计.md
  - 10.如何增加新的插件类型.md
  - 8.如何实现web高可用.md
  - 3.代码下载、编译、部署.md
  - 6.不同调度参数详解.md
  - 7.Azkaban任务编写.md
- README.md
- sxt
  - 4.Hbase分布式环境搭建.md
  - idea-hdfs
    - idea-hdfs
      - src
        main
        resources
        hdfs-site.xml
        core-site.xml
        java
        jiaoqiyuan
        cn
        TestHDFS.java
      - pom.xml
      - idea-hdfs.iml
      - bin
        src
        main
        resources
        hdfs-site.xml
        core-site.xml
        pom.xml
        idea-hdfs.iml
  - 2.HadoopHA原理与搭建.md
  - 3. Hbase原理.md
  - 1.Linux安装.md
- 大作业
  - cmds
    - 1015146591
    - bigdata4
    - [email protected]
    - azkaban_sqoop_to_hive.sh
    - get_hadoop_filedirs.py
    - openvpn
  - Untitled-1.md
  - etl
    - src
      - main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        udf
        UDFZodiac.java
        udaf
        UDAFCollectAction.java
        mr
        LogOutputFormat.java
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJobAzkaban.java
        ParseLogJob.java
        ParseLogJob_End.java
        homework
        GetLinesUsersJob.java
    - pom.xml
    - copyToBg4
  - azkaban_sqoop_to_hive.sh
- imooc
  - storm
    - 5.Storm架构与集群搭建.md
    - storm
      - src
        main
        java
        com
        imooc
        bigdata
        ClusterSumStormTopology.java
        ClusterSumFieldGroupingStormTopology.java
        LocalSumStormTopology.java
        drpc
        UserService.java
        RPCClient.java
        LocalDRPCTopology.java
        RPCServer.java
        RemoteDRPCTopology.java
        UserServiceImpl.java
        integration
        jdbc
        ddl.sql
        LocalWordCountJDBCStormTopology.java
        redis
        LocalWordCountRedisStormTopology.java
        ClusterSumStormExecutorsTopology.java
        ClusterSumStormAckerTopology.java
        ClusterSumStormTasksTopology.java
        LocalWordCountStormTopology.java
        ClusterSumStormWorkersTopology.java
      - pom.xml
      - bin
        src
        main
        java
        com
        imooc
        bigdata
        integration
        jdbc
        ddl.sql
        pom.xml
        logs
        workers-artifacts
        LocalWordCountRedisStormTopology-1-1555242199
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242736
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242237
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242909
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555243151
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253072
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242839
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242602
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242478
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253160
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253134
        1027
        worker.yaml
        local-drpc-1-1555237236
        1027
        worker.yaml
        storm.iml
      - logs
        workers-artifacts
        LocalWordCountRedisStormTopology-1-1555242199
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242736
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242237
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242909
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555243151
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253072
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242839
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242602
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555242478
        1027
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253160
        1024
        worker.yaml
        LocalWordCountRedisStormTopology-1-1555253134
        1027
        worker.yaml
        local-drpc-1-1555237236
        1027
        worker.yaml
      - storm.iml
    - 6.Storm项目实战.md
    - 3.Storm编程.md
    - 4.logstash和kafka环境搭建.md
    - 1.Storm简介.md
    - storm_project
      - map.html
    - 2.Storm核心概念.md
  - spark
    - 02.Hadoop单机环境搭建.md
    - 05.Spark编程.md
    - SparkSql
      - src
        main
        scala
        com
        imooc
        spark
        SparkSQLThriftServerApp.scala
        SQLContextApp.scala
        HiveContextApp.scala
        DataFrameApp.scala
        DataFrameRDDApp.scala
        SparkSessionApp.scala
        DataFrameCase.scala
        DateSetApp.scala
      - pom.xml
      - bin
        src
        main
        scala
        com
        imooc
        spark
        SparkSQLThriftServerApp.scala
        SQLContextApp.scala
        HiveContextApp.scala
        DataFrameApp.scala
        DataFrameRDDApp.scala
        SparkSessionApp.scala
        DataFrameCase.scala
        DateSetApp.scala
        pom.xml
        SparkSql.iml
      - SparkSql.iml
    - 04.Hive安装.md
    - 03.Spark环境搭建.md
    - 01.编译spark2.1.0.md
- 数据获取和预处理：Flume
  - tmp.md
  - 7.Flume高级配置.md
  - 2.Flume Agent的组成.md
  - 5.Flume安装和部署.md
  - 8.构建复杂日志收集系统.md
  - imgs
  - 3.Flume支持的组建类型.md
  - 6.Flume配置示例.md
  - 4.Flume的基本配置.md
  - 1.日志及日志收集系统.md
- .gitignore
- 结构化查询：Hive
  - 3.Hive擅长什么.md
  - 8.写一个基本的查询语句.md
  - 13.使用窗口函数.md
  - 15.用户自定义函数UDH的使用.md
  - img
    - Hive.odg
  - etl
    - src
      - main
        resources
        mr.xml
        com
        bigdata
        etl
        utils
        IPUtil.java
        udf
        UDFZodiac.java
        mr
        LogOutputFormat.java
        LogGenericWritable.java
        TextLongPartition.java
        LogBeanWritable.java
        TextLongGroupComparator.java
        TextLongWritable.java
        LogFieldWritable.java
        job
        ParseLogJob.java
        homework
        GetLinesUsersJob.java
    - pom.xml
    - copyToBg4
  - 12.利用正则表达式精确提取信息.md
  - 2.Hive解决了什么问题.md
  - 4.Hive机构与数据仓库.md
  - 1.Hive学习资料.md
  - 14.行转列与列转行.md
  - 9.子查询和关联表.md
  - 16.Hive优化案例.md
  - 11.使用聚合函数.md
  - 10.使用简单函数.md
  - 6.Hive的安装与配置.md
  - 7.创建和管理Hive中的数据库.md
  - 5.数据模型与元数据.md

package com.bigdata.etl.job;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.bigdata.etl.mr.LogBeanWritable;
import com.bigdata.etl.mr.LogFieldWritable;
import com.bigdata.etl.mr.LogGenericWritable;
import org.anarres.lzo.hadoop.codec.LzopCodec;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Map;

public class ParseLogJob extends Configured implements Tool {

    public static LogGenericWritable parseLog(String row) throws ParseException {
        String[] logPart = StringUtils.split(row, "\u1111");
        SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS");
        long timeTag = dateFormat.parse(logPart[0]).getTime();

        String activeName = logPart[1];

        JSONObject bizData = JSON.parseObject(logPart[2]);
        LogGenericWritable logData = new LogWritable();
        logData.put("time_tag", new LogFieldWritable(timeTag));
        logData.put("active_name", new LogFieldWritable(activeName));
        for (Map.Entry<String, Object> entry : bizData.entrySet()) {
            logData.put(entry.getKey(), new LogFieldWritable(entry.getValue()));
        }

        return logData;
    }

    public static class LogWritable extends LogGenericWritable {
        @Override
        protected String[] getFieldName() {
            return new String[] {"active_name", "session_id", "time_tag", "ip", "device_id", "req_url", "user_id", "product_id", "order_id"};
        }
    }

    public static class LogMapper extends Mapper<LongWritable, Text, LongWritable, LogGenericWritable> {
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            try {
                LogGenericWritable parsedLog = parseLog(value.toString());
                context.write(key, parsedLog);
            } catch (ParseException e) {
                e.printStackTrace();
            }
        }
    }

    public static class LogReducer extends Reducer<LongWritable, LogGenericWritable, NullWritable, Text> {
        public void reduce(LongWritable key, Iterable<LogGenericWritable> values, Context context) throws IOException, InterruptedException {
            for (LogGenericWritable v : values ) {
                context.write(null, new Text(v.asJsonString()));
            }
        }
    }

    public int run(String[] args) throws Exception {
        //创建job
        Configuration config = getConf();
        Job job = Job.getInstance(config);
        //通过job设置一些参数
        job.setJarByClass(ParseLogJob.class);
        job.setJobName("parselog");
        job.setMapperClass(LogMapper.class);
        //设置reduce个数为0
        job.setReducerClass(LogReducer.class);
        job.setMapOutputKeyClass(LongWritable.class);
        job.setMapOutputValueClass(LogWritable.class);
        job.setOutputValueClass(Text.class);


        //添加输入和输出数据
        FileInputFormat.addInputPath(job, new Path(args[0]));
        Path outputPath = new Path(args[1]);
        FileOutputFormat.setOutputPath(job, outputPath);

        //设置压缩类型
        FileOutputFormat.setCompressOutput(job, true);
        FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);

        FileSystem fs = FileSystem.get(config);
        if (fs.exists(outputPath)) {
            fs.delete(outputPath, true);
        }


        //运行程序
        if (!job.waitForCompletion(true)) {
            throw new RuntimeException(job.getJobName() + "failed!");
        }
        return 0;
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new ParseLogJob(), args);
        System.exit(res);
    }

}