java source code of PartitioningReducer

datafu-master
- bootstrap.gradle
- CONTRIBUTORS
- gradle.properties
- gradle
  - resources
    - rat-output-to-html.xsl
  - dependency-versions.gradle
  - release.gradle
  - rat.gradle
  - buildscript.gradle
- datafu-hourglass
  - src
    - main
      - resources
        META-INF
        LICENSE
        DISCLAIMER
        NOTICE
      - java
        datafu
        hourglass
        avro
        AvroKeyWithMetadataOutputFormat.java
        AvroMultipleInputsKeyInputFormat.java
        AvroKeyWithMetadataRecordWriter.java
        AvroMultipleInputsUtil.java
        CombinedAvroKeyInputFormat.java
        AvroKeyValueWithMetadataOutputFormat.java
        package-info.java
        AvroDateRangeMetadata.java
        AvroKeyValueWithMetadataRecordWriter.java
        fs
        package-info.java
        DateRange.java
        PathUtils.java
        DatePath.java
        jobs
        PartitionPreservingIncrementalJob.java
        Setup.java
        AbstractPartitionCollapsingIncrementalJob.java
        DateRangePlanner.java
        PartitionCollapsingIncrementalJob.java
        DateRangeConfigurable.java
        TimePartitioner.java
        AbstractJob.java
        ReduceEstimator.java
        MaxInputDataExceededException.java
        PartitionPreservingExecutionPlanner.java
        package-info.java
        AbstractPartitionPreservingIncrementalJob.java
        StagedOutputJob.java
        PartitionCollapsingExecutionPlanner.java
        AbstractNonIncrementalJob.java
        FileCleaner.java
        ExecutionPlanner.java
        TimeBasedJob.java
        IncrementalJob.java
        model
        Mapper.java
        Accumulator.java
        package-info.java
        KeyValueCollector.java
        Merger.java
        schemas
        PartitionPreservingSchemas.java
        PartitionCollapsingSchemas.java
        package-info.java
        TaskSchemas.java
        mapreduce
        PartitioningMapper.java
        Parameters.java
        AvroKeyValueIdentityMapper.java
        ObjectProcessor.java
        CollapsingMapper.java
        DelegatingCombiner.java
        PartitioningCombiner.java
        ObjectMapper.java
        DelegatingReducer.java
        DistributedCacheHelper.java
        PartitioningReducer.java
        package-info.java
        CollapsingReducer.java
        DelegatingMapper.java
        ObjectReducer.java
        CollapsingCombiner.java
    - test
      - java
        datafu
        hourglass
        demo
        EstimateCardinality.java
        NamedTool.java
        Examples.java
        Main.java
        CountById.java
        GenerateIds.java
        test
        PartitionCollapsingTests.java
        PartitionPreservingTests.java
        PartitionCollapsingJoinTest.java
        PartitionPreservingJoinTests.java
        util
        DailyTrackingWriter.java
        TimestampDataWriter.java
        Schemas.java
        PartitionCollapsingExecutionPlannerTests.java
        jobs
        SimpleAvroJob.java
        ImpressionClickPartitionPreservingJob.java
        counting
        CountAccumulator.java
        PartitionPreservingIncrementalCountJob.java
        PartitionCollapsingIncrementalCountJob.java
        CountWriter.java
        SimplePartitionCollapsingCountJob.java
        ImpressionClickPartitionCollapsingJob.java
        SimplePartitionCollapsingCountJob2.java
        SimplePartitionPreservingCountJob.java
        TestAvroJob.java
        PartitionPreservingCollapsingIntegrationTests.java
        TestBase.java
  - find_dupes.rb
  - build.gradle
  - overview.html
  - README.md
  - changes.md
  - .gitignore
- examples
  - sessionize
    - clicks.csv
    - README.md
    - sessionize.pig
  - quantile
    - quantile.pig
    - quartiles-diff.tsv
    - streaming_quantile.pig
    - quartiles-exact.tsv
    - quartiles-approx.tsv
    - README.md
    - generate_temperature_data.rb
- datafu-spark
  - src
    - main
      - resources
        META-INF
        services
        datafu.spark.PythonResource
        LICENSE
        NOTICE
        pyspark_utils
        bridge_utils.py
        __init__.py
        init_spark_context.py
        df_utils.py
      - scala
        datafu
        spark
        PythonPathsManager.scala
        SparkUDAFs.scala
        ScalaPythonBridge.scala
        DataFrameOps.scala
        SparkDFUtils.scala
        spark
        utils
        overwrites
        SparkOverwriteUDAFs.scala
        SparkPythonRunner.scala
    - test
      - resources
        log4j.properties
        text.csv
        META-INF
        services
        datafu.spark.PythonResource
        python_tests
        pyfromscala_with_error.py
        pyfromscala.py
        df_utils_tests.py
      - scala
        datafu
        spark
        PySparkLibTestResources.scala
        TestSparkUDAFs.scala
        TestScalaPythonBridge.scala
        TestSparkDFUtils.scala
  - gradle
    - dependency-versions-scala-2.12.gradle
    - dependency-versions-scala-2.11.gradle
  - build.gradle
  - README.md
  - build_and_test_spark.sh
- doap_DataFu.rdf
- site
  - source
    - blog
      - 2013-10-03-datafus-hourglass-incremental-data-processing-in-hadoop.markdown
      - 2016-08-10-datafu-1-3-1-released.markdown
      - 2018-03-22-datafu-1-4-0-released.markdown
      - 2014-04-27-datafu-at-apachecon.markdown
      - 2015-11-17-datafu-1-3-0-released.markdown
      - 2020-03-31-datafu-1-6-0-released.markdown
      - index.html.erb
      - 2017-03-10-datafu-1-3-2-released.markdown
      - 2018-01-26-datafu-1-3-3-released.markdown
      - 2013-01-24-datafu-the-wd-40-of-big-data.markdown
      - 2019-01-07-datafu-1-5-0-released.markdown
      - 2013-09-04-datafu-1-0.markdown
      - 2012-01-10-introducing-datafu.html.markdown
      - 2019-01-29-a-look-at-paypals-contributions-to-datafu.markdown
    - sitemap.xml.builder
    - images
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - javascripts
      - bootstrap.min.js
      - all.js
      - bootstrap.js
      - jquery-2.0.3.min.js
    - fonts
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - community
      - mailing-lists.html.markdown
      - contributing.html.markdown
      - issues.html.markdown
    - index.markdown.erb
    - stylesheets
      - highlight.css.erb
      - bootstrap.min.css
      - bootstrap.css
      - all.less
      - bootstrap-theme.min.css
      - bootstrap-theme.css
    - layouts
      - layout.erb
      - _footer.erb
      - _docs_nav.erb
      - docs.erb
      - blog.erb
      - _header.erb
    - docs
      - hourglass
        getting-started.html.markdown.erb
        concepts.html.markdown
      - datafu
        guide.html.markdown.erb
        getting-started.html.markdown.erb
        guide
        statistics.html.markdown.erb
        link-analysis.html.markdown.erb
        hashing.html.markdown.erb
        set-operations.html.markdown.erb
        sampling.html.markdown.erb
        more-tips-and-tricks.html.markdown.erb
        sessions.html.markdown.erb
        macros.html.markdown.erb
        bag-operations.html.markdown.erb
      - download.html.markdown.erb
      - spark
        guide.html.markdown.erb
        getting-started.html.markdown.erb
  - Gemfile
  - lib
    - pig.rb
  - config.rb
  - Gemfile.lock
  - README.md
  - .gitignore
- test.sh
- LICENSE
- RELEASE.md
- HEADER
- datafu-pig
  - src
    - main
      - resources
        datafu
        left_outer_join.pig
        sample_by_keys.pig
        count_macros.pig
        tf_idf.pig
        dedup.pig
        diff_macros.pig
        META-INF
        LICENSE
        DISCLAIMER
        NOTICE
      - java
        datafu
        pig
        sessions
        Sessionize.java
        SessionCount.java
        package-info.java
        linkanalysis
        PageRank.java
        ProgressIndicator.java
        PageRankImpl.java
        package-info.java
        geo
        HaversineDistInMiles.java
        package-info.java
        sampling
        SimpleRandomSampleWithReplacementVote.java
        SampleByKey.java
        WeightedReservoirSample.java
        ScoredTuple.java
        SimpleRandomSample.java
        package-info.java
        WeightedSample.java
        SimpleRandomSampleWithReplacementElect.java
        Reservoir.java
        ReservoirSample.java
        bags
        BagJoin.java
        ZipBags.java
        TupleFromBag.java
        BagGroup.java
        CountDistinctUpTo.java
        FirstTupleFromBag.java
        ReverseEnumerate.java
        EmptyBagToNullFields.java
        AppendToBag.java
        UnorderedPairs.java
        DistinctBy.java
        EmptyBagToNull.java
        package-info.java
        BagLeftOuterJoin.java
        BagConcat.java
        BagSplit.java
        Enumerate.java
        NullToEmptyBag.java
        PrependToBag.java
        CountEach.java
        util
        SelectStringFieldByName.java
        BoolToInt.java
        SimpleEvalFunc.java
        Assert.java
        IntToBool.java
        AliasableEvalFunc.java
        In.java
        AssertUDF.java
        package-info.java
        TransposeTupleToBag.java
        FieldNotFound.java
        Coalesce.java
        Base64Encode.java
        TupleDiff.java
        Base64Decode.java
        InUDF.java
        DataFuException.java
        ContextualEvalFunc.java
        urls
        URLInfo.java
        package-info.java
        UserAgentClassify.java
        text
        opennlp
        SentenceDetect.java
        TokenizeWhitespace.java
        POSTag.java
        CachedFile.java
        TokenizeME.java
        TokenizeSimple.java
        random
        RandInt.java
        RandomUUID.java
        package-info.java
        stats
        DoubleVAR.java
        QuantileUtil.java
        Median.java
        WilsonBinConf.java
        IntVAR.java
        StreamingQuantile.java
        LongVAR.java
        VAR.java
        FloatVAR.java
        package-info.java
        StreamingMedian.java
        Quantile.java
        entropy
        EmpiricalEntropyEstimator.java
        EntropyUtil.java
        EmpiricalCountEntropy.java
        CondEntropy.java
        EntropyEstimator.java
        Entropy.java
        ChaoShenEntropyEstimator.java
        HyperLogLogPlusPlus.java
        MarkovPairs.java
        sets
        SetDifference.java
        package-info.java
        SetOperationsBase.java
        SetIntersect.java
        SetUnion.java
        hash
        Hasher.java
        SHA.java
        HasherRand.java
        MD5.java
        package-info.java
        lsh
        CosineDistanceHash.java
        LSHFunc.java
        p_stable
        L1LSH.java
        package-info.java
        L2LSH.java
        AbstractStableDistributionFunction.java
        util
        package-info.java
        DataTypeUtil.java
        L2PStableHash.java
        package-info.java
        metric
        L1.java
        Cosine.java
        package-info.java
        MetricUDF.java
        L2.java
        LSHFamily.java
        interfaces
        Sampler.java
        LSH.java
        LSHCreator.java
        package-info.java
        cosine
        HyperplaneLSH.java
        package-info.java
        L1PStableHash.java
        RepeatingLSH.java
        org
        apache
        pig
        piggybank
        evaluation
        ExtremalTupleByNthField.java
    - test
      - java
        datafu
        test
        pig
        sessions
        SessionTests.java
        linkanalysis
        PageRankTests.java
        PageRankImplTests.java
        geo
        GeoTests.java
        sampling
        SimpleRandomSampleTestOld.java
        WeightedReservoirSamplingTests.java
        SamplingTests.java
        SimpleRandomSampleTest.java
        SimpleRandomSampleWithReplacementTest.java
        bags
        BagTests.java
        ZipBagsTests.java
        util
        AliasEvalFuncTest.java
        TransposeTest.java
        IntBoolConversionPigTests.java
        Base64Test.java
        CoalesceTests.java
        DedupTests.java
        SchemaToString.java
        InTests.java
        SelectStringFieldByNameTest.java
        AssertTests.java
        EvalFuncTests.java
        TupleDiffTest.java
        PigTests.java
        urls
        UserAgentTest.java
        URLInfoTest.java
        text
        NLPTests.java
        random
        UUIDTests.java
        NumberTests.java
        stats
        MarkovPairTests.java
        VARTests.java
        WilsonBinConfTests.java
        QuantileTests.java
        TFIDFTests.java
        entropy
        AbstractEntropyTests.java
        ChaoShenEntropyTests.java
        EntropyTests.java
        EmpiricalCountEntropyTests.java
        CondEntropyTests.java
        EstimationTests.java
        sets
        SetTests.java
        hash
        HasherRandForTesting.java
        lsh
        LSHPigTest.java
        LSHTest.java
        HashTests.java
        macros
        MacroTests.java
        TestFilesSubdirTest.java
  - build.gradle
  - .gitignore
- build.gradle
- buildSrc
  - src
    - main
      - groovy
        datafu
        autojar
        GradleAutojarPlugin.groovy
        task
        ExtractAutojar.groovy
        Autojar.groovy
  - build.gradle
- test_in_background.sh
- README.md
- KEYS
- build-plugin
  - src
    - main
      - resources
        META-INF
        services
        javax.annotation.processing.Processor
      - java
        org
        adrianwalker
        multilinestring
        Multiline.java
        JavacMultilineProcessor.java
        EcjMultilineProcessor.java
        MultilineProcessor.java
  - build.gradle
  - .gitignore
- changes.md
- settings.gradle
- NOTICE
- .gitignore

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */

package datafu.hourglass.mapreduce;

import java.io.IOException;
import java.io.Serializable;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;

import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.mapred.AvroKey;
import org.apache.avro.mapred.AvroValue;
import org.apache.avro.mapreduce.AvroMultipleOutputs;
import org.apache.hadoop.mapreduce.ReduceContext;
import org.apache.hadoop.mapreduce.TaskInputOutputContext;


import datafu.hourglass.fs.PathUtils;
import datafu.hourglass.model.Accumulator;
import datafu.hourglass.schemas.PartitionPreservingSchemas;

/**
 * The reducer used by {@link datafu.hourglass.jobs.AbstractPartitionPreservingIncrementalJob} and its derived classes.
 * 
 * <p>
 * An implementation of {@link datafu.hourglass.model.Accumulator} is used to perform aggregation and produce the
 * output value.
 * </p>
 * 
 * <p>
 * The input key is assumed to have time and value fields.  The value here is the true key,
 * and the time represents the input partition the data was derived from.  The true key is
 * used as the key in the reducer output and the time is dropped. 
 * This reducer uses multiple outputs; the time is used to determine which output to write to,
 * where the named outputs have the form yyyyMMdd derived from the time. 
 * </p>
 * 
 */
public class PartitioningReducer extends ObjectReducer implements Serializable 
{  
  private transient AvroMultipleOutputs _multipleOutputs;
  private transient Map<Long,String> _timeToNamedOutput;
  private PartitionPreservingSchemas _schemas;
  private Accumulator<GenericRecord,GenericRecord> accumulator;
  
  @SuppressWarnings("unchecked")
  public void reduce(Object keyObj,
                     Iterable<Object> values,
                     ReduceContext<Object,Object,Object,Object> context) throws IOException, InterruptedException
  {  
    Accumulator<GenericRecord,GenericRecord> acc = getAccumulator();
    
    if (acc == null)
    {
      throw new RuntimeException("No accumulator set for reducer!");
    }
    
    acc.cleanup();
            
    Long keyTime = null;
    
    GenericRecord key = ((AvroKey<GenericRecord>)keyObj).datum();
    
    keyTime = (Long)key.get("time");
    key = (GenericRecord)key.get("value");
    
    long accumulatedCount = 0;    
    for (Object valueObj : values)
    {       
      GenericRecord value = ((AvroValue<GenericRecord>)valueObj).datum(); 
      acc.accumulate(value);      
      accumulatedCount++;      
    }
    
    if (accumulatedCount > 0)
    {
      GenericRecord outputValue = acc.getFinal();               
      if (outputValue != null)
      {                    
        GenericRecord output = new GenericData.Record(getSchemas().getReduceOutputSchema());
        output.put("key", key);
        output.put("value", outputValue);
        
        // write output in directories corresponding to each day
        String namedOutput = getNamedOutput(keyTime);
        if (_multipleOutputs == null)
        {
          throw new RuntimeException("No multiple outputs set");
        }
        _multipleOutputs.write(namedOutput, new AvroKey<GenericRecord>(output), (AvroValue<GenericRecord>)null);
      }
    }
  }
  
  @Override
  public void setContext(TaskInputOutputContext<Object,Object,Object,Object> context)
  {           
    super.setContext(context);
    
    // ... and we also write the final output to multiple directories
    _multipleOutputs = new AvroMultipleOutputs(context);
  }
  
  /**
   * Sets the accumulator used to perform aggregation. 
   * 
   * @param acc The accumulator
   */
  public void setAccumulator(Accumulator<GenericRecord,GenericRecord> acc)
  {
    accumulator = acc;
  }
  
  /**
   * Gets the accumulator used to perform aggregation. 
   * 
   * @return The accumulator
   */
  public Accumulator<GenericRecord,GenericRecord> getAccumulator()
  {
    return accumulator;
  }
  
  /**
   * Sets the Avro schemas.
   * 
   * @param schemas the schemas
   */
  public void setSchemas(PartitionPreservingSchemas schemas)
  {
    _schemas = schemas;
  }
  
  /**
   * Gets the Avro schemas
   * 
   * @return schemas the schemas
   */
  public PartitionPreservingSchemas getSchemas()
  {
    return _schemas;
  }

  @Override
  public void close() throws IOException, InterruptedException
  {
    super.close();
    
    if (_multipleOutputs != null)
    {
      _multipleOutputs.close();
      _multipleOutputs = null;
    }
  }
  
  private String getNamedOutput(Long time)
  {
    if (_timeToNamedOutput == null)
    {
      _timeToNamedOutput = new HashMap<Long,String>();
    }
    String namedOutput = _timeToNamedOutput.get(time);
    if (namedOutput == null)
    {
      namedOutput = PathUtils.datedPathFormat.format(new Date(time));
      _timeToNamedOutput.put(time, namedOutput);
    }
    return namedOutput;
  }
}