scala source code of SummarizeByKeyIterator

flint-master
- src
  - main
    - scala
      - com
        twosigma
        flint
        sql
        function
        aggregate
        WeightedMeanTest.scala
        rdd
        Conversion.scala
        function
        group
        SummarizeByKeyIterator.scala
        Intervalize.scala
        window
        SummarizeWindows.scala
        summarizer
        WindowBatchSummarizer.scala
        summarize
        Summarizations.scala
        TreeAggregate.scala
        TreeReduce.scala
        summarizer
        CompositeSummarizer.scala
        RegressionSummarizer.scala
        overlappable
        OverlappableSummarizer.scala
        OverlappableCompositeSummarizer.scala
        LagSumSummarizer.scala
        WeightedCovarianceSummarizer.scala
        Summarizer.scala
        ArrowSummarizer.scala
        subtractable
        LeftSubtractableSummarizer.scala
        WeightedMeanTestSummarizer.scala
        NthCentralMomentSummarizer.scala
        OLSRegressionSummarizer.scala
        SumSummarizer.scala
        DotProductSummarizer.scala
        ProductSummarizer.scala
        ZScoreSummarizer.scala
        GeometricMeanSummarizer.scala
        RowsSummarizer.scala
        NthMomentSummarizer.scala
        CorrelationSummarizer.scala
        QuantileSummarizer.scala
        CountSummarizer.scala
        ExponentialWeightedMovingAverageSummarizer.scala
        StackSummarizer.scala
        regression
        LagWindow.scala
        LagWindowQueue.scala
        ExponentialSmoothingSummarizer.scala
        WeightedCorrelationSummarizer.scala
        FlippableSummarizer.scala
        ExtremesSummarizer.scala
        Summarize.scala
        join
        FutureLeftJoin.scala
        LeftJoin.scala
        Merge.scala
        RangeMergeJoin.scala
        SymmetricJoin.scala
        Window.scala
        KeyPartitioningType.scala
        PeekableIterator.scala
        Range.scala
        MergeIterator.scala
        PartitionsIterator.scala
        RangeDependency.scala
        OverlappedOrderedRDD.scala
        Parsing.scala
        OrderedRDD.scala
        RangeSplit.scala
        PythonUtils.scala
        OrderedIterator.scala
        arrow
        ArrowUtils.scala
        ArrowReader.scala
        ArrowConverters.scala
        ArrowWriter.scala
        hadoop
        ConfOnlyTAC.scala
        WriSer.scala
        Hadoop.scala
        Extract.scala
        InputFormatConf.scala
        FlintConf.scala
        timeseries
        TimeSeriesGenerator.scala
        TimeSeriesRDD.scala
        Summarizers.scala
        TimeSeriesStore.scala
        time
        TimeFormat.scala
        types
        TimeType.scala
        window
        Window.scala
        summarizer
        ArrowWindowBatchSummarizer.scala
        clock
        Clock.scala
        CycleColumnImplicits.scala
        Windows.scala
        Clocks.scala
        CycleColumn.scala
        row
        Schema.scala
        InternalRowUtils.scala
        DuplicateColumnsException.scala
        io
        read
        ReadBuilder.scala
        Parameters.scala
        CSV.scala
        summarize
        package.scala
        Summarizer.scala
        summarizer
        MeanSummarizer.scala
        StandardizedMomentSummarizer.scala
        ExtremeSummarizer.scala
        OverlappableCompositeSummarizerFactory.scala
        WeightedMeanTestSummarizer.scala
        NthCentralMomentSummarizer.scala
        OLSRegressionSummarizer.scala
        SumSummarizer.scala
        WeightedCovarianceSummarizer.scala
        DotProductSummarizer.scala
        ProductSummarizer.scala
        ArrowSummarizer.scala
        StandardDeviationSummarizer.scala
        ZScoreSummarizer.scala
        GeometricMeanSummarizer.scala
        RowsSummarizer.scala
        StackSummarizerFactory.scala
        VarianceSummarizer.scala
        ExponentialSmoothingSummarizer.scala
        WeightedCorrelationSummarizer.scala
        CovarianceSummarizer.scala
        PredicateSummarizerFactory.scala
        CompositeSummarizerFactory.scala
        NthMomentSummarizer.scala
        CorrelationSummarizer.scala
        QuantileSummarizer.scala
        CountSummarizer.scala
        LagSumSummarizer.scala
        ExponentialWeightedMovingAverageSummarizer.scala
        ColumnList.scala
        util
        Utils.scala
        collection
        LinkedListHolder.scala
        Implicits.scala
        Timer.scala
        math
        stats
        regression
        WeightedLabeledPoint.scala
        OLSMultipleLinearRegression.scala
        LinearRegressionModel.scala
        annotation
        PythonApi.java
      - org
        apache
        spark
        sql
        DFConverter.scala
        OrderPreservingOperation.scala
        TimestampCast.scala
        CatalystTypeConvertersWrapper.scala
        PartitionPreservingOperation.scala
    - java
      - com
        twosigma
        flint
        math
        Kahan.java
  - test
    - resources
      - timeseries
        merge
        Price1.csv
        Price2.csv
        Merge.results
        summarizewindows
        SummarizeWindowSumOverSingleTimeSeries.results
        v1.csv
        SummarizeWindowCountOverTwoTimeSeries.results
        Clock.csv
        Value.csv
        v2.csv
        VolumeWithIndustryGroup.csv
        Clock1.csv
        SummarizeSingleColumnPerKey.results
        SummarizeSingleColumn.results
        Volume.csv
        Clock2.csv
        SummarizeWindowCountOverSingleTimeSeries.results
        SummarizeSingleColumnPerSeqOfKeys.results
        addcolumnsforcycle
        VolumeWithIndustryGroup.csv
        AdjustedPrice.results
        AddAdjustedPrice.results
        AddTotalVolumePerKey.results
        Volume.csv
        Price.csv
        AddTotalVolumePerSeqOfKeys.results
        leftjoin
        JoinOnTimeWithTolerance.results
        JoinOnTimeAndMultipleKeys.results
        VolumeWithMissingMatching.csv
        VolumeWithIndustryGroup.csv
        JoinOnTime.results
        PriceWithIndustryGroup.csv
        Volume.csv
        JoinOnTimeWithMissingMatching.results
        Price.csv
        groupbyinterval
        Clock.csv
        Volume.csv
        csv
        PriceWithHeader.csv
        VolumeWithHeader.csv
        TimeStampsWithHeader.csv
        PriceWithHeaderUnsorted.csv
        Volume.csv
        TimeStampsWithHeader2.csv
        Price.csv
        parquet
        PriceWithHeaderTimeRenamed.parquet
        PriceWithHeader.parquet
        PriceWithHeaderUnsorted.parquet
        summarizecycles
        VolumeWithIndustryGroup.csv
        Volume2.csv
        SummarizeSingleColumnPerKey.results
        SummarizeSingleColumn.results
        Volume.csv
        SummarizeSingleColumnPerSeqOfKeys.results
        futureleftjoin
        JoinOnTimeAndMultipleKeys.results
        JoinOnTimeAndKey.results
        VolumeWithIndustryGroup.csv
        JoinOnTimeRightShifted.results
        JoinOnTime.results
        JoinOnTimeAndKeyColumnFiltered.results
        VolumeWithRowFiltered.csv
        PriceWithIndustryGroup.csv
        Volume.csv
        Price.csv
        JoinOnTimeAndKeyRowFiltered.results
        JoinOnTimeStrictLookahead.results
        summarizeintervals
        SummarizeV2PerKey.results
        Clock.csv
        VolumeWithIndustryGroup.csv
        SummarizeSingleColumnPerKey.results
        SummarizeSingleColumn.results
        Volume.csv
        SummarizeSingleColumnPerSeqOfKeys.results
        summarize
        VolumeWithIndustryGroup.csv
        summarizer
        exponentialmovingaveragesummarizer
        Volume.csv
        Price.csv
        weightedmeantestsummarizer
        Forecast.csv
        Price.csv
        correlationsummarizer
        Forecast.csv
        Price.csv
        meansummarizer
        Price.csv
        zscoresummarizer
        Price.csv
        geometricmeansummarizer
        Price.csv
        dotproductsummarizer
        Price.csv
        olsregressionsummarizer
        data.csv
        standardizedmomentsummarizer
        Price.csv
        arrowsummarizer
        Price.csv
        Price.json
        weightedcorrelationsummarizer
        Data.csv
        exponentialsmoothingsummarizer
        window.groovy
        Price.csv
        nthmomentsummarizer
        Price.csv
        productsummarizer
        Price.csv
        Volume.csv
      - stat
        regression
        linear_regression_data.csv
    - scala
      - com
        twosigma
        flint
        rdd
        function
        IntervalizeSpec.scala
        summarize
        TreeReduceSpec.scala
        SummarizationsSpec.scala
        summarizer
        RegressionSummarizerSpec.scala
        regression
        LagWindowSpec.scala
        TreeAggregateSpec.scala
        SummarizeSpec.scala
        SummarizeByKeySpec.scala
        join
        LeftJoinSpec.scala
        OverlappedOrderedRDDSpec.scala
        ParallelCollectionRDD.scala
        Split.scala
        RangeSplitSpec.scala
        RangeDependencySpec.scala
        RangeMergeJoinSpec.scala
        RangeSpec.scala
        OrderedIteratorSpec.scala
        OrderedRDDSpec.scala
        ConversionSpec.scala
        SharedSparkContext.scala
        timeseries
        EmptyTimeSeriesRDDSpec.scala
        SummarizeCyclesSpec.scala
        UnsafeOrderedRDDSpec.scala
        SummarizeWindowsSpec.scala
        TimeTypeSuite.scala
        AddColumnsForCycleSpec.scala
        TimeSeriesRDDConversionSpec.scala
        ConcatArrowAndExplodeSpec.scala
        ClockSpec.scala
        SchemaSpec.scala
        FutureLeftJoinSpec.scala
        LeftJoinSpec.scala
        SummarizerSpec.scala
        TimeSeriesRDDSpec.scala
        AssertEqualsSpec.scala
        ArrowTestUtils.scala
        SummarizeIntervalsSpec.scala
        TimeSeriesTestData.scala
        DFConversionSpec.scala
        CycleColumnSpec.scala
        TimeSeriesSuite.scala
        row
        InternalRowUtilsSpec.scala
        io
        read
        ReadBuilderSpec.scala
        summarize
        SummarizerSuite.scala
        summarizer
        VarianceSummarizerSpec.scala
        CovarianceSummarizerSpec.scala
        StandardDeviationSummarizerSpec.scala
        WeightedCovarianceSummarizerSpec.scala
        CompositeSummarizerSpec.scala
        ExtremeSummarizerSpec.scala
        StackSummarizerSpec.scala
        MeanSummarizerSpec.scala
        PredicateSummarizerSpec.scala
        subtractable
        DotProductSummarizerSpec.scala
        QuantileSummarizerSpec.scala
        StandardizedMomentSummarizerSpec.scala
        OLSRegressionSummarizerSpec.scala
        NthMomentSummarizerSpec.scala
        SumSummarizerSpec.scala
        WeightedMeanTestSummarizerSpec.scala
        ZScoreSummarizerSpec.scala
        CountSummarizerSpec.scala
        ExponentialWeightedMovingAverageSummarizerSpec.scala
        GeometricMeanSummarizerSpec.scala
        ProductSummarizerSpec.scala
        CorrelationSummarizerSpec.scala
        RowsSummarizerSpec.scala
        ArrowSummarizerSpec.scala
        WeightedCorrelationSummarizerSpec.scala
        ExponentialSmoothingSummarizerSpec.scala
        ColumnListSpec.scala
        SummarizeNullSpec.scala
        GroupByIntervalSpec.scala
        TimeFormatSpec.scala
        PartitionStrategySpec.scala
        MergeSpec.scala
        SummarizeWindowBatchesSpec.scala
        SummarizeSpec.scala
        TimeSeriesGeneratorSpec.scala
        TimeSeriesRDDCacheSpec.scala
        MultiPartitionSuite.scala
        CSVSpec.scala
        util
        collection
        LinkedListHolderSpec.scala
        FlintSuite.scala
        LocalSparkContext.scala
        math
        KahanSpec.scala
        stats
        regression
        WeightedLabeledPointSpec.scala
        LinearRegressionModelSpec.scala
      - org
        apache
        spark
        sql
        PartitionPreservingOperationSpec.scala
        FlintTestData.scala
        OrderPreservingOperationSpec.scala
        TimestampCastSpec.scala
- version.txt
- scalastyle-config.xml
- Makefile
- sonatype.sbt
- .gitlab
  - merge_request_templates
    - Default.md
- LICENSE
- project
  - build.properties
  - BuildUtil.scala
  - assembly.sbt
  - plugins.sbt
- CONTRIBUTING.md
- python
  - readthedocs-pip-requirements.txt
  - examples
    - spy.csv
    - weather.csv
    - weather.ipynb
  - ts
    - __init__.py
    - flint
      - dataframe.py
      - udf.py
      - serializer.py
      - summarizers.py
      - java.py
      - clocks.py
      - readwriter.py
      - functions.py
      - windows.py
      - group.py
      - __init__.py
      - utils.py
      - _version.py
      - error.py
      - context.py
  - travis
    - prepare_python_tests.sh
    - spark-defaults.conf
    - spark_log4j.properties
    - run_python_tests.sh
  - versioneer.py
  - .gitattributes
  - recipe
    - meta.yaml
    - build.sh
  - setup.py
  - setup.cfg
  - README.md
  - tests
    - ts
      - flint
        test_partition_preserve.py
        test_dataframe_api.py
        test_summarizer.py
        test_reader.py
    - test_data.py
    - README.md
    - utils.py
    - base_test_case.py
    - spark_test_case.py
  - requirements.txt
  - .gitignore
  - docs
    - reference.rst
    - context.rst
    - index.rst
    - conf.py
    - cookbook.rst
    - flint.rst
  - MANIFEST.in
- cla
  - Project_Flint_Corporate_Contributor_License_Agreement.docx
  - Project_Flint_Individual_Contributor_License_Agreement.docx
- example
  - Flint Example.ipynb
  - sp500.csv
- .travis.yml
- README.md
- scripts
  - run_scala_test.sh
  - divide_scala_tests.sh
  - prepare_python_tests.sh
  - run_python_tests.sh
- build.sbt
- .gitignore
- doc
  - partition.md
  - develop.md
  - ema.md

/*
 *  Copyright 2017-2018 TWO SIGMA OPEN SOURCE, LLC
 *
 *  Licensed under the Apache License, Version 2.0 (the "License");
 *  you may not use this file except in compliance with the License.
 *  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 *  Unless required by applicable law or agreed to in writing, software
 *  distributed under the License is distributed on an "AS IS" BASIS,
 *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *  See the License for the specific language governing permissions and
 *  limitations under the License.
 */

package com.twosigma.flint.rdd.function.group

import java.util

import com.twosigma.flint.rdd.function.summarize.summarizer.Summarizer
import com.twosigma.flint.rdd.function.window.SummarizeWindows
import org.apache.spark.TaskContext

import scala.reflect.ClassTag
import scala.collection.JavaConverters._

/**
 * Summarizes rows for each key and secondary key using a constant
 * amount of memory per SK. This means memory is bounded to the number
 * of distinct secondary keys times the size of the intermediate representation
 *
 * Assuming that you are summarizing with RowSummarizer, we can use the following
 * example to illustrate what this iterator looks like.
 *
 * {{{
 * val l = List(
 *   (1000L, (1, 0.01)),
 *   (1000L, (2, 0.02)),
 *   (1000L, (1, 0.03)),
 *   (1000L, (2, 0.04)))
 * val iter = SummarizeByKeyIterator(l.iterator, (x: (Int, Double)) => x._1, new RowSummarizer[(Int, Double)])
 * iter.next
 * // (1000L, Array((1, 0.01), (1, 0.03)))
 * iter.next
 * // (1000L, Array((2, 0.02), (2, 0.04)))
 * }}}
 */
private[rdd] class SummarizeByKeyIterator[K, V, SK, U, V2](
  iter: Iterator[(K, V)],
  skFn: V => SK,
  summarizer: Summarizer[V, U, V2]
)(implicit tag: ClassTag[V], ord: Ordering[K])
  extends Iterator[(K, (SK, V2))]
  with AutoCloseable {
  private[this] val bufferedIter = iter.buffered

  private[this] var currentKey: K = _

  // We use a mutable linked hash map in order to preserve the secondary key ordering.
  private[this] val intermediates: util.LinkedHashMap[SK, U] =
    new util.LinkedHashMap()

  override def hasNext: Boolean =
    !intermediates.isEmpty || bufferedIter.hasNext

  // Update intermediates with next key if bufferedIter.hasNext.
  private def nextKey(): Unit = if (bufferedIter.hasNext) {
    currentKey = bufferedIter.head._1
    // Iterates through all rows from the given iterator until seeing a different key.
    do {
      val v = bufferedIter.next._2
      val sk = skFn(v)
      val intermediate = SummarizeWindows.lazyGetOrDefault(intermediates, sk, summarizer.zero())
      intermediates.put(sk, summarizer.add(intermediate, v))
    } while (bufferedIter.hasNext && ord.equiv(bufferedIter.head._1, currentKey))
  }

  override def next(): (K, (SK, V2)) = {
    if (intermediates.isEmpty) {
      nextKey()
    }
    if (hasNext) {
      val entry = intermediates.entrySet().iterator().next()
      val sk = entry.getKey
      val intermediate = entry.getValue
      intermediates.remove(sk)
      (currentKey, (sk, summarizer.render(intermediate)))
    } else {
      Iterator.empty.next()
    }
  }

  override def close(): Unit = intermediates.asScala.toMap.values.foreach {
    u =>
      summarizer.close(u)
  }
}