java source code of TupleDiff

datafu-master
- bootstrap.gradle
- CONTRIBUTORS
- gradle.properties
- gradle
  - resources
    - rat-output-to-html.xsl
  - dependency-versions.gradle
  - release.gradle
  - rat.gradle
  - buildscript.gradle
- datafu-hourglass
  - src
    - main
      - resources
        META-INF
        LICENSE
        DISCLAIMER
        NOTICE
      - java
        datafu
        hourglass
        avro
        AvroKeyWithMetadataOutputFormat.java
        AvroMultipleInputsKeyInputFormat.java
        AvroKeyWithMetadataRecordWriter.java
        AvroMultipleInputsUtil.java
        CombinedAvroKeyInputFormat.java
        AvroKeyValueWithMetadataOutputFormat.java
        package-info.java
        AvroDateRangeMetadata.java
        AvroKeyValueWithMetadataRecordWriter.java
        fs
        package-info.java
        DateRange.java
        PathUtils.java
        DatePath.java
        jobs
        PartitionPreservingIncrementalJob.java
        Setup.java
        AbstractPartitionCollapsingIncrementalJob.java
        DateRangePlanner.java
        PartitionCollapsingIncrementalJob.java
        DateRangeConfigurable.java
        TimePartitioner.java
        AbstractJob.java
        ReduceEstimator.java
        MaxInputDataExceededException.java
        PartitionPreservingExecutionPlanner.java
        package-info.java
        AbstractPartitionPreservingIncrementalJob.java
        StagedOutputJob.java
        PartitionCollapsingExecutionPlanner.java
        AbstractNonIncrementalJob.java
        FileCleaner.java
        ExecutionPlanner.java
        TimeBasedJob.java
        IncrementalJob.java
        model
        Mapper.java
        Accumulator.java
        package-info.java
        KeyValueCollector.java
        Merger.java
        schemas
        PartitionPreservingSchemas.java
        PartitionCollapsingSchemas.java
        package-info.java
        TaskSchemas.java
        mapreduce
        PartitioningMapper.java
        Parameters.java
        AvroKeyValueIdentityMapper.java
        ObjectProcessor.java
        CollapsingMapper.java
        DelegatingCombiner.java
        PartitioningCombiner.java
        ObjectMapper.java
        DelegatingReducer.java
        DistributedCacheHelper.java
        PartitioningReducer.java
        package-info.java
        CollapsingReducer.java
        DelegatingMapper.java
        ObjectReducer.java
        CollapsingCombiner.java
    - test
      - java
        datafu
        hourglass
        demo
        EstimateCardinality.java
        NamedTool.java
        Examples.java
        Main.java
        CountById.java
        GenerateIds.java
        test
        PartitionCollapsingTests.java
        PartitionPreservingTests.java
        PartitionCollapsingJoinTest.java
        PartitionPreservingJoinTests.java
        util
        DailyTrackingWriter.java
        TimestampDataWriter.java
        Schemas.java
        PartitionCollapsingExecutionPlannerTests.java
        jobs
        SimpleAvroJob.java
        ImpressionClickPartitionPreservingJob.java
        counting
        CountAccumulator.java
        PartitionPreservingIncrementalCountJob.java
        PartitionCollapsingIncrementalCountJob.java
        CountWriter.java
        SimplePartitionCollapsingCountJob.java
        ImpressionClickPartitionCollapsingJob.java
        SimplePartitionCollapsingCountJob2.java
        SimplePartitionPreservingCountJob.java
        TestAvroJob.java
        PartitionPreservingCollapsingIntegrationTests.java
        TestBase.java
  - find_dupes.rb
  - build.gradle
  - overview.html
  - README.md
  - changes.md
  - .gitignore
- examples
  - sessionize
    - clicks.csv
    - README.md
    - sessionize.pig
  - quantile
    - quantile.pig
    - quartiles-diff.tsv
    - streaming_quantile.pig
    - quartiles-exact.tsv
    - quartiles-approx.tsv
    - README.md
    - generate_temperature_data.rb
- datafu-spark
  - src
    - main
      - resources
        META-INF
        services
        datafu.spark.PythonResource
        LICENSE
        NOTICE
        pyspark_utils
        bridge_utils.py
        __init__.py
        init_spark_context.py
        df_utils.py
      - scala
        datafu
        spark
        PythonPathsManager.scala
        SparkUDAFs.scala
        ScalaPythonBridge.scala
        DataFrameOps.scala
        SparkDFUtils.scala
        spark
        utils
        overwrites
        SparkOverwriteUDAFs.scala
        SparkPythonRunner.scala
    - test
      - resources
        log4j.properties
        text.csv
        META-INF
        services
        datafu.spark.PythonResource
        python_tests
        pyfromscala_with_error.py
        pyfromscala.py
        df_utils_tests.py
      - scala
        datafu
        spark
        PySparkLibTestResources.scala
        TestSparkUDAFs.scala
        TestScalaPythonBridge.scala
        TestSparkDFUtils.scala
  - gradle
    - dependency-versions-scala-2.12.gradle
    - dependency-versions-scala-2.11.gradle
  - build.gradle
  - README.md
  - build_and_test_spark.sh
- doap_DataFu.rdf
- site
  - source
    - blog
      - 2013-10-03-datafus-hourglass-incremental-data-processing-in-hadoop.markdown
      - 2016-08-10-datafu-1-3-1-released.markdown
      - 2018-03-22-datafu-1-4-0-released.markdown
      - 2014-04-27-datafu-at-apachecon.markdown
      - 2015-11-17-datafu-1-3-0-released.markdown
      - 2020-03-31-datafu-1-6-0-released.markdown
      - index.html.erb
      - 2017-03-10-datafu-1-3-2-released.markdown
      - 2018-01-26-datafu-1-3-3-released.markdown
      - 2013-01-24-datafu-the-wd-40-of-big-data.markdown
      - 2019-01-07-datafu-1-5-0-released.markdown
      - 2013-09-04-datafu-1-0.markdown
      - 2012-01-10-introducing-datafu.html.markdown
      - 2019-01-29-a-look-at-paypals-contributions-to-datafu.markdown
    - sitemap.xml.builder
    - images
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - javascripts
      - bootstrap.min.js
      - all.js
      - bootstrap.js
      - jquery-2.0.3.min.js
    - fonts
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - community
      - mailing-lists.html.markdown
      - contributing.html.markdown
      - issues.html.markdown
    - index.markdown.erb
    - stylesheets
      - highlight.css.erb
      - bootstrap.min.css
      - bootstrap.css
      - all.less
      - bootstrap-theme.min.css
      - bootstrap-theme.css
    - layouts
      - layout.erb
      - _footer.erb
      - _docs_nav.erb
      - docs.erb
      - blog.erb
      - _header.erb
    - docs
      - hourglass
        getting-started.html.markdown.erb
        concepts.html.markdown
      - datafu
        guide.html.markdown.erb
        getting-started.html.markdown.erb
        guide
        statistics.html.markdown.erb
        link-analysis.html.markdown.erb
        hashing.html.markdown.erb
        set-operations.html.markdown.erb
        sampling.html.markdown.erb
        more-tips-and-tricks.html.markdown.erb
        sessions.html.markdown.erb
        macros.html.markdown.erb
        bag-operations.html.markdown.erb
      - download.html.markdown.erb
      - spark
        guide.html.markdown.erb
        getting-started.html.markdown.erb
  - Gemfile
  - lib
    - pig.rb
  - config.rb
  - Gemfile.lock
  - README.md
  - .gitignore
- test.sh
- LICENSE
- RELEASE.md
- HEADER
- datafu-pig
  - src
    - main
      - resources
        datafu
        left_outer_join.pig
        sample_by_keys.pig
        count_macros.pig
        tf_idf.pig
        dedup.pig
        diff_macros.pig
        META-INF
        LICENSE
        DISCLAIMER
        NOTICE
      - java
        datafu
        pig
        sessions
        Sessionize.java
        SessionCount.java
        package-info.java
        linkanalysis
        PageRank.java
        ProgressIndicator.java
        PageRankImpl.java
        package-info.java
        geo
        HaversineDistInMiles.java
        package-info.java
        sampling
        SimpleRandomSampleWithReplacementVote.java
        SampleByKey.java
        WeightedReservoirSample.java
        ScoredTuple.java
        SimpleRandomSample.java
        package-info.java
        WeightedSample.java
        SimpleRandomSampleWithReplacementElect.java
        Reservoir.java
        ReservoirSample.java
        bags
        BagJoin.java
        ZipBags.java
        TupleFromBag.java
        BagGroup.java
        CountDistinctUpTo.java
        FirstTupleFromBag.java
        ReverseEnumerate.java
        EmptyBagToNullFields.java
        AppendToBag.java
        UnorderedPairs.java
        DistinctBy.java
        EmptyBagToNull.java
        package-info.java
        BagLeftOuterJoin.java
        BagConcat.java
        BagSplit.java
        Enumerate.java
        NullToEmptyBag.java
        PrependToBag.java
        CountEach.java
        util
        SelectStringFieldByName.java
        BoolToInt.java
        SimpleEvalFunc.java
        Assert.java
        IntToBool.java
        AliasableEvalFunc.java
        In.java
        AssertUDF.java
        package-info.java
        TransposeTupleToBag.java
        FieldNotFound.java
        Coalesce.java
        Base64Encode.java
        TupleDiff.java
        Base64Decode.java
        InUDF.java
        DataFuException.java
        ContextualEvalFunc.java
        urls
        URLInfo.java
        package-info.java
        UserAgentClassify.java
        text
        opennlp
        SentenceDetect.java
        TokenizeWhitespace.java
        POSTag.java
        CachedFile.java
        TokenizeME.java
        TokenizeSimple.java
        random
        RandInt.java
        RandomUUID.java
        package-info.java
        stats
        DoubleVAR.java
        QuantileUtil.java
        Median.java
        WilsonBinConf.java
        IntVAR.java
        StreamingQuantile.java
        LongVAR.java
        VAR.java
        FloatVAR.java
        package-info.java
        StreamingMedian.java
        Quantile.java
        entropy
        EmpiricalEntropyEstimator.java
        EntropyUtil.java
        EmpiricalCountEntropy.java
        CondEntropy.java
        EntropyEstimator.java
        Entropy.java
        ChaoShenEntropyEstimator.java
        HyperLogLogPlusPlus.java
        MarkovPairs.java
        sets
        SetDifference.java
        package-info.java
        SetOperationsBase.java
        SetIntersect.java
        SetUnion.java
        hash
        Hasher.java
        SHA.java
        HasherRand.java
        MD5.java
        package-info.java
        lsh
        CosineDistanceHash.java
        LSHFunc.java
        p_stable
        L1LSH.java
        package-info.java
        L2LSH.java
        AbstractStableDistributionFunction.java
        util
        package-info.java
        DataTypeUtil.java
        L2PStableHash.java
        package-info.java
        metric
        L1.java
        Cosine.java
        package-info.java
        MetricUDF.java
        L2.java
        LSHFamily.java
        interfaces
        Sampler.java
        LSH.java
        LSHCreator.java
        package-info.java
        cosine
        HyperplaneLSH.java
        package-info.java
        L1PStableHash.java
        RepeatingLSH.java
        org
        apache
        pig
        piggybank
        evaluation
        ExtremalTupleByNthField.java
    - test
      - java
        datafu
        test
        pig
        sessions
        SessionTests.java
        linkanalysis
        PageRankTests.java
        PageRankImplTests.java
        geo
        GeoTests.java
        sampling
        SimpleRandomSampleTestOld.java
        WeightedReservoirSamplingTests.java
        SamplingTests.java
        SimpleRandomSampleTest.java
        SimpleRandomSampleWithReplacementTest.java
        bags
        BagTests.java
        ZipBagsTests.java
        util
        AliasEvalFuncTest.java
        TransposeTest.java
        IntBoolConversionPigTests.java
        Base64Test.java
        CoalesceTests.java
        DedupTests.java
        SchemaToString.java
        InTests.java
        SelectStringFieldByNameTest.java
        AssertTests.java
        EvalFuncTests.java
        TupleDiffTest.java
        PigTests.java
        urls
        UserAgentTest.java
        URLInfoTest.java
        text
        NLPTests.java
        random
        UUIDTests.java
        NumberTests.java
        stats
        MarkovPairTests.java
        VARTests.java
        WilsonBinConfTests.java
        QuantileTests.java
        TFIDFTests.java
        entropy
        AbstractEntropyTests.java
        ChaoShenEntropyTests.java
        EntropyTests.java
        EmpiricalCountEntropyTests.java
        CondEntropyTests.java
        EstimationTests.java
        sets
        SetTests.java
        hash
        HasherRandForTesting.java
        lsh
        LSHPigTest.java
        LSHTest.java
        HashTests.java
        macros
        MacroTests.java
        TestFilesSubdirTest.java
  - build.gradle
  - .gitignore
- build.gradle
- buildSrc
  - src
    - main
      - groovy
        datafu
        autojar
        GradleAutojarPlugin.groovy
        task
        ExtractAutojar.groovy
        Autojar.groovy
  - build.gradle
- test_in_background.sh
- README.md
- KEYS
- build-plugin
  - src
    - main
      - resources
        META-INF
        services
        javax.annotation.processing.Processor
      - java
        org
        adrianwalker
        multilinestring
        Multiline.java
        JavacMultilineProcessor.java
        EcjMultilineProcessor.java
        MultilineProcessor.java
  - build.gradle
  - .gitignore
- changes.md
- settings.gradle
- NOTICE
- .gitignore

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */

package datafu.pig.util;

import java.io.IOException;
import java.util.HashSet;
import java.util.Set;

import org.apache.pig.EvalFunc;
import org.apache.pig.backend.executionengine.ExecException;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.logicalLayer.FrontendException;
import org.apache.pig.impl.logicalLayer.schema.Schema;
import org.apache.pig.impl.logicalLayer.schema.Schema.FieldSchema;

/**
 * Gets a variable number of arguments - the old tuple, the new tuple, and a list of ignored fields
 *
 * Values are compared by position (zero-based). If a schema exists, the field names will be used for descriptive purposes only.
 *
 * If there are different field names, both will be used, with the format old/new. If there is no schema numbers will be used.
 *
 * The list of ignored fields may be by number or by name. It is only checked at the topmost level. If you want to ignore a field
 * whose name has changed you can use the format oldname/newname, and it will be ignored. To ignore a new field, for example
 * you would use null/newFieldName
 *
 * The following chart shows some sample results. Assume the schema has field names like f0, f1 f2 ... for fields 0, 1, 2, etc.
 *
 * Tuple				Result Without Schema		Result with Schema   
 * ------				----------------------		------------------
 * ((0),)				missing						missing
 * (,(0))				added						added
 * ((0),(0))                                       
 * ((0),(1))			changed 0					changed f0
 * ((0,1),(0,2))		changed 1					changed f1
 * ((0,1),(0,2),1)                                   
 * ((0,1),(0))			changed 1					changed f1/null
 * ((0),(0,1))			changed 1					changed null/f1
 * ((0),(0,1),1)                                   
 * ((0,1),(2,3))		changed 0 1					changed f0 f1
 *
 * The following macro may be useful in calling this UDF if you have only one join field and up to one ignored field:
 *
 * DEFINE diff_macro(diff_macro_old, diff_macro_new, diff_macro_pk, diff_macro_ignored_field) returns diff_macro_diffs
 *    {
 *         DEFINE TupleDiff datafu.pig.util.TupleDiff;

 *         old =     FOREACH $diff_macro_old GENERATE $diff_macro_pk, TOTUPLE(*) AS original;
 *         new =     FOREACH $diff_macro_new GENERATE $diff_macro_pk, TOTUPLE(*) AS original;
 *
 *         join_data = JOIN new BY $diff_macro_pk full, old BY $diff_macro_pk;
 *
 *         join_data = FOREACH join_data GENERATE TupleDiff(old::original, new::original, '$diff_macro_ignored_field') AS tupleDiff, old::original, new::original;
 *
 *         $diff_macro_diffs = FILTER join_data BY tupleDiff IS NOT NULL ;
 *     };
 *
 **/
public class TupleDiff extends EvalFunc<String> {

	public final String added;
	public final String missing;
	public final String changed;
	public final String separator;
	public final String fieldNameChangeSeparator;
	public final String tupleStart;
	public final String tupleEnd;

	public TupleDiff() {
		this("added", "missing", "changed", " ", "/", "(", ")");
	}

	public TupleDiff(String added, String missing, String changed, String separator, String fieldNameChangeSeparator,
			String tupleStart, String tupleEnd) {
		this.added = added;
		this.missing = missing;
		this.changed = changed;
		this.separator = separator;
		this.fieldNameChangeSeparator = fieldNameChangeSeparator;
		this.tupleStart = tupleStart;
		this.tupleEnd = tupleEnd;
	}

	@Override
	public String exec(Tuple tuple) throws IOException {
		Schema inputSchema = this.getInputSchema();

		FieldSchema schema1 = inputSchema != null ? inputSchema.getField(0) : null;
		FieldSchema schema2 = inputSchema != null ? inputSchema.getField(1) : null;

		Set<String> ignoredFields = new HashSet<String>();

		// only top-level fields can be ignored
		for (int i = 2; i < tuple.size(); i++) {
			ignoredFields.add((String) tuple.get(i));
		}

		StringBuilder sb = new StringBuilder();

		boolean addedOrMissing = compare(tuple.get(0), tuple.get(1), schema1, schema2, 0, sb, null, ignoredFields);

		if (sb.length() == 0) {
			return null;
		}

		String result = sb.toString();

		if (addedOrMissing) {
			return result;
		}

		// if there were ignored fields, we will only know that our tuples have no diff at the very end
		return this.changed + result;
	}

	private boolean compare(Object oldField, Object newField, FieldSchema oldSchema, FieldSchema newSchema,
			int fieldNum, StringBuilder resultBuilder, StringBuilder prefixBuilder, Set<String> ignoredFields)
			throws ExecException, FrontendException {
		boolean topLevel = prefixBuilder == null;

		String alias = topLevel ? "" : getFieldAliasOrNumber(oldSchema, newSchema, fieldNum);

		// we are not in the 2nd level and this field is meant to be ignored
		if (topLevel || (prefixBuilder.length() != 0) || !ignoredFields.contains(alias)) {
			if (oldField == null) {
				if (newField != null) {
					if (topLevel) {
						resultBuilder.append(this.added);
						return true;
					} else {
						resultBuilder.append(this.separator).append(prefixBuilder.toString()).append(alias);
					}
				}
			} else if (newField == null) {
				if (topLevel) {
					resultBuilder.append(this.missing);
					return true;
				} else {
					resultBuilder.append(this.separator).append(prefixBuilder.toString()).append(alias);
				}
			} else if (!newField.equals(oldField)) {

				// the top level is always a tuple, regardless of whether we have a schema or not
				if (topLevel || ((oldSchema != null) && (DataType.TUPLE == oldSchema.type))) {
					Tuple oldTuple = (Tuple) oldField;

					if (!(newField instanceof Tuple)) {
						resultBuilder.append(this.separator).append(prefixBuilder.toString()).append(alias);
					} else {

						// drill down to show the differences within the tuple
						Tuple newTuple = (Tuple) newField;

						int maxNumOfFields = Math.max(oldTuple.size(), newTuple.size());

						for (int innerFieldNum = 0; innerFieldNum < maxNumOfFields; innerFieldNum++) {

							int lengthBeforeCall = resultBuilder.length();

							compare(getField(oldTuple, innerFieldNum), getField(newTuple, innerFieldNum),
									getFieldSchema(oldSchema, innerFieldNum), getFieldSchema(newSchema, innerFieldNum),
									innerFieldNum, resultBuilder, topLevel ? new StringBuilder() : new StringBuilder(
											prefixBuilder).append(alias).append(this.tupleStart), ignoredFields);

							if (!topLevel && (resultBuilder.length() > lengthBeforeCall)) {
								resultBuilder.append(this.tupleEnd);
							}

						}
					}
				} else {
					resultBuilder.append(this.separator).append(prefixBuilder.toString()).append(alias);
				}
			}
		}

		return false;
	}

	private String getFieldAliasOrNumber(FieldSchema oldSchema, FieldSchema newSchema, int fieldNum) {
		String oldAlias = oldSchema != null ? oldSchema.alias : null;
		String newAlias = newSchema != null ? newSchema.alias : null;

		if ((oldAlias == null) && (newAlias == null)) {
			return String.valueOf(fieldNum);
		} else if ((oldAlias != null) && oldAlias.equals(newAlias)) {
			return oldAlias;
		}

		return oldAlias + this.fieldNameChangeSeparator + newAlias;
	}

	private Object getField(Tuple tuple, int fieldNum) throws ExecException {
		return tuple.size() < (fieldNum + 1) ? null : tuple.get(fieldNum);
	}

	private FieldSchema getFieldSchema(FieldSchema fieldSchema, int fieldNum) throws ExecException, FrontendException {
		if (fieldSchema == null) {
			return null;
		}

		Schema schema = fieldSchema.schema;

		return schema.size() < (fieldNum + 1) ? null : schema.getField(fieldNum);
	}

	@Override
	public Schema outputSchema(Schema input) {
		if (input.size() < 2) {
			throw new RuntimeException("Expected input to have at least 2 fields, but has " + input.size());
		}

		return new Schema(new FieldSchema("tuplediff", DataType.CHARARRAY));
	}
}