java source code of TokenNGramsWithGlobalWeights

JedAIToolkit-master
- src
  - main
    - resources
      - embeddings
        weights.txt
    - java
      - org
        scify
        jedai
        blockbuilding
        AbstractBlockBuilding.java
        LSHMinHashBlocking.java
        SuffixArraysBlocking.java
        IBlockBuilding.java
        ExtendedQGramsBlocking.java
        SortedNeighborhoodBlocking.java
        ExtendedSuffixArraysBlocking.java
        StandardBlocking.java
        LSHSuperBitBlocking.java
        QGramsBlocking.java
        ExtendedSortedNeighborhoodBlocking.java
        configuration
        gridsearch
        IntGridSearchConfiguration.java
        IGridSearchConfiguration.java
        DblGridSearchConfiguration.java
        IConfiguration.java
        randomsearch
        IntRandomSearchConfiguration.java
        DblRandomSearchConfiguration.java
        IRandomSearchConfiguration.java
        AbstractRandomSearchConfiguration.java
        similarityjoins
        ISimilarityJoin.java
        tokenbased
        AllPairs.java
        SilkMoth.java
        AbstractTokenBasedJoin.java
        PPJoin.java
        PartEnumJoin.java
        characterbased
        EdJoin.java
        AllPairs.java
        PassJoin.java
        FastSS.java
        AbstractCharacterBasedJoin.java
        fuzzysets
        FuzzySetSimJoin.java
        AbstractSimilarityJoin.java
        blockprocessing
        AbstractBlockProcessing.java
        IBlockProcessing.java
        blockcleaning
        BlockFiltering.java
        ComparisonsBasedBlockPurging.java
        AbstractBlockPurging.java
        SizeBasedBlockPurging.java
        comparisoncleaning
        AbstractComparisonCleaning.java
        ExtendedCanopyClustering.java
        ReciprocalWeightedNodePruning.java
        CardinalityNodePruning.java
        WeightedEdgePruning.java
        CardinalityEdgePruning.java
        WeightedNodePruning.java
        ComparisonPropagation.java
        ReciprocalCardinalityNodePruning.java
        BLAST.java
        AbstractMetablocking.java
        CanopyClustering.java
        schemaclustering
        AbstractAttributeClustering.java
        ISchemaClustering.java
        AttributeValueClustering.java
        AttributeNameClustering.java
        HolisticAttributeClustering.java
        textmodels
        BagModel.java
        TokenNGramsWithGlobalWeights.java
        MinHashUnigrams.java
        embeddings
        PretrainedCharacterVectors.java
        VectorSpaceModel.java
        PretrainedWordVectors.java
        PretrainedVectors.java
        TokenNGramGraphs.java
        AbstractModel.java
        ITextModel.java
        SuperBitUnigrams.java
        GraphModel.java
        CharacterNGramGraphs.java
        CharacterNGramsWithGlobalWeights.java
        TokenNGrams.java
        CharacterNGrams.java
        progressivejoin
        InvertedIndex.java
        Topk.java
        ListHead.java
        SortedList.java
        TopkGlobal.java
        SetSimJoin.java
        AbstractProgressiveJoin.java
        Verify.java
        IProgressiveJoin.java
        JaccardTopK.java
        datareader
        IDataReader.java
        entityreader
        EntityXMLreader.java
        EntityJSONRDFReader.java
        IEntityReader.java
        EntityHDTRDFReader.java
        EntitySPARQLReader.java
        EntityRDFReader.java
        AbstractEntityReader.java
        EntitySerializationReader.java
        EntityDBReader.java
        EntityCSVReader.java
        AbstractReader.java
        groundtruthreader
        AbstractGtReader.java
        IGroundTruthReader.java
        GtRDFReader.java
        GtCSVReader.java
        GtIIMBbenchmarksReader.java
        GtOAEIbenchmarksReader.java
        GtSerializationReader.java
        entitymatching
        AbstractEntityMatching.java
        GroupLinkage.java
        ProfileMatcher.java
        IEntityMatching.java
        prioritization
        IPrioritization.java
        ProgressiveEntityScheduling.java
        ProgressiveGlobalRandomComparisons.java
        AbstractHashBasedPrioritization.java
        ProgressiveBlockScheduling.java
        LocalProgressiveSortedNeighborhood.java
        AbstractPrioritization.java
        AbstractSimilarityBasedPrioritization.java
        ProgressiveLocalTopComparisons.java
        GlobalProgressiveSortedNeighborhood.java
        ProgressiveGlobalTopComparisons.java
        utilities
        PositionIndex.java
        ProgressiveCNPDecomponsedBlocks.java
        ProgressiveEntityComparisons.java
        BlockcentricEntityIndex.java
        ProgressiveCNP.java
        ProgressiveEntityComparisonsDecomposedBlocks.java
        ProgressiveCEP.java
        ProgressiveWNP.java
        SortedEntities.java
        AbstractDecomposedBlocksProcessing.java
        datawriter
        ClustersPerformanceWriter.java
        PrintStatsToFile.java
        BlocksPerformanceWriter.java
        entityclustering
        MergeCenterClustering.java
        UniqueMappingClustering.java
        IEntityClustering.java
        RicochetSRClustering.java
        CenterClustering.java
        BestAssignmentHeuristic.java
        CutClustering.java
        CorrelationClustering.java
        ConnectedComponentsClustering.java
        RowColumnClustering.java
        AbstractEntityClustering.java
        AbstractCcerEntityClustering.java
        MarkovClustering.java
        datamodel
        AttributeClusters.java
        AbstractBlock.java
        DecomposedBlock.java
        Comparison.java
        RepModelSimMetricCombo.java
        UnilateralBlock.java
        SimilarityEdge.java
        SimilarityPairs.java
        GomoryHuTree.java
        ComparisonIterator.java
        VertexWeight.java
        EntityProfile.java
        Attribute.java
        joins
        ListItemPPJ.java
        IntPair.java
        PIndex.java
        Category.java
        IntListPair.java
        AttributeProfile.java
        EquivalenceCluster.java
        IdDuplicates.java
        BilateralBlock.java
        PairIterator.java
        workflowbuilder
        Main.java
        utilities
        comparators
        DecComparisonWeightComparator.java
        DecVertexWeightComparator.java
        DecBlockUtilityComparator.java
        IncBlockCardinalityComparator.java
        IncComparisonWeightComparator.java
        DecSimilarityEdgeComparator.java
        graph
        ConnectedComponents.java
        UndirectedGraph.java
        PrintToFile.java
        ClustersPerformance.java
        datastructures
        EntityIndex.java
        AbstractDuplicatePropagation.java
        BilateralDuplicatePropagation.java
        UnilateralDuplicatePropagation.java
        GroundTruthIndex.java
        IDocumentation.java
        enumerations
        ProgressiveWeightingScheme.java
        ComparisonCleaningMethod.java
        EntityClusteringDerMethod.java
        EntityMatchingMethod.java
        BlockBuildingMethod.java
        BlockCleaningMethod.java
        RepresentationModel.java
        EntityClusteringCcerMethod.java
        WeightingScheme.java
        SchemaClusteringMethod.java
        SimilarityMetric.java
        BlocksPerformance.java
        IConstants.java
  - test
    - java
      - org
        scify
        jedai
        blockbuilding
        TestAllMethodsDirtyER.java
        MultipleBlockingMethods.java
        TestAllMethodsCleanCleanER.java
        configuration
        HolisticRandomConfigurationCCER.java
        StepByStepRandomConfigurationDER.java
        StepByStepGridConfigurationCCER.java
        version2_1
        HolisticRandomConfigurationCCER.java
        StepByStepRandomConfigurationDER.java
        StepByStepGridConfigurationCCER.java
        StepByStepRandomConfigurationCCER.java
        StepByStepGridConfigurationDER.java
        HolisticRandomConfigurationDER.java
        OptimizeDirtyMoviesDataset.java
        StepByStepRandomConfigurationCCER.java
        ConfigureRandomlyEndToEndWorkflowDirtyER.java
        ConfigureRandomlyEndToEndWorkflowCCER.java
        StepByStepGridConfigurationDER.java
        HolisticGridConfigurationCCER.java
        HolisticRandomConfigurationDER.java
        similarityjoins
        TestAllMethodsDirtyER.java
        TestSimJoinsWithDirtyERdatasets.java
        TestSimJoins.java
        blockprocessing
        blockcleaning
        TestAllStepMethods.java
        TestAllStepMethodsCcer.java
        TestAllMethodsCcer.java
        TestAllMethods.java
        comparisoncleaning
        TestAllStepMethods.java
        TestBlast.java
        TestAllStepMethodsCcer.java
        TestAllMethodsCcer.java
        TestAllMethods.java
        schemaclustering
        TestAllMethodsDirtyER.java
        TestAllMethodsCleanCleanER.java
        datareader
        TestJSONrdfReader.java
        TestHDTRdfReader.java
        TestRdfReader.java
        TestGtIIMBbenchmarksReader.java
        TestEndpointReader.java
        TestGtOAEIbenchmarksReader.java
        TestGtCSVReader.java
        TestDBReader.java
        TestGtRDFReader.java
        TestEntityCSVReader.java
        TestXMLreader.java
        entitymatching
        TestAllMethods.java
        TestGroupLinkage.java
        prioritization
        TestDirtyERBaseline.java
        TestProgressiveDirtyER.java
        TestProgressiveCleanCleanER.java
        TestCleanCleanERBaseline.java
        entityclustering
        TestCorrelationClustering.java
        TestAllMethodsCcer.java
        TestAllMethods.java
        generalexamples
        DirtyErDatasetStatistics.java
        CleanCleanErDatasetStatistics.java
        version3
        BestConfigurationBlockingBasedWorkflowCcer.java
        DBPediaJoinBasedWorkflow.java
        DefaultConfigurationBlockingBasedWorkflowCcer.java
        BestConfigurationJoinBasedWorkflowDer.java
        DBPediaBlockingBasedWorkflow.java
        DetailedDBPediaPerformance.java
        DefaultConfigurationBlockingBasedWorkflowDer.java
        BestConfigurationBlockingBasedWorkflowDer.java
        ScalabilityBlockingBasedWorkflow.java
        ScalabilityJoinBasedWorkflow.java
        BestConfigurationJoinBasedWorkflowCcer.java
        demoworkflows
        RdfCsvDblpAcm.java
        SerializedDblpAcm.java
        ViewEntityProfiles.java
        CompareXmlRdfProfiles.java
        RdfDblpAcm.java
        groundtruth
        GtRdfCsvReader.java
        GtDblpRdfAcmCsvReader.java
        CsvDblpAcm.java
- pom.xml
- LICENSE
- data
  - cleanCleanErDatasets
    - buyProfiles
    - restaurant1Profiles
    - abtBuyIdDuplicates
    - dblpAcmIdDuplicates
    - restaurantsIdDuplicates
    - DBLP-ACM
      - DBLP-ACM_perfectMapping.csv
      - serializedGroundtruth
      - DBLPrdf-ACM_perfectMapping.csv
      - DBLP-ACMrdf_perfectMapping.csv
    - amazonGpIdDuplicates
    - amazonWalmartIdDuplicates
    - dblpScholarIdDuplicates
  - dirtyErDatasets
    - restaurantIdDuplicates
    - restaurantProfiles
    - abtBuyIdDuplicates
    - censusProfiles
    - dblpAcmIdDuplicates
    - censusIdDuplicates
    - amazonGpIdDuplicates
    - cddbIdDuplicates
    - dblpScholarIdDuplicates
  - README.md
- documentation
  - README.md
- README.md
- .gitignore

/*
* Copyright [2016-2020] [George Papadakis ([email protected])]
*
* Licensed under the Apache License, Version 2.0 (the "License");
* you may not use this file except in compliance with the License.
* You may obtain a copy of the License at
*
*    http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing, software
* distributed under the License is distributed on an "AS IS" BASIS,
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
* See the License for the specific language governing permissions and
* limitations under the License.
 */
package org.scify.jedai.textmodels;

import org.scify.jedai.utilities.enumerations.RepresentationModel;
import org.scify.jedai.utilities.enumerations.SimilarityMetric;
import com.esotericsoftware.minlog.Log;
import gnu.trove.iterator.TObjectIntIterator;
import gnu.trove.map.TObjectIntMap;
import gnu.trove.map.hash.TObjectIntHashMap;
import java.util.HashSet;
import java.util.Set;

/**
 *
 * @author G.A.P. II
 */
public class TokenNGramsWithGlobalWeights extends TokenNGrams {

    protected final static TObjectIntMap<String>[] DOC_FREQ = new TObjectIntMap[2];

    public TokenNGramsWithGlobalWeights(int did, int n, RepresentationModel model, SimilarityMetric simMetric, String iName) {
        super(did, n, model, simMetric, iName);
    }

    @Override
    public void finalizeModel() {
        if (DOC_FREQ[datasetId] == null) {
            DOC_FREQ[datasetId] = new TObjectIntHashMap<>();
        }

        itemsFrequency.keySet().stream().filter((keyValue) -> (!DOC_FREQ[datasetId].increment(keyValue))).forEachOrdered((keyValue) -> {
            DOC_FREQ[datasetId].put(keyValue, 1);
        });
    }

    protected float getARCSSimilarity(TokenNGramsWithGlobalWeights oModel) {
        final Set<String> commonKeys = new HashSet(itemsFrequency.keySet());
        commonKeys.retainAll(oModel.getItemsFrequency().keySet());

        float similarity = 0;
        if (datasetId == DATASET_1 && datasetId == oModel.getDatasetId()) { // Dirty ER
            for (String key : commonKeys) {
                float frequency = DOC_FREQ[DATASET_1].get(key);
                similarity += 1.0f / (Math.log1p(frequency * (frequency - 1) / 2.0) / Math.log(2));
            }
        } else if (datasetId != oModel.getDatasetId()) { // Clean-Clean ER
            for (String key : commonKeys) {
                similarity += 1.0f / (Math.log1p(((float) DOC_FREQ[DATASET_1].get(key)) * DOC_FREQ[DATASET_2].get(key)) / Math.log(2));
            }
        } else {
            Log.error("Both models come from dataset 1!");
            System.exit(-1);
        }

        return similarity;
    }

    protected float getIdfWeight(String keyValue) {
        int frequency = DOC_FREQ[datasetId].get(keyValue);
        if (frequency == 0) {
            return 0;
        }

        if (NO_OF_DOCUMENTS[datasetId] < frequency) {
            Log.error("Error in the computation of IDF weights!!!");
            return 0;
        }
        
        return (float) Math.log10(NO_OF_DOCUMENTS[datasetId] / (1.0f + frequency));
    }

    protected float getSigmaSimilarity(TokenNGramsWithGlobalWeights oModel) {
        float totalTerms2 = oModel.getNoOfTotalTerms();
        final TObjectIntMap<String> itemVector2 = oModel.getItemsFrequency();

        float numerator = 0.0f;
        for (TObjectIntIterator<String> iterator = itemsFrequency.iterator(); iterator.hasNext();) {
            iterator.advance();
            int frequency2 = itemVector2.get(iterator.key());
            if (0 < frequency2) {
                numerator += iterator.value() / noOfTotalTerms * getIdfWeight(iterator.key())
                           + frequency2 / totalTerms2 * oModel.getIdfWeight(iterator.key());
            }
        }

        final Set<String> allKeys = new HashSet<>(itemsFrequency.keySet());
        allKeys.addAll(itemVector2.keySet());
        float denominator = 0.0f;
        denominator = allKeys.stream().map((key) -> itemsFrequency.get(key) / noOfTotalTerms  * getIdfWeight(key) + 
                itemVector2.get(key) / totalTerms2 * oModel.getIdfWeight(key)).reduce(denominator, (accumulator, _item) -> accumulator + _item);

        return (float)(numerator / denominator);
    }

    @Override
    public float getSimilarity(ITextModel oModel) {
        switch (simMetric) {
            case ARCS_SIMILARITY:
                return getARCSSimilarity((TokenNGramsWithGlobalWeights) oModel);
            case COSINE_SIMILARITY:
                return getTfIdfCosineSimilarity((TokenNGramsWithGlobalWeights) oModel);
            case GENERALIZED_JACCARD_SIMILARITY:
                return getTfIdfGeneralizedJaccardSimilarity((TokenNGramsWithGlobalWeights) oModel);
            case SIGMA_SIMILARITY:
                return getSigmaSimilarity((TokenNGramsWithGlobalWeights) oModel);
            default:
                Log.error("The given similarity metric is incompatible with the bag representation model!");
                System.exit(-1);
                return -1;
        }
    }

    protected float getTfIdfCosineSimilarity(TokenNGramsWithGlobalWeights oModel) {
        float totalTerms2 = oModel.getNoOfTotalTerms();
        final TObjectIntMap<String> itemVector2 = oModel.getItemsFrequency();

        float numerator = 0.0f;
        for (TObjectIntIterator<String> iterator = itemsFrequency.iterator(); iterator.hasNext();) {
            iterator.advance();
            int frequency2 = itemVector2.get(iterator.key());
            if (0 < frequency2) {
                numerator += (iterator.value() / noOfTotalTerms) * getIdfWeight(iterator.key())
                           * (frequency2 / totalTerms2) * oModel.getIdfWeight(iterator.key());
            }
        }

        float denominator = getVectorMagnitude() * oModel.getVectorMagnitude();
        return (float)(numerator / denominator);
    }

    protected float getTfIdfGeneralizedJaccardSimilarity(TokenNGramsWithGlobalWeights oModel) {
        float totalTerms2 = oModel.getNoOfTotalTerms();
        final TObjectIntMap<String> itemVector2 = oModel.getItemsFrequency();

        float numerator = 0.0f;
        for (TObjectIntIterator<String> iterator = itemsFrequency.iterator(); iterator.hasNext();) {
            iterator.advance();
            int frequency2 = itemVector2.get(iterator.key());
            if (0 < frequency2) {
                numerator += Math.min(iterator.value() / noOfTotalTerms * getIdfWeight(iterator.key()),
                                      frequency2 / totalTerms2 * oModel.getIdfWeight(iterator.key()));
            }
        }

        final Set<String> allKeys = new HashSet<>(itemsFrequency.keySet());
        allKeys.addAll(itemVector2.keySet());
        float denominator = 0.0f;
        denominator = allKeys.stream().map((key) -> Math.max(itemsFrequency.get(key) / noOfTotalTerms  * getIdfWeight(key),
                itemVector2.get(key) / totalTerms2 * oModel.getIdfWeight(key))).reduce(denominator, (accumulator, _item) -> accumulator + _item);

        return (float)(numerator / denominator);
    }
    
    @Override
    protected float getVectorMagnitude() {
        float magnitude = 0.0f;
        for (TObjectIntIterator<String> iterator = itemsFrequency.iterator(); iterator.hasNext();) {
            iterator.advance();
            magnitude += Math.pow(iterator.value() * getIdfWeight(iterator.key()) / noOfTotalTerms, 2.0);
        }

        return (float) Math.sqrt(magnitude);
    }
    
    public static void resetGlobalValues(int datasetId) {
        NO_OF_DOCUMENTS[datasetId] = 0;
        if (DOC_FREQ[datasetId] != null) {
            DOC_FREQ[datasetId].clear();
        }
    }
}