java source code of BloomFilter

joshua-master
- NOTICE.txt
- src
  - main
    - resources
      - log4j.properties
    - java
      - org
        apache
        joshua
        zmert
        IntermediateOptimizer.java
        package-info.java
        ZMERT.java
        MertCore.java
        mira
        MIRACore.java
        MIRA.java
        Optimizer.java
        subsample
        PhrasePair.java
        Subsampler.java
        AlignedSubsampler.java
        Alignment.java
        SubsamplerCLI.java
        package-info.java
        PhraseReader.java
        BiCorpusFactory.java
        PhraseWriter.java
        BiCorpus.java
        corpus
        SymbolTable.java
        Span.java
        AbstractPhrase.java
        TerminalIterator.java
        Phrase.java
        Corpus.java
        ContiguousPhrase.java
        syntax
        ArraySyntaxTree.java
        SyntaxTree.java
        Vocabulary.java
        BasicPhrase.java
        decoder
        chart_parser
        ComputeNodeResult.java
        CubePruneState.java
        Chart.java
        DotChart.java
        Cell.java
        package-info.java
        StateConstraint.java
        SuperNode.java
        SourcePath.java
        BLEU.java
        JoshuaConfiguration.java
        hypergraph
        OutputStringExtractor.java
        HyperGraph.java
        FeatureVectorExtractor.java
        GrammarBuilderWalkerFunction.java
        StringToTreeConverter.java
        DefaultInsideOutside.java
        ViterbiExtractor.java
        WalkerFunction.java
        AllSpansWalker.java
        TrivialInsideOutside.java
        HyperEdge.java
        ForestWalker.java
        package-info.java
        HGNode.java
        WordAlignmentState.java
        AlignedSourceTokens.java
        WordAlignmentExtractor.java
        KBestExtractor.java
        HyperGraphPruning.java
        TranslationResponseStream.java
        Translation.java
        Support.java
        Decoder.java
        NbestMinRiskReranker.java
        ff
        state_maintenance
        KenLMState.java
        NgramDPState.java
        DPState.java
        RuleLength.java
        LabelCombinationFF.java
        RulePropertiesQuerying.java
        StatefulFF.java
        TargetBigram.java
        FeatureFunction.java
        StatelessFF.java
        OOVPenalty.java
        lm
        ArpaFile.java
        AbstractLM.java
        DefaultNGramLanguageModel.java
        buildin_lm
        TrieLM.java
        package-info.java
        ClassMap.java
        ArpaNgram.java
        package-info.java
        NGramLanguageModel.java
        KenLM.java
        LanguageModelFF.java
        StateMinimizingLanguageModel.java
        bloomfilter_lm
        BloomFilter.java
        package-info.java
        BloomFilterLanguageModel.java
        berkeley_lm
        LICENSE
        README
        SymbolTableWrapper.java
        LMGrammarBerkeley.java
        RuleShape.java
        RuleCountBin.java
        tm
        Trie.java
        hash_based
        MemoryBasedRuleBin.java
        MemoryBasedTrie.java
        ExtensionIterator.java
        package-info.java
        MemoryBasedBatchGrammar.java
        Rule.java
        OwnerId.java
        CreateGlueGrammar.java
        format
        HieroFormatReader.java
        MosesFormatReader.java
        OwnerMap.java
        BasicRuleCollection.java
        package-info.java
        RuleCollection.java
        Grammar.java
        GrammarReader.java
        packed
        SliceAggregatingTrie.java
        PackedGrammar.java
        AbstractGrammar.java
        UnsortedRuleCollectionException.java
        fragmentlm
        ConcatenationIterator.java
        PennTreebankReader.java
        Tree.java
        Trees.java
        FragmentLMFF.java
        WordPenalty.java
        package-info.java
        LabelSubstitutionFF.java
        PhrasePenalty.java
        LexicalFeatures.java
        SourcePathFF.java
        ArityPhrasePenalty.java
        FeatureVector.java
        SourceDependentFF.java
        phrase
        Distortion.java
        PhraseModel.java
        RuleFF.java
        similarity
        EdgePhraseSimilarityFF.java
        package-info.java
        LmPool.java
        JoshuaDecoder.java
        io
        DeNormalize.java
        TranslationRequestStream.java
        JSONMessage.java
        LanguageModelStateManager.java
        DecoderTask.java
        StructuredTranslationFactory.java
        ArgsParser.java
        StructuredTranslation.java
        phrase
        Coverage.java
        Header.java
        PhraseNodes.java
        Note.java
        Hypothesis.java
        Stacks.java
        PhraseTable.java
        Stack.java
        Future.java
        Candidate.java
        PhraseChart.java
        segment_file
        Token.java
        ParseTreeInput.java
        ConstraintSpan.java
        package-info.java
        Sentence.java
        ConstraintRule.java
        ParsedSentence.java
        ui
        StartupWindow.java
        package-info.java
        Orientation.java
        tree_visualizer
        DerivationTreeTransformer.java
        DerivationTreeEdge.java
        Node.java
        DerivationViewer.java
        browser
        TranslationInfo.java
        Browser.java
        DerivationTreeFrame.java
        DerivationViewerApplet.java
        DerivationTree.java
        tree
        Tree.java
        adagrad
        Optimizer.java
        AdaGradCore.java
        AdaGrad.java
        oracle
        OracleExtractionHG.java
        package-info.java
        SplitHg.java
        OracleExtractor.java
        util
        Ngram.java
        FormatUtils.java
        PackedGrammarServer.java
        StreamGobbler.java
        JoshuaEval.java
        Platform.java
        quantization
        QuantizerFactory.java
        QuantizerConfiguration.java
        BooleanQuantizer.java
        package-info.java
        Quantizer.java
        StatelessQuantizer.java
        Constants.java
        Counted.java
        Regex.java
        package-info.java
        Bits.java
        ListUtil.java
        io
        IndexedReader.java
        Reader.java
        LineReader.java
        BinaryOut.java
        ExistingUTF8EncodedTextFile.java
        package-info.java
        BinaryIn.java
        ProgressInputStream.java
        ExtractTopCand.java
        Algorithms.java
        ChartSpan.java
        Pair.java
        Counts.java
        FileUtility.java
        NBestListUtility.java
        encoding
        PrimitiveIntEncoder.java
        EightBitQuantizer.java
        Analyzer.java
        IntEncoder.java
        VariableQuantizer.java
        FeatureTypeAnalyzer.java
        EncoderFactory.java
        EncoderConfiguration.java
        FloatEncoder.java
        PrimitiveFloatEncoder.java
        Cache.java
        pro
        ClassifierMegaM.java
        ClassifierInterface.java
        Optimizer.java
        PRO.java
        ClassifierPerceptron.java
        PROCore.java
        ClassifierSVM.java
        lattice
        Lattice.java
        NodeIdentifierComparator.java
        Arc.java
        Node.java
        package-info.java
        server
        ServerThread.java
        TcpServer.java
        tools
        GrammarPackerCli.java
        TestSetFilter.java
        LabelPhrases.java
        GrammarPacker.java
        metrics
        Precis.java
        BLEU.java
        TERMinusBLEU.java
        CHRF.java
        METEOR.java
        EvaluationMetric.java
        ZeroOneLoss.java
        MinimumChangeBLEU.java
        GradeLevelBLEU.java
        SourceBLEU.java
        NewMetric.java.template
        BLEU_SBP.java
        TER.java
        SARI.java
        PrecisMinusSourceBLEU.java
        TercomRunner.java
    - assembly
      - src.xml
  - test
    - resources
      - grammar.glue
      - prune-equivalent-translations.py
      - wa_grammar
      - wa_grammar.packed
        vocabulary
        config
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        slice_00000.alignments
        encoding
        slice_00000.target
      - decoder
        oov-list
        output.gold
        grammar
        joshua.config
        input.txt
        glue-grammar
        rescoring
        output.gold
        grammar.gz
        joshua.config
        input.txt
        glue-grammar
        constrained
        output.gold
        joshua.config
        input.bn
        .gitignore
        glue-grammar
        num_translation_options
        output.gold
        output-packed.gold
        grammar.packed
        vocabulary
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        encoding
        slice_00000.target
        README
        grammar.gz
        joshua.config
        joshua-packed.config
        output-no-dot-chart.gold
        glue-grammar
        input
        source-annotations
        grammar.glue
        output.gold
        grammar
        joshua.config
        input.txt
        lowercaser
        grammar.glue
        grammar.test
        config
        joshua.config
        target-bigram
        vocab
        tree-output
        output.gold
        grammar.gz
        joshua.config
        glue-grammar
        input
        moses-compat
        n-best.txt
        test.sh
        NEEDS_UPDATING
        output.expected
        n-ary
        output.gold
        weights
        grammar
        joshua.config
        input.txt
        glue-grammar
        left-state
        output.gold
        joshua.config
        input.bn
        glue-grammar
        phrase
        unique-hypotheses
        joshua.config
        lm.1.gz
        dont-crash
        input
      - lattice-short
        test.sh
        README
        grammar.test
        test.lm
        joshua.config
        glue-grammar
        input
        output.expected
      - joshua
        README.broken
      - phrase_decoder
        config.packed
        output.gold
        constrained.config
        constrained.output.gold
        config
        lm.1.gz
        rules.packed
        vocabulary
        config
        slice_00000.target.lookup
        encoding
      - lm
        class_lm
        class.map
        berkeley
        lm.gz
        lm.berkeleylm.gz
        lm.berkeleylm
        lm
      - grammar
        sparse-features
        grammar.glue
        grammar.packed
        vocabulary
        slice_00000.source
        slice_00000.target.lookup
        slice_00000.features
        encoding
        slice_00000.target
        grammar
        joshua.config
        joshua-packed.config
      - thrax
        extraction
        test.sh
        input
        train.en
        train.ps
        thrax.conf
        train.a
        filtering
        grammar.de
        loose.log.gold
        fast.log.gold
        input.de
        test-fast.sh
        dev.hi-en.hi.1
        test-exact.sh
        exact.log.gold
        fast.gold
        grammar.filtered.gz
        exact.gold
        test-loose.sh
        .gitignore
      - packed-grammar
        reference.en.3
        test-multiple.sh
        output.gold
        test.sh
        README
        reference.en.1
        joshua.config
        input.bn
        reference.en.2
        reference.en.0
        .gitignore
      - lm_oov
        joshua.config
      - lattice
        test.sh
        README
        grammar.test
        test.lm
        joshua.config
        test.plf
        .gitignore
        glue-grammar
        output.expected
      - data
        tiny.en
      - testng.xml
      - scripts
        support
        moses_grammar
        test.sh
        input
        output.expected
        run_bundler_test.py
        .gitignore
        merge_lms_test.py
        normalization
        test.sh
        data
        train.en
        train.en.norm
        .gitignore
      - server
        tcp-text
        test.sh
        expected
        http
        test.sh
        expected
      - pipeline
        Makefile
        test.sh
        test-ghkm.sh
        .gitignore
        input
        devtest.en.3
        train.en
        train.ur
        devtest.ur
        devtest.en.1
        tune.ur
        devtest.en.2
        tune.en.3
        tune.en.0
        tune.en.1
        devtest.en.0
        tune.en.2
        final-bleu.gold
      - bn-en
        hiero
        output.gold
        joshua.config
        joshua-classlm.config
        input.bn
        class.map
        output-berkeleylm.gold
        output-classlm.gold
        .gitignore
        glue-grammar
        joshua-berkeleylm.config
        samt
        output.gold
        joshua.config
        input.bn
        packed
        output.gold
        grammar.packed
        vocabulary
        slice_00000.target.lookup
        encoding
        slice_00000.target
        joshua.config
        input.bn
        .gitignore
      - run-all-tests.sh
      - kenlm
        oilers.kenlm
      - kbest_extraction
        grammar
        joshua.config
        output.scores.gold
        glue-grammar
      - parser
        grammar.glue
        output.gold
        parse.config
        weights
        test.sh
        grammar
        input
      - berkeley_lm
        lm
    - java
      - org
        apache
        joshua
        zmert
        BLEUTest.java
        corpus
        VocabularyTest.java
        SpanTest.java
        decoder
        ff
        lm
        class_lm
        ClassBasedLanguageModelTest.java
        ClassMapTest.java
        LanguageModelFFTest.java
        ArpaFileTest.java
        berkeley_lm
        LMBerkeleySentenceProbablityTest.java
        LMGrammarBerkeleyTest.java
        tm
        OwnerMapTest.java
        io
        TranslationRequestStreamTest.java
        DeNormalizeTest.java
        phrase
        constrained
        ConstrainedPhraseDecodingTest.java
        CoverageTest.java
        decode
        PhraseDecodingTest.java
        kbest_extraction
        KBestExtractionTest.java
        TestTranslation.java
        segment_file
        AlmostTooLongSentenceTest.java
        SentenceTest.java
        cky
        DoNotCrashTest.java
        LeftStateTest.java
        RescoringTest.java
        UniqueHypothesesTest.java
        OOVListTest.java
        NAryTest.java
        TestUtil.java
        TargetBigram.java
        LowercaseTest.java
        BnEnDecodingTest.java
        TreeOutputTest.java
        ConstrainedTest.java
        SourceAnnotationsTest.java
        SparseFeatureTest.java
        TooLongTest.java
        NoGrammarTest.java
        DenormalizationTest.java
        NumTranslationOptionsTest.java
        ui
        tree_visualizer
        tree
        TreeTest.java
        util
        BitsTest.java
        FormatUtilsTest.java
        io
        KenLmTestUtil.java
        BinaryTest.java
        CacheTest.java
        CountsTest.java
        lattice
        NodeTest.java
        ArcTest.java
        LatticeTest.java
        system
        MultithreadedTranslationTests.java
        KenLmTest.java
        StructuredTranslationTest.java
        AlignmentMapTest.java
        LmOovFeatureTest.java
        StructuredOutputTest.java
        packed
        README
        PrintRules.java
        Benchmark.java
        packer.config
        CountRules.java
  - overview.html
- demo
  - bootstrap
    - fonts
      - glyphicons-halflings-regular.woff
      - glyphicons-halflings-regular.eot
      - glyphicons-halflings-regular.woff2
      - glyphicons-halflings-regular.ttf
      - glyphicons-halflings-regular.svg
    - js
      - bootstrap.min.js
      - bootstrap.js
      - npm.js
      - jquery-2.2.0.min.js
    - css
      - bootstrap.min.css.map
      - bootstrap-theme.css.map
      - bootstrap.min.css
      - bootstrap.css
      - bootstrap-theme.min.css
      - bootstrap-theme.css
      - bootstrap-theme.min.css.map
  - demo.config
  - demo.js
  - README.md
  - scripts
    - joshua.sh
    - web_server.py
  - index.html
- examples
  - training
    - hiero-europarl.sh
    - README
    - hiero.sh
    - ghkm.sh
    - samt.sh
    - phrase.sh
  - old
    - PRO
      - sparse_feat
      - libsvm_command
      - run.sh
      - joshua.config
      - params.txt
      - pro.config
      - megam_command
    - ZMERT
      - ref.3
      - README_ZMERT.txt
      - ref.2
      - src.txt
      - decoder_command_ex2
      - ref.0
      - ZMERT_config_ex2.txt
      - ref.1
      - params.txt
      - ZMERT.out.verbosity1
      - config_ex2.txt
  - README.md
  - tree_visualizer
    - tree_visualizer.cmd
    - tree.en.2
    - tree.fr
    - README
    - tree.en
    - tree.ref
  - download.sh
- pom.xml
- .gitmodules
- CHANGES.md
- jni
  - build_kenlm.sh
  - kenlm_wrap.cc
- eclipse-codeformat.xml
- distribution
  - docker
    - dev
      - Dockerfile
    - README.md
    - kenlm
      - README.md
      - Dockerfile
  - joshua-runtime
    - reactive
      - joshua_runtime.py
    - icon.svg
    - actions
      - add-language-pack
      - remove-language-pack
    - config.yaml
    - actions.yaml
    - metadata.yaml
    - README.md
    - tests
      - 00-setup
      - 10-deploy
    - copyright
    - layer.yaml
  - joshua-full
    - reactive
      - joshua_runtime.py
    - icon.svg
    - actions
      - add-language-pack
      - remove-language-pack
    - config.yaml
    - actions.yaml
    - metadata.yaml
    - README.md
    - tests
      - 00-setup
      - 10-deploy
    - copyright
    - layer.yaml
- .travis.yml
- README.md
- scripts
  - distributedLM
    - get_grammar_eng_voc.pl
    - create_remote_sym_tbl.pl
    - get_grammar_eng_voc_from_cn_voc.pl
    - lm.list.withweights
    - filter_lm.pl
    - job_start_lmserver.sh
    - config.template
    - global_symol_list
  - training
    - scat
    - TODO
    - parmbr.sh
    - cachepipe
      - CachePipe.pm
      - bashrc
      - README
    - filter-rules.pl
    - parallelize
      - parallelize.pl
      - Makefile
      - LocalConfig.pm
      - sentclient.c
      - sentserver.c
      - sentserver.h
    - lowercase-leaves.pl
    - mira
      - run-mira.pl
      - feature_label_munger.pl
    - unmap-html.pl
    - get_grammar_features.pl
    - filter-empty-lines.pl
    - class-lm
      - replaceTokensWithClasses.py
    - templates
      - thrax-phrase.conf
      - thrax-hiero.conf
      - thrax-samt.conf
      - hadoop
        hdfs-site.xml
        slaves
        masters
        mapred-site.xml
        core-site.xml
      - thrax-phrasal.conf
      - tune
        joshua.config
        decoder_command.qsub
        decoder_command
      - alignment
        jacana
        resources
        freedict
        en-fr.fr-en.dict.gz
        fr-en.dict.gz
        en-fr.dict.gz
        wiktionary
        model
        fr-en.model
        EnglishSD.bin.gz
        word-align.conf
      - glue-grammar.itg
      - thrax-phrase-gt.conf
      - glue-grammar
    - run_tuner.py
    - paste
    - pipeline.pl
    - summarize.pl
    - paralign.pl
    - add-OOVs.pl
    - run-giza.pl
    - trim_parallel_corpus.pl
    - build-vocab.pl
  - ems
    - config.hiero
    - config.phrase
    - experiment.meta
    - config.ghkm
  - support
    - make-release.sh
    - create_glue_grammar.sh
    - split2files
    - phrase2hiero.py
    - merge_lms.py
    - filter_grammar.sh
    - moses2joshua.pl
    - bbn2plf.pl
    - grammar-packer.pl
    - write-version.sh
    - extract-1best
    - moses2joshua_grammar.pl
    - prepare.sh
    - query_http.py
    - .gitignore
    - run_bundler.py
    - score-hypothesis.pl
  - misc
    - canonical_path
    - iso639
  - lm
    - compile_berkeley.py
  - thrax
    - run_thrax.py
    - strip_label.py
  - toolkit
    - chunki.py
    - shorti.py
    - extract_references.py
    - joini.py
  - copy-config.pl
  - language-pack
    - README.template
    - copy_model.py
    - test_lp.sh
    - prepare.sh
    - VERSIONS
    - build_lp.sh
  - analysis
    - sentence-by-sentence.pl
    - tree_visualizer
  - filter_grammar_to_sentences.sh
  - features
    - addSparseFeatures.py
  - samt
    - postprocessSAMT.sh
    - pipeline.sh
    - selectFeatures.py
    - filterGrammar.py
    - lexprob2samt.py
  - preparation
    - tokenize.pl
    - detokenize.pl
    - nonbreaking_prefixes
      - nonbreaking_prefix.ca
      - nonbreaking_prefix.ru
      - nonbreaking_prefix.ro
      - nonbreaking_prefix.sv
      - nonbreaking_prefix.hu
      - nonbreaking_prefix.sk
      - nonbreaking_prefix.it
      - nonbreaking_prefix.es
      - nonbreaking_prefix.nl
      - nonbreaking_prefix.cs
      - nonbreaking_prefix.pt
      - nonbreaking_prefix.sl
      - nonbreaking_prefix.fr
      - nonbreaking_prefix.lv
      - nonbreaking_prefix.en
      - nonbreaking_prefix.de
      - nonbreaking_prefix.pl
      - nonbreaking_prefix.el
      - nonbreaking_prefix.is
    - preprocess.sh
    - normalize.pl
    - lowercase.pl
- download-deps.sh
- KEYS
- bin
  - meteor
  - joshua
  - bleu
  - extract-1best
  - debug-joshua
  - pipeline.pl
  - joshua-decoder
- doap_joshua.rdf
- .gitignore
- LICENSE.txt
- doc
  - zmert_release
  - release.md
  - Doxyfile
  - sparse_features.md
  - mainpage.md
  - Eclipse.howto
  - documentation.md
  - troubleshooting.md

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *  http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package org.apache.joshua.decoder.ff.lm.bloomfilter_lm;

import java.io.Externalizable;
import java.io.IOException;
import java.io.ObjectInput;
import java.io.ObjectOutput;
import java.math.BigInteger;
import java.util.BitSet;
import java.util.Random;

/**
 * A Bloom filter: a lossy data structure for set representation. A Bloom filter consists of a bit
 * set and a set of hash functions. A Bloom filter has two operations: add and query. We can add an
 * object to a Bloom filter to indicate that it should be considered part of the set that the Bloom
 * filter represents. We can query the Bloom filter to see if a given object is considered part of
 * its set.
 * <p>
 * An object is added by sending it through a number of hash functions, each of which returns an
 * index into the bit set. The bit at each of the indices is flipped on. We can query for an abject
 * by sending it through the same hash functions. Then we look the bit at each index that was
 * returned by a hash function. If any of the bits is unset, we know that the object is not in the
 * Bloom filter (for otherwise all the bits should have already been set). If all the bits are set,
 * we assume that the object is present in the Bloom filter.
 * <p>
 * We cannot know for sure that an object is in the bloom filter just because all its bits were set.
 * There may be many collisions in the hash space, and all the bits for some object might be set by
 * chance, rather than by adding that particular object.
 * <p>
 * The advantage of a Bloom filter is that its set representation can be stored in a significantly
 * smaller space than information-theoretic lossless lower bounds. The price we pay for this is a
 * certain amount of error in the query function. One nice feature of the Bloom filter is that its
 * error is one-sided. This means that while the query function may return false positives (saying
 * an object is present when it really isn't), it can never return false negatives (saying that an
 * object is not present when it was already added.
 */
public class BloomFilter implements Externalizable {
  /**
   * The main bit set of the Bloom filter.
   */
  private BitSet bitSet;

  /**
   * The number of objects expected to be stored in the Bloom filter. The optimal number of hash
   * functions depends on this number.
   */
  int expectedNumberOfObjects;

  /**
   * A prime number that should be bigger than the size of the bit set.
   */
  long bigPrime;

  /**
   * The size of the bit set, in bits.
   */
  int filterSize;

  /**
   * A random number generator for building hash functions.
   */
  final transient private Random RANDOM = new Random();

  /**
   * Builds an empty Bloom filter, ready to build hash functions and store objects.
   * 
   * @param filterSize the size of Bloom filter to make, in bits
   * @param expectedNumberOfObjects the number of objects expected to be stored in the Bloom filter
   */
  public BloomFilter(int filterSize, int expectedNumberOfObjects) {
    bitSet = new BitSet(filterSize);
    this.filterSize = filterSize;
    this.expectedNumberOfObjects = expectedNumberOfObjects;
    bigPrime = getPrimeLargerThan(filterSize);
  }

  /**
   * Adds an item (represented by an integer) to the bloom filter.
   * 
   * @param objectToAdd the object to add
   * @param hashFunctions an array of pairs of long, representing the hash functions to be used on
   *        the object
   */
  public void add(int objectToAdd, long[][] hashFunctions) {
    for (long[] h : hashFunctions) {
      int i = hash(h, (long) objectToAdd);
      bitSet.set(i);
    }
  }

  public void add(long objectToAdd, long[][] hashFunctions) {
    for (long[] h : hashFunctions) {
      int i = hash(h, objectToAdd);
      bitSet.set(i);
    }
  }

  /**
   * Determines whether an item (represented by an integer) is present in the bloom filter.
   * 
   * @param objectToQuery the object we want to query for membership
   * @param hashFunctions an array of pairs of long, representing the hash functions to be used
   * 
   * @return true if the objects is assumed to be present in the Bloom filter, false if it is
   *         definitely not present
   */
  public boolean query(int objectToQuery, long[][] hashFunctions) {
    for (long[] h : hashFunctions) {
      int i = hash(h, (long) objectToQuery);
      if (!bitSet.get(i)) return false;
    }
    return true;
  }

  public boolean query(long objectToQuery, long[][] hashFunctions) {
    for (long[] h : hashFunctions) {
      int i = hash(h, objectToQuery);
      if (!bitSet.get(i)) return false;
    }
    return true;
  }

  /**
   * Builds an array of pairs of long that can be used as hash functions for this Bloom filter.
   * 
   * @return an array of pairs of long suitable for use as hash functions
   */
  public long[][] initializeHashFunctions() {
    int numberOfHashFunctions;
    int bigPrimeInt = (int) bigPrime;
    numberOfHashFunctions =
        (int) Math.floor(Math.log(2) * bitSet.length() / expectedNumberOfObjects);
    if (numberOfHashFunctions == 0) numberOfHashFunctions = 1;
    long[][] hashFunctions = new long[numberOfHashFunctions][2];
    for (long[] h : hashFunctions) {
      h[0] = (long) RANDOM.nextInt(bigPrimeInt) + 1;
      h[1] = (long) RANDOM.nextInt(bigPrimeInt) + 1;
    }
    return hashFunctions;
  }

  /**
   * Determines which bit of the bit set should be either set, for add operations, or checked, for
   * query operations.
   * 
   * @param h a length-2 array of long used as a hash function
   * @param objectToHash the object of interest
   * 
   * @return an index into the bit set of the Bloom filter
   */
  private int hash(long[] h, long objectToHash) {
    long obj = (objectToHash < Integer.MAX_VALUE) ? objectToHash : objectToHash - bigPrime;
    long h0 = h[0];
    long h1 = (h[1] < (Long.MAX_VALUE / 2)) ? h[1] : h[1] - bigPrime;
    long ret = (obj * h0) % bigPrime;
    ret = (ret < (Long.MAX_VALUE / 2)) ? ret : ret - bigPrime;
    return (int) (((ret + h1) % bigPrime) % (long) filterSize);
  }

  /**
   * Finds a prime number that is larger than the given number. This is used to find bigPrime, a
   * prime that has to be larger than the size of the Bloom filter.
   * 
   * @param n an integer
   * 
   * @return a prime number larger than n
   */
  private long getPrimeLargerThan(int n) {
    BigInteger ret;
    BigInteger maxLong = BigInteger.valueOf(Long.MAX_VALUE);
    int numBits = BigInteger.valueOf(n).bitLength() + 1;
    do {
      ret = BigInteger.probablePrime(numBits, RANDOM);
    } while (ret.compareTo(maxLong) > 1);
    return ret.longValue();
  }

  /*
   * functions for interface externalizable
   */

  public void readExternal(ObjectInput in) throws IOException, ClassNotFoundException {
    expectedNumberOfObjects = in.readInt();
    filterSize = in.readInt();
    bigPrime = in.readLong();
    bitSet = (BitSet) in.readObject();
  }

  public void writeExternal(ObjectOutput out) throws IOException {
    out.writeInt(expectedNumberOfObjects);
    out.writeInt(filterSize);
    out.writeLong(bigPrime);
    out.writeObject(bitSet);
  }

  // only used for reconstruction via Externalizable
  public BloomFilter() {}
}