java source code of EntitySalienceSpark

Project: ambiverse-nlu (GitHub Link)

ambiverse-nlu-master
- src
  - main
    - resources
      - jetty.xml
      - uima
        type
        WikipediaCategoryTypeSystemDescriptor.xml
        openFactTypeSystemDescriptor.xml
        aidaTypeSystemDescriptor.xml
        ConceptMentionTypeSystemDescriptor.xml
        namedEntityCandidateTypeSystemDescriptor.xml
        NYTArticleMetaData.xml
        domainTypeSystemDescriptor.xml
        synsetTypeSystemDescriptor.xml
        conceptEntitySystemDescriptor.xml
        nerTypeSystemDescriptor.xml
        ConceptMentionCandidateTypeSystemDescriptor.xml
        AidaSettingsTypeSystemDescriptor.xml
        UnknownTypeSystemDescriptor.xml
        domainWordTypeSystemDescriptor.xml
      - log4j.properties
      - tokens
        stopwords-czech.txt
        stopwords-german.txt
        stopwords-italian.txt
        pos
        propernoun
        de.txt
        en.txt
        symbols.txt
        stopwords-chinese.txt
        stopwords-russian.txt
        stopwords-multi.txt
        stopwords6.txt
        stopwords-spanish.txt
        stopwords-french.txt
        stopwords-arabic.txt
      - entitysalience
        models
        model_RANDOM_FOREST
      - ner
        wikicorpusgenerator
        languages.txt
        titles.txt
        languagesList.txt
        bin
        conlleval
        dictionary_generator
        dictionary_parameters.csv
        yago_types
        object_names.csv
        people.csv
        movies.csv
        states_man.csv
        organizations.csv
        location.csv
        art.csv
        battles.csv
        known_country.csv
        songs.csv
        known_corporations.csv
        new
        A.properties
        NED.properties
        KB.properties
        Name.properties
      - wordnet_domains
        wn-domains-3.2
      - META-INF
        org.apache.uima.fit
        types.txt
      - clausieResources
        dict-not-ext-copular.txt
        dict-adverbs-include.txt
        dict-complex-transitive.txt
        clausie.conf
        dict-adverbs-ignore.txt
        dict-adverbs-conj.txt
        dict-copular.txt
        wsdextraction.conf
        dict-ext-copular.txt
      - debug
        views
        document.html.template
        main.html.template
        partials
        table.html.partial
        index.html.template
      - similarity
        conll
        SwitchedUnit_NE.properties
        SwitchedUnit_cohrob_NE.properties
        SwitchedUnit_C.properties
        SwitchedUnit_cohrob_C.properties
        generic
        unit_NE.properties
    - config
      - default_ner_trainer_integration_test
        ner.properties
        aida.properties
      - aida_20180120_b3_de_en_v18_db
        database_aida.properties
        ner.properties
        aida.properties
      - default
        preparation.properties
        database_aida.properties
        ner.properties
        salience.properties
        aida.properties
        cassandra.properties
      - preparation_test
        preparation.properties
        database_aida.properties
        aida.properties
      - unit_test_multi
        database_aida.properties
        ner.properties
        aida.properties
      - aida_conf.properties
      - default_ner_prepare_for_new_language_test_de
        preparation.properties
        ner.properties
        aida.properties
      - aida_20180120_cs_de_en_es_ru_zh_v18_cass_2
        ner.properties
        aida.properties
        cassandra.properties
      - docker_pg_local
        database_aida.properties
        aida.properties
      - aida_20180120_b3_de_en_v18_cass
        ner.properties
        aida.properties
        cassandra.properties
      - integration_test_cass
        aida.properties
        cassandra.properties
      - aida_20180120_cs_de_en_es_ru_zh_v18_db
        database_aida.properties
        ner.properties
        aida.properties
      - aida_20180120_cs_de_en_es_ru_zh_v18_cass
        ner.properties
        aida.properties
        cassandra.properties
      - unit_test
        database_aida.properties
        ner.properties
        aida.properties
      - integration_test
        database_aida.properties
        aida.properties
        cassandra.properties
    - java
      - de
        mpg
        mpi_inf
        ambiversenlu
        nlu
        language
        LanguageDetector.java
        OptimaizeLanguageDetector.java
        Language.java
        OptimaizeLanguageDetectorAnalysisEngine.java
        AidaUnsupportedLanguageException.java
        openie
        clausie
        Constituent.java
        ClausIE.java
        PropositionGenerator.java
        DefaultPropositionGenerator.java
        ProcessConjunctions.java
        TextConstituent.java
        XcompConstituent.java
        Dictionary.java
        StructuredConstituent.java
        IndexedConstituent.java
        Proposition.java
        Options.java
        JavaUtils.java
        ReverbPropositionGeneration.java
        Clause.java
        ClauseDetector.java
        PrepositionalPhraseIndexedConstituent.java
        DpUtils.java
        OpenIEFactRankingByGlobalEntityPrior.java
        OpenIEFactExtraction.java
        model
        Constituent.java
        Subject.java
        Relation.java
        Object.java
        OpenFact.java
        trie
        Utils.java
        Spot.java
        TrieBuilder.java
        FSTCursor.java
        TextSpotter.java
        entitysalience
        uima
        SparkSerializableAnalysisEngine.java
        SparkUimaUtils.java
        SCAS.java
        hadoop
        HdfsResourceLoader.java
        HdfsResource.java
        HdfsResourceLoaderLocator.java
        EntitySalienceProcessorAnalysisEngineSpark.java
        io
        NYTCollectionToHadoopSequenceFileConvertor.java
        ParameterizedExecutable.java
        spark
        runners
        EntitySalienceTestingSparkRunner.java
        EntitySalienceTrainingSparkRunner.java
        AnnotateDocumentsWithEntitiesSparkRunner.java
        EntitySalienceFeatureExtractorSpark.java
        TrainingSparkRunner.java
        EntitySalienceAnnotatorAndFeatureExtractorSpark.java
        eval
        MulticlassClassificationEvaluatorByClass.java
        SparkClassificationModel.java
        datapreparation
        Data2CoNLL.java
        FeatureExtractorSpark.java
        settings
        TrainingSettings.java
        EntitySalienceFactory.java
        featureextraction
        FeatureExtractionFactory.java
        extractor
        FeatureExtractor_ImplBase.java
        NYTEntitySalienceFeatureExtractor.java
        FeatureExtractor.java
        FeatureExtractionException.java
        util
        EntityInstance.java
        JavaTransformer.java
        UnaryTransformer.java
        UID.java
        FeatureValueInstanceUtils.java
        TrainingInstance.java
        Cond.java
        FeatureValueInstance.java
        Entity.java
        DocumentAnnotation.java
        feature
        EntityCountFeature.java
        StaticFeature.java
        EntityBasedFeature.java
        EntityHeadingFeature.java
        EntityFirstOccurrenceRelativeFeature.java
        CategoricalFeature.java
        Features.java
        EntityFirstSentenceFeature.java
        EntityConfidenceFeature.java
        Feature.java
        EntityFirstOccurrenceAbsoluteFeature.java
        featureset
        FeatureSetFactory.java
        FeatureSet.java
        EntitySalienceFeatureSet.java
        drivers
        sample
        Disambiguation.java
        OpenIE.java
        ner
        configuration
        KnowNERLanguageConfiguratorException.java
        resourcechecker
        KnowNERMentionTokenCountsChecker.java
        KnowNERYagoDictionaryCheckerIntegrationTest.java
        KnowNERCorpusCheckerIntegrationTest.java
        KnowNERGazeteersChecker.java
        KnowNERPOSDictionaryCheckerIntegrationTest.java
        KnowNERYagoDictionaryChecker.java
        KnowNERCorpusChecker.java
        KnowNERTokenClassProbBmeowCheckerIntegrationTest.java
        KnowNERLocalResourceChecker.java
        KnowNERResourceResult.java
        KnowNERWikipediaProbabilitiesChecker.java
        KnowNERGazeteersCheckerIntegrationTest.java
        KnowNERResourceChecker.java
        KnowNERTokenClassProbBmeowChecker.java
        KnowNERPOSDictionaryChecker.java
        KnowNERLanguageConfiguratorBuilder.java
        KnowNERLanguageConfigurator.java
        KnowNERLanguageConfiguratorTest.java
        CorpusConfiguration.java
        consts
        Constants.java
        TypeIds.java
        NerTrainingConfig.java
        training
        CommandLineUtils.java
        KnowNERTrainingUtils.java
        NerTrainer.java
        wikigeneration
        sourceprovider
        EntityRankSource.java
        SourceProvider.java
        Source.java
        ManualSource.java
        ConllEntitiesSource.java
        BufferedSource.java
        WikiCorpusGeneratorIntegrationTest.java
        WikiCorpusTask.java
        WikiCorpusGenerator.java
        WikiCorpusGeneratorCommandLineUtils.java
        uima
        type
        WordNetDictionaryMatch.java
        UiucKnownTitle_Type.java
        UiucWikiOrganizations_Type.java
        UiucCardinalNumber_Type.java
        UiucWikiArtWorkRedirects.java
        UiucKnownTitle.java
        UiucWikiCompetitionsBattlesEvents.java
        UiucWikiPeopleRedirects_Type.java
        WordNetDictionaryMatch_Type.java
        UiucKnownNamesBig.java
        UiucKnownPlace_Type.java
        UiucWikiCompetitionsBattlesEventsRedirects_Type.java
        UiucKnownNationalities.java
        UiucWikiSongsRedirects.java
        CountryDictionaryMatch.java
        UiucWikiArtWorkRedirects_Type.java
        BmeowType_Type.java
        UiucWikiSongs_Type.java
        UiucKnownNationalities_Type.java
        UiucWikiFilms.java
        UiucKnownNamesBig_Type.java
        UiucKnownJobs.java
        UiucKnownCorporations_Type.java
        UiucWikiCompetitionsBattlesEvents_Type.java
        PositionInEntity.java
        UiucVincentNgPeopleTitles_Type.java
        UiucOrdinalNumber.java
        UiucWikiLocationsRedirects_Type.java
        PosDictionaryMatch.java
        UiucMeasurements.java
        UiucKnownCountry.java
        UiucWikiFilms_Type.java
        UiucWikiManMadeObjectNamesRedirect.java
        UiucWikiFilmsRedirects_Type.java
        UiucKnownCountry_Type.java
        UiucTemporalWords_Type.java
        UiucOccupations_Type.java
        UiucWikiOrganizationsRedirects_Type.java
        UiucWikiManMadeObjectNames.java
        PosDictionaryMatch_Type.java
        CountryDictionaryMatch_Type.java
        UiucWikiSongs.java
        UiucWikiOrganizations.java
        UiucKnownCorporations.java
        UiucKnownState_Type.java
        WordShape.java
        UiucVincentNgPeopleTitles.java
        UiucOccupations.java
        UiucCurrencyFinal_Type.java
        UiucWikiArtWork_Type.java
        UiucCardinalNumber.java
        UiucWikiPeople_Type.java
        UiucKnownName.java
        UiucWikiPeopleRedirects.java
        UiucWikiPeople.java
        UiucKnownJobs_Type.java
        BmeowType.java
        UiucKnownState.java
        WordShape_Type.java
        UiucWikiCompetitionsBattlesEventsRedirects.java
        PositionInEntity_Type.java
        UiucWikiSongsRedirects_Type.java
        UiucWikiOrganizationsRedirects.java
        DictionaryFeatureAnnotation_Type.java
        UiucCurrencyFinal.java
        UiucWikiArtWork.java
        UiucWikiManMadeObjectNames_Type.java
        UiucWikiManMadeObjectNamesRedirect_Type.java
        YagoDictionaryMatch_Type.java
        UiucWikiLocations_Type.java
        AidaMention_Type.java
        NerMention.java
        YagoDictionaryMatch.java
        UiucKnownName_Type.java
        UiucKnownPlace.java
        UiucTemporalWords.java
        UiucMeasurements_Type.java
        UiucWikiLocationsRedirects.java
        UiucWikiLocations.java
        NerMention_Type.java
        UiucWikiFilmsRedirects.java
        AidaMention.java
        UiucOrdinalNumber_Type.java
        DictionaryFeatureAnnotation.java
        featureextractors
        WordShapeExtractor.java
        CoveredFeatureExtractor.java
        PresenceInRightWindow.java
        dictionary
        CountryLowercaseMatch.java
        DictionariesExtractor.java
        PosSequenceMatch.java
        Suffixes.java
        SynchronizedTcuLookUpTable.java
        WikipediaLinkProbability.java
        MentionTokenWeights.java
        BeginOfSentence.java
        PresenceInLeftWindow.java
        BmeowTag.java
        Prefixes.java
        ClassTypeProbabilityBmeow.java
        writers
        NerOutputWriter.java
        MentionSpansEvaluationWriter.java
        PredictionsWriter.java
        annotators
        DictionaryFeaturesAnnotator.java
        ManualAnnotationsAnnotator.java
        DictionaryFeaturesAnnotatorTest.java
        DictionaryMatchAnnotator.java
        NerMentionAnnotator.java
        KnowNERNamedEntityPostClassificationBMEOWAnnotator.java
        BmeowTypeAnnotator.java
        DictionaryAnnotator.java
        LanguageAnnotator.java
        LocalFeaturesTcAnnotator.java
        SingleLabelAnnotator.java
        RemoveNamedEntityAnnotator.java
        readers
        Conll2003ReaderTc.java
        Conll2003ReaderTcBmeow.java
        util
        KnowNERSettings.java
        KnowNERLanguage.java
        Util.java
        CassandraUtil.java
        NamedEntities.java
        TokenCountsUtil.java
        yago
        YagoLabelsToClassProbabilities.java
        YagoLabelsToClassProbabilitiesBmeow.java
        YagoLabelsToYagoDictionary.java
        KnowNERIntegrationTest.java
        Name.java
        evaluation
        KnowNEREvaluation.java
        KnowNEREvaluationCommandLineUtils.java
        ConllEvaluation.java
        RawWikiCorpusExtractor.java
        NER.java
        ManualAnnotationsXmlToTsvConverter.java
        datastructure
        MentionTokenWeightsFactory.java
        NerType.java
        MentionTokenFrequencyCounts.java
        BmeowTypeDictionary.java
        ClassProbabilityDistributionBmeow.java
        DictionaryTrie.java
        WikipediaLinkProbabilities.java
        BmeowTag.java
        TokenCount.java
        BmeowTypePair.java
        ClassProbabilityDistribution.java
        MentionTokenCounts.java
        ManualEvaluation.java
        NERManager.java
        dictionarygeneration
        YagoTypesExtractor.java
        MapDictionaryGeneratorIntegrationTest.java
        MapDictionaryGenerator.java
        FixedDictionaryGenerator.java
        KnowNER.java
        entitylinking
        graph
        extraction
        ExtractGraphAllEdges.java
        ExtractGraph.java
        DegreeComparator.java
        algorithms
        DisambiguationAlgorithm.java
        GreedyHillClimbing.java
        CocktailPartySizeConstrained.java
        ShortestPath.java
        Node.java
        SimpleGreedy.java
        CocktailParty.java
        GraphConfidenceEstimator.java
        GraphNodeTypes.java
        GraphNode.java
        Graph.java
        GraphGenerator.java
        similarity
        MaterializedPriorProbability.java
        measure
        InlinkOverlapEntityEntitySimilarity.java
        EntityEntitySimilarityMeasure.java
        NormalizedBigramLanguageModelMentionEntitySimilarityMeasure.java
        NullMentionEntittySimilarityMeasure.java
        UnnormalizedBigramLanguageModelMentionEntitySimilarityMeasure.java
        KeywordLanguageModelMentionEntitySimilarityMeasure.java
        UnnormalizedKeywordLanguageModelMentionEntitySimilarityMeasure.java
        NullEntityEntitySimilarityMeasure.java
        BigramLanguageModelMentionEntitySimilarityMeasure.java
        MilneWittenEntityEntitySimilarity.java
        util
        WeightComputation.java
        KLDivergenceCalculator.java
        VectorHelpers.java
        LanguageModelMentionEntitySimilarityMeasure.java
        MentionEntitySimilarityMeasure.java
        NormalizedKeywordLanguageModelMentionEntitySimilarityMeasure.java
        AlwaysOneSimilarityMeasure.java
        SimilarityMeasure.java
        UnitType.java
        PriorProbability.java
        MentionEntitySimilarity.java
        context
        LanguageModelContext.java
        EntitiesContext.java
        EntitiesContextSettings.java
        EmptyEntitiesContext.java
        util
        UnitBuilder.java
        ParallelEntityEntityRelatednessComputationThread.java
        ParallelEntityEntityRelatednessComputation.java
        SimilaritySettings.java
        exception
        MissingSettingException.java
        MentionEntitySimilarityPackage.java
        EnsembleEntityEntitySimilarity.java
        EntityEntitySimilarity.java
        EntityEntitySimilarityCombinationsIds.java
        importance
        AidaEntityImportance.java
        InlinkCountImportance.java
        EntityImportance.java
        EnsembleMentionEntitySimilarity.java
        DisambiguationEntityType.java
        Disambiguator.java
        uima
        extensions
        SimplePipelineCasPoolIterator.java
        JCasPoolIterable.java
        PipelinesHolder.java
        dkprohelper
        DKPro2CoreNlp.java
        DependencyFlavor.java
        components
        Reader.java
        Component.java
        type
        AidaEntity.java
        AidaDocumentSettings_Type.java
        WikiType_Type.java
        OpenFact_Type.java
        Constituent.java
        Domain.java
        Synset.java
        Unknown_Type.java
        AidaDocumentSettings.java
        ObjectF.java
        ConstituentEntity_Type.java
        SalientEntity.java
        ConceptMention.java
        Subject.java
        AidaEntity_Type.java
        Concept.java
        NamedEntityCandidate_Type.java
        DomainWord_Type.java
        Domain_Type.java
        SalientEntity_Type.java
        Unknown.java
        ConceptMentionCandidate_Type.java
        Relation.java
        AidaDisambiguationSettings_Type.java
        DomainWord.java
        NYTArticleMetaData.java
        ConstituentEntity.java
        NamedEntityCandidate.java
        Entity.java
        WikiType.java
        NYTArticleMetaData_Type.java
        Constituent_Type.java
        ConceptMention_Type.java
        ConceptMentionCandidate.java
        Entity_Type.java
        ConceptEntity.java
        ConceptEntity_Type.java
        Subject_Type.java
        AidaDisambiguationSettings.java
        Relation_Type.java
        OpenFact.java
        Synset_Type.java
        Concept_Type.java
        ObjectF_Type.java
        pipelines
        OpenFactExtractionEN.java
        Pipeline.java
        DisambiguationStanfordPipeline.java
        FactsEntityConceptSalienceStanford.java
        ReadCollectionPipeline.java
        FactsWithSalience.java
        DependencyParsingPipeline.java
        LanguageDetectionPipeline.java
        EntitySalienceStanford.java
        FactsEntityConceptSalience.java
        FactsWithSalienceStanford.java
        EvaluationPipeline.java
        KnowNerKB.java
        PipelineType.java
        TokenizationPipeline.java
        EntitySalience.java
        EvaluationOnlyNEDPipeline.java
        DisambiguationPipeline.java
        OpenIE.java
        POSTaggingPipeline.java
        DummyPipeline.java
        EntityConceptSalienceStanford.java
        PipelineUtil.java
        EntityConceptSalience.java
        DocumentProcessorFlowController.java
        custom
        entitysalience
        EntitySalienceSpark.java
        readers
        JSONReader.java
        LoadFactAnnotations.java
        OrderType.java
        WordPressXMLReader.java
        TRExReader.java
        util
        nyt
        Freebase2Wikidata2Yago.java
        NYTCorpusDocumentParser.java
        NYTCorpusDocument.java
        NYTAnnotationReader.java
        trex
        TTriples.java
        TrexDoc.java
        TAnnotation.java
        ReadFactTSV.java
        ConceptEntityDatasetReader.java
        NYTCollectionReader.java
        Conll2003AidaReader.java
        aes
        CdAnalysisEngine.java
        Dump2Json.java
        FilterConceptsByCategories.java
        LoadSingleFactFromDB.java
        AidaAnalysisEngine.java
        JointAidaConceptAnalysisEngine.java
        StanfordTokenizer.java
        FilterConceptsByDomainWords.java
        FilterConceptsByNothing.java
        FilterEntitiesByType.java
        StanfordChineseNER.java
        StanfordRNNDParser.java
        ClausIEAnalysisEngine.java
        StanfordParserTmp.java
        Mate2StanfordDepConverter.java
        ConceptSpotter.java
        ConllWriter.java
        FilterConceptsByPOStagsNounPhrases.java
        StanfordProperNounNER.java
        DomainWordsGenerator.java
        TopCategoriesExtractor.java
        UimaPOSTagger.java
        UimaTokenizer.java
        FilterFacts.java
        DumpOpenFacts2SQL.java
        DomainExtractor.java
        processor
        UnprocessableDocumentException.java
        CollectionSettings.java
        DocumentProcessor.java
        CollectionProcessor.java
        optimization
        AIDAOptimizable.java
        SGDParameterOptimizer.java
        Parameter.java
        function
        AIDAFiniteDifference.java
        Optimizable.java
        ParameterConfig.java
        DoubleParam.java
        IntegerParam.java
        ParameterOptimizer.java
        EvaluationEntityType.java
        trace
        EntityEntityTracing.java
        Tracer.java
        NullGraphTracer.java
        util
        measure
        EvaluationMeasures.java
        GraphTracer.java
        NullTracer.java
        data
        MentionTracer.java
        EntityTracer.java
        visualization
        MainTemplateBuilder.java
        ParameterizedExecutable.java
        IndexBuilder.java
        DocumentBuilder.java
        Runner.java
        model
        Configuration.java
        EvaluationStats.java
        Stats.java
        Document.java
        measures
        KeyphrasesMeasureTracer.java
        GenericEntityEntitySimilarityMeasureTracer.java
        MeasureTracer.java
        UnitMeasureTracer.java
        TracerPart.java
        EntityImportanceMeasureTracer.java
        KeywordContextEntityTracer.java
        TermTracer.java
        KeytermEntityEntityMeasureTracer.java
        PriorMeasureTracer.java
        NullEntityEntityTracing.java
        util
        InputTextWrapper.java
        DateTimeUtils.java
        timing
        DocumentRunTimeStats.java
        formatter
        HierarchicalTimingInfoFormatter.java
        TimingInfoFormatter.java
        RunningTimer.java
        document
        DocumentTimeTracker.java
        tracker
        NoopRunningTimeTracker.java
        RealRunningTimeTracker.java
        RunningTimeTracker.java
        data
        Module.java
        TimingInfo.java
        NiceTime.java
        nlp
        ProperNounManager.java
        AbstractCommandLineUtils.java
        CommandLineUtils.java
        StopWord.java
        yago3
        Yago3ResourceDictionary.java
        Yago3EntityDictionary.java
        Yago3CategoryDictionary.java
        DBUtil.java
        ClassPathUtils.java
        Yago3Util.java
        EntityType.java
        CompressionUtils.java
        textmanipulation
        Whitespace.java
        Util.java
        OutputUtils.java
        filereading
        TsvEntriesIterator.java
        TsvEntries.java
        FileEntries.java
        TsvChunksIterator.java
        TsvChunks.java
        FileEntriesIterator.java
        MathUtil.java
        TsvUtils.java
        AutoExecutingPreparedStatement.java
        CassandraConnectionHolder.java
        DocumentCounter.java
        CollectionUtils.java
        StringUtils.java
        Counter.java
        PostgresUtil.java
        Measures.java
        resultreconciliation
        ResultsReconciler.java
        config
        EntityLinkingConfig.java
        CassandraConfig.java
        ConfigUtils.java
        settings
        GraphSettings.java
        EntityLookupSettings.java
        ConfidenceSettings.java
        Settings.java
        JsonSettings.java
        DisambiguationSettings.java
        disambiguation
        CocktailPartyLangaugeModelDefaultDisambiguationSettings.java
        PriorOnlyDisambiguationSettings.java
        LocalLanguageModelDisambiguationWithNullSettings.java
        LocalLanguageModelDisambiguationSettings.java
        LanguageSettings.java
        service
        web
        resource
        impl
        AnalyzeResourceWithFactsImpl.java
        AnalyzeResourceImpl.java
        AnalyzeResourceWithFacts.java
        support
        ResponseWrapper.java
        AnalyzeResource.java
        utils
        AnalyzeInputUtils.java
        ServiceContext.java
        GZipInterceptor.java
        model
        Constituent.java
        AnalyzeInput.java
        AnalyzeOutput.java
        Fact.java
        AnnotatedMention.java
        util
        DateSerializer.java
        DateDeserializer.java
        Match.java
        Entity.java
        MessageResponse.java
        Meta.java
        webapp
        WEB-INF
        web.xml
        evaluation
        Utils.java
        EvaluationSettings.java
        Timer.java
        EvaluationCounts.java
        EntityLinkingManager.java
        disambiguationtechnique
        LocalDisambiguation.java
        keyvaluestore
        KeyValueStore.java
        CassandraStore.java
        KeyValuesStorePartialReads.java
        datapreparation
        sql
        KeywordsStatCollector.java
        MaterializeMIWeights.java
        KeyphraseCountCollector.java
        UnitsStatCollector.java
        EntityKeyphraseTokenWeightImporter.java
        wikilinklikelihood
        WikiLinkLikelihoodProvider.java
        inlinks
        InlinksBuilder.java
        InlinksEntriesDataProvider.java
        unitcooccurrence
        EntityUnitCooccurrenceEntry.java
        EntityUnitCooccurrenceBuilder.java
        EntityUnitCooccurrenceEntriesDataProvider.java
        keyphrasecooccurrence
        EntityKeyphraseCooccurrenceEntriesDataProvider.java
        EntityKeyphraseCooccurrenceBuilder.java
        EntityKeyphraseCooccurrenceEntry.java
        typetaxonomy
        TypeTaxonomyBuilder.java
        TypeTaxonomyEntriesDataProvider.java
        dictionary
        DictionaryEntityBaseWithLanguage.java
        DictionaryEntityBase.java
        DictionaryEntriesDataProvider.java
        DictionaryBuilder.java
        DictionaryEntity.java
        PrepareData.java
        entitiescontext
        EntitiesContextBuilder.java
        EntitiesContextEntriesDataProvider.java
        EntityContextEntry.java
        SuperdocEntityKeyphraseCountCollector.java
        knowledgebasemetadata
        KnowledgeBaseMetaDataProvider.java
        DummyKnowledgeBaseMetaDataProvider.java
        kgmapping
        KGMapping.java
        test
        TestDictionaryEntriesDataProvider.java
        entitiestypes
        EntitiesTypesEntriesDataProvider.java
        ConceptCategoryDicionatriesBuilder.java
        EntitiesTypesDicionatriesBuilder.java
        util
        AIDASchemaPreparationConfig.java
        language
        LanguageDetector.java
        OptimaizeLanguageDetector.java
        OptimaizeLanguageDetectorAnalysisEngine.java
        AidaUnsupportedLanguageException.java
        UnitUtil.java
        YagoIdsMapper.java
        CompareAIDASchemas.java
        genericschema
        GenericReader.java
        GenericRelationBasedEntitiesContextDataProvider.java
        GenericEntitiesMetaDataDataProvider.java
        GenericEntitiesTypesDataProvider.java
        GenericDBReader.java
        Relations.java
        GenericDictionaryEntriesDataProvider.java
        GenericFileReader.java
        GenericSplittingTsvFileReader.java
        GenericInlinksDataProvider.java
        entityimportance
        EntityImportanceBuilder.java
        EntityImportanceEntriesDataProvider.java
        entityimportancecomponent
        EntityImportanceComponentEntriesDataProvider.java
        EntityImportanceComponentsBuilder.java
        keyvaluestore
        SqlToKeyValueConverter.java
        KeyValueStoreBuilderFactory.java
        CassandraKeyValueStoreBuilder.java
        SqlToKeyValueConverterGeneric.java
        KeyValueStoreBuilder.java
        KeyValueStorePreparator.java
        aida
        AIDAManualDictionaryEntriesDataProvider.java
        entitiesmetadata
        EntitiesMetaDataEntriesDataProvider.java
        EntityMetaData.java
        EntitiesMetaDataBuilder.java
        entityoccurrence
        EntityOccurrenceCountsBuilder.java
        EntityOccurrenceCountsEntriesDataProvider.java
        conf
        DataPrepConfName.java
        DataPrepConfFactory.java
        TestDataPrepConf.java
        DataPrepConf.java
        DummyDataPrepConf.java
        GenericPrepConf.java
        yago
        yago3
        Yago3TypeTaxonomyDataProvider.java
        Yago3EntitiesWikidataCategoryDataProvider.java
        Yago3EntitiesTypesDataProvider.java
        Yago3KnowledgeBaseMetaDataProvider.java
        Yago3PrepConf.java
        Yago3DictionaryEntriesSources.java
        Yago3EntitiesMetaDataDataProvider.java
        Yago3OutlinksEntitiesImportanceComponentProvider.java
        util
        Utils.java
        YAGO3SplittingTsvFileReader.java
        YAGO3FileReader.java
        YAGO3DBReader.java
        YAGO3Reader.java
        YAGO3RelationNames.java
        Yago3DictionaryEntriesDataProvider.java
        Yago3WikipediaCategoryEntitiesContextDataProvider.java
        Yago3AnchorsDictionaryEntriesDataProvider.java
        Yago3WikiLinkProbabilitiesProvider.java
        Yago3RelationBasedEntitiesContextDataProvider.java
        Yago3InlinksDataProvider.java
        Yago3InlinkTitlesEntitiesContextDataProvider.java
        common
        YagoEntityUnitCooccurrenceDataProvider.java
        YagoEntityKeyphraseCooccurrenceDataProviderIterator.java
        YagoInlinkBasedEntityImportanceCountsDataProvider.java
        YagoEntityKeyphraseCooccurrenceDataProvider.java
        YagoEntityOccurrenceCountsDataProvider.java
        model
        Tokens.java
        Keyphrases.java
        ChunkDisambiguationResults.java
        Token.java
        Mention.java
        ResultProcessor.java
        ExternalEntitiesContext.java
        NullEntity.java
        Context.java
        Mentions.java
        ResultMention.java
        Entity.java
        MentionObject.java
        Wrapper.java
        Entities.java
        KBIdentifiedEntity.java
        OokbEntity.java
        Keyphrase.java
        EntityMetaData.java
        Type.java
        ResultEntity.java
        DisambiguationResults.java
        PreparedInput.java
        PreparedInputChunk.java
        CandidateDictionary.java
        ChunkDisambiguator.java
        run
        UimaCommandLineProcessor.java
        preparation
        Preparator.java
        documentchunking
        FixedLengthDocumentChunker.java
        DocumentChunker.java
        PageBasedDocumentChunker.java
        SingleChunkDocumentChunker.java
        lookup
        DbLookup.java
        EntityLookupManager.java
        EntityLookup.java
        mentionrecognition
        HybridFilter.java
        access
        DataAccess.java
        DataAccessKeyValueStoreHandler.java
        DataAccessIntIntCacheTarget.java
        Codec.java
        DataAccessKeyValueStore.java
        DataAccessConfig.java
        DataAccessKeyphraseTokensCacheTarget.java
        EncoderDecoderKryo.java
        DataAccessUnitCountCacheTarget.java
        DataAccessInterface.java
        DataAccessEntitiesCacheTarget.java
        DataAccessWordExpansionCacheTarget.java
        KeytermsCache.java
        EntityLinkingDataAccessException.java
        EncoderDecoder.java
        EncoderDecoderInts.java
        DataAccessKeywordCountCacheTarget.java
        DataAccessCacheTarget.java
        DatabaseKeyValueStore.java
        DataAccessWordContractionCacheTarget.java
        DataAccessKeyphraseSourcesCacheTarget.java
        DataAccessForTesting.java
        DataAccessSQL.java
        KeyValueStoreRow.java
        DataAccessCache.java
        DataAccessSQLCache.java
        similarity
        TrueFalseCalculator.java
        PriorCalculator.java
        EstimateParameterWeightsFromScores.java
        MentionEntitySimilarityCalculator.java
        util
        AverageSimilarityScoresCalculator.java
        GenerateScores.java
        TrainPipeline.java
        ScoreCalculator.java
        EntityImportanceCalculator.java
        tools
        javatools
        parsers
        Char17.java
        Char.java
        PositionTracker.java
        Language.java
        LanguageNotSupportedException.java
        NumberParser.java
        NumberFormatter.java
        DateParser.java
        administrative
        Tracer.java
        D.java
        Announce.java
        CallStack.java
        filehandlers
        FileLines.java
        UTF8Reader.java
        TSVWriter.java
        UTF8Writer.java
        FileSet.java
        util
        FileUtils.java
        ArrayUtils.java
        datatypes
        IntHashMap.java
        PeekIterator.java
        FinalMap.java
        IntKeyMap.java
        Triple.java
        Pair.java
        basics3
        FactComponent.java
        N4Reader.java
        FactSource.java
        Fact.java
        TsvReader.java
        FactWriter.java
        N4Writer.java
        TsvWriter.java
        YAGO.java
        lsh
        MinHasher.java
        LSH.java
        LSHFeatureExtractor.java
        LSHStringNgramFeatureExtractor.java
        model
        ProcessedDocument.java
        util
        DocumentAnnotations.java
        Document.java
        Collection.java
  - test
    - resources
      - yago3
        yago3.tsv
      - fileentriestest
        datafile.tsv
        oneliner.tsv
        file.tsv
      - ner
        test_collections
        CoNLL-YAGO_ext_small_de.tsv
        CoNLL-YAGO_ext_small_en.tsv
        aida-facts
        aidaFacts_split_%3C_yagoMetadata%3E
        aidaFacts_split_%220.10060881313189886%22%5E%5Exsd%3Adouble
        aidaFacts_split_%3ChasImageID%3E
        aidaFacts_split_%3ChasTrademark%3E
        mentionLikelihoodFacts_en.tsv
        aidaFacts_split_%3ChasInternalWikipediaLinkTo%3E
        aidaFacts_split_%3ChasWikipediaAnchorText%3E
        aidaFacts_split_%3ChasWikipediaUrl%3E
        aidaFacts_split_rdfs%3AsubClassOf
        aidaFacts_split_%3ChasGivenName%3E
        aidaFacts_split_%3ChasFamilyName%3E
        aidaFacts_split_%3C_hasLinkLikelihood%3E
        aidaFacts_split_%3ChasName%3E
        aidaFacts_split_%3ChasLongDescription%3E
        aidaFacts_split_rdf%3Atype
        aidaFacts_split_%3ChasGender%3E
        aidaFacts_split_%3ChasAuthor%3E
        aidaFacts_split_%3ChasShortDescription%3E
        aidaFacts_split_%3CisNamedEntity%3E
        aidaFacts_split_%3ChasGloss%3E_old
        aidaFacts_split_%3ChasImageUrl%3E
        aidaFacts_split_counts.tsv
        aidaFacts_split_%3ChasLicense%3E
        aidaFacts_split_%3ChasGloss%3E
        aidaFacts_split_%3ChasOTRSPermissionTicketID%3E
        aidaFacts_split_%3ChasUrl%3E
        aidaFacts_split_%3ChasCitationTitle%3E
        aidaFacts_split_%3C_hasTranslation%3E
        aidaFacts_split_%3ChasWikipediaCategory%3E
        aidaFacts_split_%3ChasAnchorText%3E
        aidaFacts_split_%3ChasWikiPage%3E
        aidaFacts_split_owl%3AsameAs
        aidaFacts_split_rdfs%3Alabel
        aidaFacts_split_%3CredirectedFrom%3E
        aidaFacts_split_%3C_hasLinkLikelihood%3E_old
        preparefornewlanguage
        initialResources
        dictionary_generator
        interesting_yagoclasses_test
        known_corporations.csv
        dictionary_generator
        dictionary_parameters.csv
        yago_types
        known_country.csv
        known_corporations.csv
      - test_db
        type_for_entities.json
      - preparedinput
        preparedinputtest.tsv
      - evaluation
        evaluation_NE_ONLY.properties
        evaluation.properties
        evaluation_PARAM.properties
        similarity_training.properties
        evaluationNER.properties
    - java
      - de
        mpg
        mpi_inf
        ambiversenlu
        nlu
        language
        LanguageTest.java
        openie
        clausie
        ClausIETest.java
        OpenIEFactExtractionIntegrationTest.java
        OpenIEFactRankingByGlobalEntityPriorIntegrationTest.java
        trie
        TextSpotterTest.java
        TrieTest.java
        entitysalience
        EntitySalienceTest.java
        EntitySalienceIntegrationTest.java
        entitylinking
        graph
        algorithms
        CocktailPartyTest.java
        CocktailPartySizeConstrainedTest.java
        similarity
        measure
        MilneWittenEntityEntitySimilarityTest.java
        KLDivergenceCalculatorTest.java
        WeightComputationTest.java
        PriorProbabilityTest.java
        uima
        pipelines
        DepPipelineTest.java
        custom
        readers
        Conll2003AidaReaderTest.java
        UimaTokenizerTest.java
        DisambiguatorRealDBIntegrationTest.java
        DisambiguatorRealDBSpanishIntegrationTest.java
        ConceptDisambiguatorRealDBIntegrationTest.java
        DisambiguatorTest.java
        util
        timing
        RunningTimerTest.java
        MathUtilTest.java
        StringUtilsTest.java
        Yago3UtilTest.java
        DateTimeUtilsTest.java
        textmanipulation
        WhiteSpaceTest.java
        filereading
        TsvEntriesTest.java
        TsvChunksTest.java
        FileEntriesTest.java
        CollectionUtilsTest.java
        CompressionUtilsTest.java
        config
        settings
        DocumentAnnotationsTest.java
        service
        web
        AnalyzeResourceIntegrationTest.java
        DisambiguatorRealDBChineseIntegrationTest.java
        EntityLinkingManagerTest.java
        DisambiguatorRealDBCzechIntegrationTest.java
        datapreparation
        YagoEntityKeyphraseCooccurrenceDataProviderIteratorTest.java
        yago
        yago3
        util
        YAGO3SplittingTsvFileReaderTest.java
        model
        ContextTest.java
        ExternalEntitiesContextTest.java
        ResultProcessorTest.java
        PreparedInputTest.java
        DisambiguatorRealDBGermanIntegrationTest.java
        preparation
        chunking
        FixedLengthDocumentChunkerTest.java
        access
        EncoderDecoderKryoTest.java
        DataAccessCassandraIntegrationTest.java
        EncoderDecoderIntsTest.java
        DataAccessIntegrationTest.java
        lsh
        LSHTest.java
- pom.xml
- LICENSE
- entity_repository
  - dictionary.tsv
- docker-compose
  - service-cassandra.yml
  - service-postgres-small.yml
  - service-postgres.yml
  - service-cassandra-cluster-2.yml
- .travis.yml
- README.md
- scripts
  - start_webservice.sh
  - training
    - optimization
      - conf
        aida_cpsc_heuristics_nonme.conf
        aida_cpsc_heuristics.conf
        cda_cpsc_heuristics_nonme.conf
      - run_param_optimizer.sh
      - run_sgd_param_optimizer.sh
    - local_similarity
      - estimate_mention_entity_similarity_settings.sh
  - driver
    - debug_pipeline.sh
    - run_pipeline.sh
  - repository_creation
    - yago_aida.ini
    - persistentlyStoreDumps.py
    - neo4jIndexingDatabase.py
    - docopt.py
    - createAidaRepository.py
  - debug_webservice.sh
  - preparation
    - run_data_preparation.sh
- .gitignore
- docs
  - entity-salience
    - README.md
  - know-ner
    - new_corpus.md
    - README.md
    - new_language.md
    - train.md
    - evaluation.md

package de.mpg.mpi_inf.ambiversenlu.nlu.entitylinking.uima.custom.entitysalience;

import de.mpg.mpi_inf.ambiversenlu.nlu.entitylinking.uima.type.SalientEntity;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.featureextraction.extractor.FeatureExtractor;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.featureextraction.extractor.NYTEntitySalienceFeatureExtractor;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.featureextraction.featureset.FeatureSetFactory;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.featureextraction.util.EntityInstance;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.featureextraction.util.FeatureValueInstanceUtils;
import de.mpg.mpi_inf.ambiversenlu.nlu.entitysalience.settings.TrainingSettings;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.classification.RandomForestClassificationModel;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.sql.SQLContext;
import org.apache.uima.UimaContext;
import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
import org.apache.uima.fit.component.JCasAnnotator_ImplBase;
import org.apache.uima.fit.descriptor.ConfigurationParameter;
import org.apache.uima.jcas.JCas;
import org.apache.uima.resource.ResourceInitializationException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.util.List;

/**
 * Entity Salience Analysis engine that loads a already trained data model from a file in libsvm format.
 * It makes prediction for a single document and writes the predictions back to jCas.
 * <p>
 * See example from here:
 * https://github.com/apache/spark/blob/v1.6.3/examples/src/main/java/org/apache/spark/examples/ml/JavaRandomForestClassifierExample.java
 */
public class EntitySalienceSpark extends JCasAnnotator_ImplBase {

    private Logger logger = LoggerFactory.getLogger(EntitySalienceSpark.class);

    protected JavaSparkContext jsc;
    protected SQLContext sqlContext;

    private PipelineModel trainingModel;

    public static final String PARAM_MODEL_PATH = "modelPath";
    @ConfigurationParameter(
            name = "modelPath",
            mandatory = true
    )
    private String modelPath;


    @Override
    public void initialize(UimaContext context) throws ResourceInitializationException {
        super.initialize(context);
        synchronized (EntitySalienceSpark.class) {
            SparkConf conf = new SparkConf()
                    .setAppName("EntitySalienceTagger")
                    .set("spark.driver.allowMultipleContexts","true")
                    .setMaster("local");
            jsc = new JavaSparkContext(conf);

            //Load the training model
            //trainingModel = PipelineModel.load(modelPath);
            trainingModel = (PipelineModel) jsc.objectFile(modelPath).first();
            jsc.close();
            jsc.stop();
        }
    }

    @Override
    public void process(JCas jCas) throws AnalysisEngineProcessException {
        long startTime = System.currentTimeMillis();

        FeatureExtractor fe = new NYTEntitySalienceFeatureExtractor();
        List<EntityInstance> entityInstances;
        try {
            entityInstances = fe.getEntityInstances(jCas, TrainingSettings.FeatureExtractor.ENTITY_SALIENCE);

            final int featureVectorSize = FeatureSetFactory.createFeatureSet(TrainingSettings.FeatureExtractor.ENTITY_SALIENCE).getFeatureVectorSize();

            //TODO: For each model create separate implementation.
            RandomForestClassificationModel rfm = (RandomForestClassificationModel)trainingModel.stages()[2];
            for(EntityInstance ei : entityInstances) {
                Vector vei = FeatureValueInstanceUtils.convertToSparkMLVector(ei, featureVectorSize);

                double label = rfm.predict(vei);
                Vector probabilities = rfm.predictProbability(vei);
                double salience = probabilities.toArray()[1];

                SalientEntity salientEntity = new SalientEntity(jCas, 0, 0);
                salientEntity.setLabel(label);
                salientEntity.setID(ei.getEntityId());
                salientEntity.setSalience(salience);
                salientEntity.addToIndexes();
            }
            long endTime = System.currentTimeMillis() - startTime;
            logger.debug("Annotating salient entities finished in {}ms.", endTime);


        } catch (Exception e) {
            throw new AnalysisEngineProcessException(e);
        }

    }


    @Override
    public void destroy() {
        synchronized (EntitySalienceSpark.class) {
            jsc.stop();
        }
    }

}