python source code of CorpusBasedTermScorer

scattertext-master
- demo_sklearn.py
- demo_general_inquirer.py
- demo_names.py
- demo_tsne_style_for_publication.py
- demo_embeddings_pca.py
- demo_insignificant_greyed_out.py
- demo_custom_coordinates.py
- simple.py
- demo_moral_foundations.py
- demo_dense_rank_difference.py
- demo_pair_plot_movies_doc2vec.py
- demo_two_axis.py
- scattertext
  - frequencyreaders
    - __init__.py
    - DefaultBackgroundFrequencies.py
  - characteristic
    - __init__.py
    - DenseRankCharacteristicness.py
  - diachronic
    - BubbleDiachronicVisualization.py
    - DiachronicTermMiner.py
    - DiachronicPairPlot.py
    - GanttChart.py
    - DiachronicVisualizer.py
    - __init__.py
    - TimeStructure.py
  - distancemeasures
    - DistanceMeasureBase.py
    - EuclideanDistance.py
    - __init__.py
  - TermDocMatrixFactory.py
  - DocsAndLabelsFromCorpus.py
  - graphs
    - ComponentDiGraph.py
    - GraphStructure.py
    - __init__.py
    - SimpleDiGraph.py
    - ComponentDiGraphHTMLRenderer.py
  - termscoring
    - ZScores.py
    - RankDifference.py
    - LogOddsUniformativePriorScore.py
    - CornerScore.py
    - CredTFIDF.py
    - ScaledFScore.py
    - CorpusBasedTermScorer.py
    - BM25Difference.py
    - RelativeEntropy.py
    - CohensDCalculator.py
    - MannWhitneyU.py
    - OLSUngnarStyle.py
    - __init__.py
    - test_credTFIDF.py
    - BetaPosterior.py
    - CohensD.py
  - categoryprojector
    - pairplot.py
    - CategoryProjectorEvaluator.py
    - OptimalProjection.py
    - CategoryProjection.py
    - __init__.py
    - CategoryProjector.py
  - PValGetter.py
  - CorpusFromParsedDocuments.py
  - representations
    - EmbeddingsResolver.py
    - GensimPhraseAugmenter.py
    - Doc2VecBuilder.py
    - CorpusSentenceIterator.py
    - __init__.py
    - Word2VecFromParsedCorpus.py
    - CategoryEmbeddings.py
  - Scalers.py
  - CorpusFromScikit.py
  - viz
    - VizDataAdapter.py
    - BasicHTMLFromScatterplotStructure.py
    - PairPlotFromScattertextStructure.py
    - __init__.py
    - HTMLSemioticSquareViz.py
    - ScatterplotStructure.py
  - Common.py
  - ScatterChartData.py
  - CorpusFromFeatureDict.py
  - TermDocMatrixFilter.py
  - topicmodel
    - interface
      - __init__.py
    - SentencesForTopicModeling.py
    - __init__.py
  - TermDocMatrixFromScikit.py
  - CategoryColorAssigner.py
  - test
    - test_CorpusFromParsedDocuments.py
    - test_featsFromScoredLexicon.py
    - test_autoTermSelector.py
    - test_indexStoreFromDict.py
    - test_CategoryColorAssigner.py
    - test_Scalers.py
    - test_termDocMatrixFromPandas.py
    - test_betaPosterior.py
    - test_termDocMatrixFactory.py
    - test_gensimPhraseAdder.py
    - test_scatterChartExplorer.py
    - test_diachronicTermMiner.py
    - test_WhitespaceNLP.py
    - test_useFullDocAsFeature.py
    - test_semioticSquareFromAxes.py
    - test_featureLister.py
    - test_semioticSquare.py
    - test_logOddsUninformativePriorScore.py
    - test_phraseSelector.py
    - test_HTMLVisualizationAssembly.py
    - test_fourSquareAxes.py
    - test_featsFromSpacyDocAndEmpath.py
    - test_termCategoryFrequencies.py
    - test_percentile_lexicographic.py
    - test_CSRMatrixTools.py
    - test_classPercentageCompactor.py
    - test_PriorFactory.py
    - test_embeddingsResolver.py
    - test_domainCompactor.py
    - test_PMIFiltering.py
    - test_extract_emoji.py
    - test_denseRankCharacteristicness.py
    - test_scaledFScore.py
    - test_vizDataAdapter.py
    - test_unigramsFromSpacyDoc.py
    - test_ZScores.py
    - test_cohensD.py
    - test_termRanker.py
    - test_corpusFromPandas.py
    - test_word2VecFromParsedCorpus.py
    - test_ParsedCorpus.py
    - test_combineDocsIntoDomains.py
    - test_corpusFromScikit.py
    - test_compactTerms.py
    - __init__.py
    - test_HTMLSemioticSquareViz.py
    - test_scatterChart.py
    - test_FeatsFromSpacyDoc.py
    - test_BM25Difference.py
    - test_corpusFromPandasWithoutCategories.py
    - test_credTFIDF.py
    - test_termDocMatrixFromScikit.py
    - test_logOddsRatioUninformativeDirichletPrior.py
    - test_large_int_format.py
    - test_useFullDocAsMetadata.py
    - test_associationCompator.py
    - test_CornerScore.py
    - test_asiannlp.py
    - test_oneClassScatterChart.py
    - test_TermDocMat.py
    - test_relativeEntropy.py
    - test_corpusFromFeatureDict.py
    - test_termDocMatrixFromFrequencies.py
    - test_docsAndLabelsFromCorpus.py
    - test_indexStore.py
    - test_indexStoreFromList.py
  - CorpusDF.py
  - termsignificance
    - LogOddsRatioUninformativeDirichletPrior.py
    - ScaledFScoreSignificance.py
    - __init__.py
    - LogOddsRatioSmoothed.py
    - LogOddsRatioInformativeDirichletPiror.py
    - TermSignificance.py
  - SampleCorpora.py
  - WhitespaceNLP.py
  - Formatter.py
  - CLI.py
  - external
    - phrasemachine
      - phrasemachine.py
      - __init__.py
    - __init__.py
  - termranking
    - DocLengthNormalizedFrequencyRanker.py
    - OncePerDocFrequencyRanker.py
    - DocLengthDividedFrequencyRanker.py
    - __init__.py
    - AbsoluteFrequencyRanker.py
    - TermRanker.py
  - PriorFactory.py
  - Corpus.py
  - ScatterChart.py
  - TermDocMatrixFromFrequencies.py
  - CorpusFromPandas.py
  - TermDocMatrixWithoutCategories.py
  - indexstore
    - IndexStoreFromDict.py
    - IndexStoreFromList.py
    - __init__.py
    - IndexStore.py
  - TermDocMatrixFromPandas.py
  - TermDocMatrix.py
  - data
    - mfd2.0.csv
    - viz
      - time_plot.html
      - semiotic_new.html
      - pairplot.html
      - scattertext.html
      - autocomplete.css
      - pairplot_without_halo.html
      - scripts
        range-tree.js
        rectangle-holder.js
        main.js
        d3-scale-chromatic.v1.min.js
        autocomplete_call.js
        autocomplete_definition.js
      - semiotic.html
      - search_form.html
      - graph_plot.html
    - hamlet.txt
    - presidential_debates_2016.csv.gz
  - CSRMatrixTools.py
  - OneClassScatterChart.py
  - __init__.py
  - SampleLexicons.py
  - FeatureOuput.py
  - features
    - PhraseMachinePhrases.py
    - UseFullDocAsMetadata.py
    - FeatsFromOnlyEmpath.py
    - SpacyEntities.py
    - FeatsFromMoralFoundationsDictionary.py
    - PyTextRankPhrases.py
    - FeatsFromScoredLexicon.py
    - FeatsFromSpacyDoc.py
    - FeatsFromSpacyDocOnlyEmoji.py
    - FeatsFromSpacyDocAndEmpath.py
    - UnigramsFromSpacyDoc.py
    - FeatsFromGeneralInquirer.py
    - __init__.py
    - UseFullDocAsFeature.py
    - FeastFromSentencePiece.py
    - FeatsFromSpacyDocOnlyNounChunks.py
    - FeatsFromTopicModel.py
  - domain
    - __init__.py
    - CombineDocsIntoDomains.py
  - ParsedCorpus.py
  - ScatterChartExplorer.py
  - AutoTermSelector.py
  - termcompaction
    - CompactTerms.py
    - ClassPercentageCompactor.py
    - DomainCompactor.py
    - PhraseSelector.py
    - ScikitCompactor.py
    - __init__.py
    - AssociationCompactor.py
  - semioticsquare
    - FourSquare.py
    - FourSquareAxis.py
    - SemioticSquareFromAxes.py
    - __init__.py
    - SemioticSquare.py
  - emojis
    - EmojiExtractor.py
    - __init__.py
    - ProcessedEmojiStructure.py
  - TermCategoryFrequencies.py
  - AsianNLP.py
  - DeployedClassifier.py
- demo_four_square.py
- demo_flashtext.py
- demo_gensim_similarity.py
- demo_focused_pair_plot_movies.py
- demo_unified_context.py
- demo_pair_plot_convention_geninq.py
- demo_pair_plot_convention_empath.py
- demo_log_odds_ratio_prior.py
- demo_semiotic.py
- demo_category_frequencies.py
- demo_without_spacy.py
- ISSUE_TEMPLATE
- demo_emoji.py
- demo_chinese.py
- LICENSE
- demo_obama.py
- demo_pair_plot_movies.py
- demo_relative_entropy.py
- demo.py
- demo_beta_posterior.py
- demo_general_inquirer_frequency_plot.py
- demo_pair_plot_movies_umap.py
- demo_tsne_style.py
- demo_tfidf.py
- demo_bm25.py
- demo_japanese.py
- demo_scaled_f_score.py
- PhraseMachineLicense.txt
- .gitattributes
- demo_mann_whitney.py
- demo_pair_plot_20_newsgroups.py
- demo_alt_tokenization.py
- setup.py
- distribution.sh
- demo_multi_category_pca.py
- demo_pca_documents.py
- demo_compact.py
- demo_pair_plot_convention.py
- regendocs.sh
- demo_bow_pca.py
- demo_pytextrank.py
- demo_dense_rank.py
- demo_axis_crossbars_and_labels.py
- demo_cohens_d.py
- demo_pair_plot_movies_mirror.py
- demo_feature_importance.py
- .travis.yml
- README.md
- demo_expected_vs_actual.py
- demo_nmf_topic_model.py
- demo_include_all_contexts.py
- demo_similarity.py
- demo_compact_suppress_documents.py
- demo_characteristic_chart.py
- demo_phrase_machine.py
- demo_sentence_piece.py
- demo_empath.py
- demo_z_scores.py
- demo_word_list_topic_model.py
- demo_umap_documents.py
- demo_pair_plot_movies_phate.py
- demo_custom_topic_model.py
- demo_sparse.py
- demo_pair_plot_category_focused.py
- demo_cred_tfidf.py
- demo_hedges_r.py

from abc import ABCMeta, abstractmethod

import numpy as np
import pandas as pd
from scipy import stats
from scipy.sparse import vstack

from scattertext.termranking import AbsoluteFrequencyRanker
from scattertext.termranking.TermRanker import TermRanker

try:
    from future.utils import with_metaclass
except:
    from six import with_metaclass


def sparse_var(X):
    '''
    Compute variance from
    :param X:
    :return:
    '''
    Xc = X.copy()
    Xc.data **= 2
    return np.array(Xc.mean(axis=0) - np.power(X.mean(axis=0), 2))[0]


class NeedToSetCategoriesException(Exception):
    pass


class CorpusBasedTermScorer(with_metaclass(ABCMeta, object)):
    def __init__(self, corpus, *args, **kwargs):
        self.corpus_ = corpus
        self.category_ids_ = corpus._y
        self.tdf_ = None
        self._set_scorer_args(**kwargs)
        self.term_ranker_ = AbsoluteFrequencyRanker(corpus)
        self.use_metadata_ = False
        self.category_name_is_set_ = False

    @abstractmethod
    def _set_scorer_args(self, **kwargs):
        pass

    def use_metadata(self):
        self.use_metadata_ = True
        self.term_ranker_.use_non_text_features()
        return self

    def set_term_ranker(self, term_ranker):
        assert issubclass(term_ranker, TermRanker)
        self.term_ranker_ = term_ranker(self.corpus_)
        if self.use_metadata_:
            self.term_ranker_.use_non_text_features()
        return self

    def is_category_name_set(self):
        return self.category_name_is_set_

    def set_categories(self,
                       category_name,
                       not_category_names=[],
                       neutral_category_names=[]):
        '''
        Specify the category to score. Optionally, score against a specific set of categories.
        '''
        tdf = self.term_ranker_.get_ranks()
        d = {'cat': tdf[category_name + ' freq']}
        if not_category_names == []:
            not_category_names = [c + ' freq' for c in self.corpus_.get_categories()
                                  if c != category_name]
        else:
            not_category_names = [c + ' freq' for c in not_category_names]
        d['ncat'] = tdf[not_category_names].sum(axis=1)
        if neutral_category_names == []:
            # neutral_category_names = [c + ' freq' for c in self.corpus.get_categories()
            #                          if c != category_name and c not in not_category_names]
            pass
        else:
            neutral_category_names = [c + ' freq' for c in neutral_category_names]
        for i, c in enumerate(neutral_category_names):
            d['neut%s' % (i)] = tdf[c]
        self.tdf_ = pd.DataFrame(d)
        self.category_name = category_name
        self.not_category_names = [c[:-5] for c in not_category_names]
        self.neutral_category_names = [c[:-5] for c in neutral_category_names]
        self.category_name_is_set_ = True
        return self

    def _get_X(self):
        return self.corpus_.get_metadata_doc_mat() if self.use_metadata_ else self.term_ranker_.get_X()

    def get_t_statistics(self):
        '''
        In this case, parameters a and b aren't used, since this information is taken
        directly from the corpus categories.

        Returns
        -------

        '''

        X = self._get_X()
        cat_X, ncat_X = self._get_cat_and_ncat(X)

        mean_delta = self._get_mean_delta(cat_X, ncat_X)
        cat_var = sparse_var(cat_X)
        ncat_var = sparse_var(ncat_X)
        cat_n = cat_X.shape[0]
        ncat_n = ncat_X.shape[0]
        pooled_stderr = np.sqrt(cat_var / cat_n + ncat_var / ncat_n)

        tt = mean_delta / pooled_stderr

        # Use Satterthaite-Welch adjustment for degrees of freedom
        degs_of_freedom = (cat_var ** 2 / cat_n + ncat_var ** 2 / ncat_n) ** 2 / (
                (cat_var ** 2 / cat_n) ** 2 / (cat_n - 1)
                + (ncat_var ** 2 / ncat_n) ** 2 / (ncat_n - 1)
        )

        only_in_neutral_mask = self.tdf_[['cat', 'ncat']].sum(axis=1) == 0
        pvals = stats.t.sf(np.abs(tt), degs_of_freedom)
        tt[only_in_neutral_mask] = 0
        pvals[only_in_neutral_mask] = 0

        return tt, pvals

    def _get_mean_delta(self, cat_X, ncat_X):
        return np.array(cat_X.mean(axis=0) - ncat_X.mean(axis=0))[0]

    def _get_cat_and_ncat(self, X):
        if self.category_name_is_set_ is False:
            raise NeedToSetCategoriesException()
        cat_X = X[np.isin(self.corpus_.get_category_names_by_row(),
                          [self.category_name] + self.neutral_category_names), :]
        ncat_X = X[np.isin(self.corpus_.get_category_names_by_row(),
                           self.not_category_names + self.neutral_category_names), :]
        if len(self.neutral_category_names) > 0:
            neut_X = [np.isin(self.corpus_.get_category_names_by_row(), self.neutral_category_names)]
            cat_X = vstack([cat_X, neut_X])
            ncat_X = vstack([ncat_X, neut_X])
        return cat_X, ncat_X

    def _get_index(self):
        return self.corpus_.get_metadata() if self.use_metadata_ else self.corpus_.get_terms()


@abstractmethod
def get_scores(self, *args):
    '''
    Args are ignored

    Returns
    -------
    '''


@abstractmethod
def get_name(self):
    pass