python source code of density

Project: modAL (GitHub Link)

modAL-master
- modAL
  - utils
    - data.py
    - selection.py
    - validation.py
    - __init__.py
    - combination.py
  - expected_error.py
  - acquisition.py
  - uncertainty.py
  - models
    - learners.py
    - __init__.py
    - base.py
  - multilabel.py
  - disagreement.py
  - batch.py
  - __init__.py
  - cluster.py
  - density.py
- examples
  - active_regression.py
  - multilabel_svm.py
  - ensemble.py
  - keras_integration.py
  - deep_bayesian_active_learning.py
  - sklearn_workflow.py
  - runtime_comparison.py
  - query_by_committee.py
  - ensemble_regression.py
  - bagging.py
  - ranked_batch_mode.py
  - bayesian_optimization.py
  - pool-based_sampling.py
  - custom_query_strategies.py
  - shape_learning.py
  - stream-based_sampling.py
  - bayesian_optimization_multidim.py
  - pytorch_integration.py
  - information_density.py
- LICENSE
- CONTRIBUTING.md
- .readthedocs.yaml
- setup.py
- rtd_requirements.txt
- setup.cfg
- .travis.yml
- README.md
- tests
  - mock.py
  - example_tests
    - active_regression.py
    - multilabel_svm.py
    - ensemble.py
    - stream_based_sampling.py
    - query_by_committee.py
    - ensemble_regression.py
    - bagging.py
    - multidimensional_data.py
    - ranked_batch_mode.py
    - bayesian_optimization.py
    - pool_based_sampling.py
    - custom_query_strategies.py
    - __init__.py
    - shape_learning.py
    - information_density.py
  - test.sh
  - core_tests.py
  - __init__.py
- .gitignore
- docs
  - Makefile
  - source
    - content
      - img
      - apireference
        acquisition.rst
        expected_error.rst
        multilabel.rst
        density.rst
        batch.rst
        uncertainty.rst
        utils.rst
        disagreement.rst
        models.rst
      - examples
        stream-based_sampling.ipynb
        Pytorch_integration.ipynb
        img
        interactive_labeling.ipynb
        ensemble_regression.ipynb
        active_regression.ipynb
        bootstrapping_and_bagging.ipynb
        bayesian_optimization.ipynb
        Keras_integration.ipynb
      - models
        img
        CommitteeRegressor.rst
        BayesianOptimizer.rst
        Committee.rst
        ActiveLearner.rst
      - query_strategies
        uncertainty_sampling.ipynb
        Disagreement-sampling.rst
        img
        ranked_batch_mode.ipynb
        Acquisition-functions.rst
        information_density.ipynb
      - overview
        img
        modAL-in-a-nutshell.rst
        Contributing.rst
        Installation.rst
    - _themes
      - sphinx_rtd_theme
        versions.html
        theme.conf
        breadcrumbs.html
        footer.html
        layout.html
        __init__.py
        searchbox.html
        search.html
        static
        fonts
        fontawesome-webfont.woff2
        fontawesome-webfont.woff
        fontawesome-webfont.eot
        FontAwesome.otf
        fontawesome-webfont.ttf
        js
        theme.js
        modernizr.min.js
        css
        badge_only.css
        theme.css
    - index.rst
    - conf.py
    - _static
      - style.css

"""
Measures for estimating the information density of a given sample.
"""
from typing import Callable, Union

import numpy as np
from scipy.spatial.distance import cosine, euclidean
from sklearn.metrics.pairwise import pairwise_distances

from modAL.utils.data import modALinput


def similarize_distance(distance_measure: Callable) -> Callable:
    """
    Takes a distance measure and converts it into a information_density measure.

    Args:
        distance_measure: The distance measure to be converted into information_density measure.

    Returns:
        The information_density measure obtained from the given distance measure.
    """
    def sim(*args, **kwargs):
        return 1/(1 + distance_measure(*args, **kwargs))

    return sim


cosine_similarity = similarize_distance(cosine)
euclidean_similarity = similarize_distance(euclidean)


def information_density(X: modALinput, metric: Union[str, Callable] = 'euclidean') -> np.ndarray:
    """
    Calculates the information density metric of the given data using the given metric.

    Args:
        X: The data for which the information density is to be calculated.
        metric: The metric to be used. Should take two 1d numpy.ndarrays for argument.

    Todo:
        Should work with all possible modALinput.
        Perhaps refactor the module to use some stuff from sklearn.metrics.pairwise

    Returns:
        The information density for each sample.
    """
    # inf_density = np.zeros(shape=(X.shape[0],))
    # for X_idx, X_inst in enumerate(X):
    #     inf_density[X_idx] = sum(similarity_measure(X_inst, X_j) for X_j in X)
    #
    # return inf_density/X.shape[0]

    similarity_mtx = 1/(1+pairwise_distances(X, X, metric=metric))

    return similarity_mtx.mean(axis=1)