python source code of test

topical_word_embeddings-master
- TWE-3
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
- LICENSE
- README.md
- TWE-1
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - .word2vec_inner.pyx.swp
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - __init__.pyc
  - COPYING
  - setup.py
  - pre_process.pyc
  - train.py
  - word2vec_inner.pyx
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
  - pre_process.py
- TWE-2
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - last_last_step.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in

#!/usr/bin/env python
# encoding: utf-8
#
# Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html

"""
Automated test to reproduce the results of Lee et al. (2005)

Lee et al. (2005) compares different models for semantic
similarity and verifies the results with similarity judgements from humans.

As a validation of the gensim implementation we reproduced the results
of  Lee et al. (2005) in this test.

Many thanks to Michael D. Lee (michael.lee@adelaide.edu.au) who provideded us
with his corpus and similarity data.

If you need to reference this dataset, please cite:

Lee, M., Pincombe, B., & Welsh, M. (2005).
An empirical evaluation of models of text document similarity.
Proceedings of the 27th Annual Conference of the Cognitive Science Society
"""

from __future__ import with_statement

import logging
import os.path
import unittest

import numpy as np

from gensim import corpora, models, utils, matutils
from gensim.parsing.preprocessing import preprocess_documents, preprocess_string, DEFAULT_FILTERS


bg_corpus = None
corpus = None
human_sim_vector = None


class TestLeeTest(unittest.TestCase):
    def setUp(self):
        """setup lee test corpora"""
        global bg_corpus, corpus, human_sim_vector, bg_corpus2, corpus2

        pre_path = os.path.join(os.path.dirname(__file__), 'test_data')
        bg_corpus_file = 'lee_background.cor'
        corpus_file = 'lee.cor'
        sim_file = 'similarities0-1.txt'

        # read in the corpora
        latin1 = lambda line: utils.to_unicode(line, encoding='latin1')
        with utils.smart_open(os.path.join(pre_path, bg_corpus_file)) as f:
            bg_corpus = preprocess_documents(latin1(line) for line in f)
        with utils.smart_open(os.path.join(pre_path, corpus_file)) as f:
            corpus = preprocess_documents(latin1(line) for line in f)
        with utils.smart_open(os.path.join(pre_path, bg_corpus_file)) as f:
            bg_corpus2 = [preprocess_string(latin1(s), filters=DEFAULT_FILTERS[:-1]) for s in f]
        with utils.smart_open(os.path.join(pre_path, corpus_file)) as f:
            corpus2 = [preprocess_string(latin1(s), filters=DEFAULT_FILTERS[:-1]) for s in f]

        # read the human similarity data
        sim_matrix = np.loadtxt(os.path.join(pre_path, sim_file))
        sim_m_size = np.shape(sim_matrix)[0]
        human_sim_vector = sim_matrix[matutils.triu_indices(sim_m_size, 1)]


    def test_corpus(self):
        """availability and integrity of corpus"""
        documents_in_bg_corpus = 300
        documents_in_corpus = 50
        len_sim_vector = 1225
        self.assertEqual(len(bg_corpus), documents_in_bg_corpus)
        self.assertEqual(len(corpus), documents_in_corpus)
        self.assertEqual(len(human_sim_vector), len_sim_vector)


    def test_lee(self):
        """correlation with human data > 0.6
        (this is the value which was achieved in the original paper)
        """

        global bg_corpus, corpus

        # create a dictionary and corpus (bag of words)
        dictionary = corpora.Dictionary(bg_corpus)
        bg_corpus = [dictionary.doc2bow(text) for text in bg_corpus]
        corpus = [dictionary.doc2bow(text) for text in corpus]

        # transform the bag of words with log_entropy normalization
        log_ent = models.LogEntropyModel(bg_corpus)
        bg_corpus_ent = log_ent[bg_corpus]

        # initialize an LSI transformation from background corpus
        lsi = models.LsiModel(bg_corpus_ent, id2word=dictionary, num_topics=200)
        # transform small corpus to lsi bow->log_ent->fold-in-lsi
        corpus_lsi = lsi[log_ent[corpus]]

        # compute pairwise similarity matrix and extract upper triangular
        res = np.zeros((len(corpus), len(corpus)))
        for i, par1 in enumerate(corpus_lsi):
            for j, par2 in enumerate(corpus_lsi):
                res[i, j] = matutils.cossim(par1, par2)
        flat = res[matutils.triu_indices(len(corpus), 1)]

        cor = np.corrcoef(flat, human_sim_vector)[0, 1]
        logging.info("LSI correlation coefficient is %s" % cor)
        self.assertTrue(cor > 0.6)


    # def test_lee_mallet(self):
    #     global bg_corpus, corpus, bg_corpus2, corpus2

    #     # create a dictionary and corpus (bag of words)
    #     dictionary = corpora.Dictionary(bg_corpus2)
    #     bg_corpus = [dictionary.doc2bow(text) for text in bg_corpus2]
    #     corpus = [dictionary.doc2bow(text) for text in corpus2]

    #     # initialize an LDA transformation from background corpus
    #     lda = models.LdaMallet('/Users/kofola/Downloads/mallet-2.0.7/bin/mallet',
    #         corpus=bg_corpus, id2word=dictionary, num_topics=200, optimize_interval=10)
    #     corpus_lda = lda[corpus]

    #     # compute pairwise similarity matrix and extract upper triangular
    #     res = np.zeros((len(corpus), len(corpus)))
    #     for i, par1 in enumerate(corpus_lda):
    #         for j, par2 in enumerate(corpus_lda):
    #             res[i, j] = matutils.cossim(par1, par2)
    #     flat = res[matutils.triu_indices(len(corpus), 1)]

    #     cor = np.corrcoef(flat, human_sim_vector)[0, 1]
    #     logging.info("LDA correlation coefficient is %s" % cor)
    #     self.assertTrue(cor > 0.35)



if __name__ == '__main__':
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.DEBUG)
    unittest.main()