python source code of lda

topical_word_embeddings-master
- TWE-3
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
- LICENSE
- README.md
- TWE-1
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - .word2vec_inner.pyx.swp
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - __init__.pyc
  - COPYING
  - setup.py
  - pre_process.pyc
  - train.py
  - word2vec_inner.pyx
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
  - pre_process.py
- TWE-2
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - last_last_step.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
# Copyright (C) 2010 Radim Rehurek <radimrehurek@seznam.cz>
# Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html

"""
USAGE: %(program)s SIZE_OF_JOBS_QUEUE

    Dispatcher process which orchestrates distributed LDA computations. Run this \
script only once, on any node in your cluster.

Example: python -m gensim.models.lda_dispatcher
"""


from __future__ import with_statement
import os, sys, logging, threading, time
from Queue import Queue

from gensim import utils


logger = logging.getLogger("gensim.models.lda_dispatcher")


# How many jobs (=chunks of N documents) to keep "pre-fetched" in a queue?
# A small number is usually enough, unless iteration over the corpus is very very
# slow (slower than the actual computation of LDA), in which case you can override
# this value from command line. ie. run "python ./lda_dispatcher.py 100"
MAX_JOBS_QUEUE = 10

# timeout for the Queue object put/get blocking methods.
# it should theoretically be infinity, but then keyboard interrupts don't work.
# so this is really just a hack, see http://bugs.python.org/issue1360
HUGE_TIMEOUT = 365 * 24 * 60 * 60 # one year



class Dispatcher(object):
    """
    Dispatcher object that communicates and coordinates individual workers.

    There should never be more than one dispatcher running at any one time.
    """

    def __init__(self, maxsize=MAX_JOBS_QUEUE):
        """
        Note that the constructor does not fully initialize the dispatcher;
        use the `initialize()` function to populate it with workers etc.
        """
        self.maxsize = maxsize
        self.callback = None # a pyro proxy to this object (unknown at init time, but will be set later)


    def initialize(self, **model_params):
        """
        `model_params` are parameters used to initialize individual workers (gets
        handed all the way down to `worker.initialize()`).
        """
        self.jobs = Queue(maxsize=self.maxsize)
        self.lock_update = threading.Lock()
        self._jobsdone = 0
        self._jobsreceived = 0

        # locate all available workers and store their proxies, for subsequent RMI calls
        self.workers = {}
        import Pyro4
        with utils.getNS() as ns:
            self.callback = Pyro4.Proxy('PYRONAME:gensim.lda_dispatcher') # = self
            self.callback._pyroOneway.add("jobdone") # make sure workers transfer control back to dispatcher asynchronously
            for name, uri in ns.list(prefix='gensim.lda_worker').iteritems():
                try:
                    worker = Pyro4.Proxy(uri)
                    workerid = len(self.workers)
                    # make time consuming methods work asynchronously
                    worker._pyroOneway.add("requestjob")
                    worker._pyroOneway.add("exit")
                    logger.info("registering worker #%i at %s" % (workerid, uri))
                    worker.initialize(workerid, dispatcher=self.callback, **model_params)
                    self.workers[workerid] = worker
                except Pyro4.errors.PyroError:
                    logger.warning("unresponsive worker at %s, deleting it from the name server" % uri)
                    ns.remove(name)

        if not self.workers:
            raise RuntimeError('no workers found; run some lda_worker scripts on your machines first!')


    def getworkers(self):
        """
        Return pyro URIs of all registered workers.
        """
        return [worker._pyroUri for worker in self.workers.itervalues()]


    def getjob(self, worker_id):
        logger.info("worker #%i requesting a new job" % worker_id)
        job = self.jobs.get(block=True, timeout=1)
        logger.info("worker #%i got a new job (%i left)" % (worker_id, self.jobs.qsize()))
        return job


    def putjob(self, job):
        self._jobsreceived += 1
        self.jobs.put(job, block=True, timeout=HUGE_TIMEOUT)
        logger.info("added a new job (len(queue)=%i items)" % self.jobs.qsize())


    def getstate(self):
        """
        Merge states from across all workers and return the result.
        """
        logger.info("end of input, assigning all remaining jobs")
        logger.debug("jobs done: %s, jobs received: %s" % (self._jobsdone, self._jobsreceived))
        while self._jobsdone < self._jobsreceived:
            time.sleep(0.5) # check every half a second

        logger.info("merging states from %i workers" % len(self.workers))
        workers = self.workers.values()
        result = workers[0].getstate()
        for worker in workers[1:]:
            result.merge(worker.getstate())

        logger.info("sending out merged state")
        return result


    def reset(self, state):
        """
        Initialize all workers for a new EM iterations.
        """
        for workerid, worker in self.workers.iteritems():
            logger.info("resetting worker %s" % workerid)
            worker.reset(state)
            worker.requestjob()
        self._jobsdone = 0
        self._jobsreceived = 0


    @utils.synchronous('lock_update')
    def jobdone(self, workerid):
        """
        A worker has finished its job. Log this event and then asynchronously
        transfer control back to the worker.

        In this way, control flow basically oscillates between `dispatcher.jobdone()`
        and `worker.requestjob()`.
        """
        self._jobsdone += 1
        logger.info("worker #%s finished job #%i" % (workerid, self._jobsdone))
        self.workers[workerid].requestjob() # tell the worker to ask for another job, asynchronously (one-way)


    def jobsdone(self):
        """Wrap self._jobsdone, needed for remote access through Pyro proxies"""
        return self._jobsdone


    def exit(self):
        """
        Terminate all registered workers and then the dispatcher.
        """
        for workerid, worker in self.workers.iteritems():
            logger.info("terminating worker %s" % workerid)
            worker.exit()
        logger.info("terminating dispatcher")
        os._exit(0) # exit the whole process (not just this thread ala sys.exit())
#endclass Dispatcher



def main():
    logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    logger.info("running %s" % " ".join(sys.argv))

    program = os.path.basename(sys.argv[0])
    # make sure we have enough cmd line parameters
    if len(sys.argv) < 1:
        print(globals()["__doc__"] % locals())
        sys.exit(1)

    if len(sys.argv) < 2:
        maxsize = MAX_JOBS_QUEUE
    else:
        maxsize = int(sys.argv[1])
    utils.pyro_daemon('gensim.lda_dispatcher', Dispatcher(maxsize=maxsize))

    logger.info("finished running %s" % program)



if __name__ == '__main__':
    main()