python source code of csvcorpus

topical_word_embeddings-master
- TWE-3
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
- LICENSE
- README.md
- TWE-1
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - .word2vec_inner.pyx.swp
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - __init__.pyc
  - COPYING
  - setup.py
  - pre_process.pyc
  - train.py
  - word2vec_inner.pyx
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in
  - pre_process.py
- TWE-2
  - gensim
    - interfaces.pyc
    - interfaces.py
    - examples
      - dmlcz
        gensim_build.py
        runall.sh
        gensim_genmodel.py
        dmlcorpus.py
        sources.py
        gensim_xml.py
        __init__.py
    - corpora
      - svmlightcorpus.py
      - wikicorpus.py
      - lowcorpus.pyc
      - ucicorpus.pyc
      - svmlightcorpus.pyc
      - mmcorpus.py
      - lowcorpus.py
      - textcorpus.py
      - malletcorpus.py
      - bleicorpus.py
      - hashdictionary.py
      - __init__.pyc
      - ucicorpus.py
      - indexedcorpus.pyc
      - indexedcorpus.py
      - wikicorpus.pyc
      - malletcorpus.pyc
      - hashdictionary.pyc
      - __init__.py
      - dictionary.pyc
      - bleicorpus.pyc
      - mmcorpus.pyc
      - textcorpus.pyc
      - dictionary.py
      - csvcorpus.py
    - test
      - test_utils.py
      - simspeed.py
      - test_corpora_dictionary.py
      - test_lee.py
      - svd_error.py
      - simspeed2.py
      - test_data
        testcorpus.low
        test_corpus_ok.mm
        miIslita.cor
        testcorpus.blei.vocab
        testcorpus.mallet
        testcorpus.svmlight
        test_corpus_small.mm
        testcorpus.txt
        similarities0-1.txt
        testcorpus.blei
        testcorpus.uci.vocab
        testcorpus.uci
        para2para_text2.txt
        testcorpus.mm
        lee.cor
        para2para_text1.txt
      - test_models.py
      - test_miislita.py
      - test_similarities.py
      - test_word2vec.py
      - __init__.py
      - test_big.py
      - test_corpora.py
      - test_corpora_hashdictionary.py
      - test_parsing.py
    - models
      - word2vec.py
      - voidptr.h
      - ldamallet.pyc
      - lsimodel.py
      - logentropy_model.py
      - lsi_dispatcher.py
      - lda_worker.py
      - tfidfmodel.pyc
      - word2vec.pyc
      - rpmodel.pyc
      - __init__.pyc
      - tfidfmodel.py
      - ldamodel.py
      - ldamallet.py
      - word2vec_inner.pyx
      - __init__.py
      - lsimodel.pyc
      - logentropy_model.pyc
      - lda_dispatcher.py
      - hdpmodel.py
      - rpmodel.py
      - lsi_worker.py
      - hdpmodel.pyc
      - ldamodel.pyc
    - __init__.pyc
    - matutils.pyc
    - parsing
      - preprocessing.py
      - __init__.py
      - porter.py
    - matutils.py
    - __init__.py
    - utils.py
    - scripts
      - make_wiki.py
      - make_wiki_lemma.py
      - make_wiki_online_lemma.py
      - __init__.py
      - make_wiki_online.py
      - make_wiki_online_nodebug.py
      - make_wikicorpus.py
    - nosy.py
    - utils.pyc
    - similarities
      - docsim.py
      - docsim.pyc
      - __init__.pyc
      - __init__.py
  - COPYING.LESSER
  - tmp
    - tmp_file_here
  - ez_setup.py
  - Readme.md
  - output
    - output_file_here
  - gensim_addons
    - models
      - word2vec_inner.pyx
      - __init__.py
    - __init__.py
  - COPYING
  - setup.py
  - last_last_step.py
  - train.py
  - setup.cfg
  - __init__.py
  - CHANGELOG.txt
  - .travis.yml
  - docs
    - src
      - install.rst
      - indextoc.rst
      - Makefile
      - intro.rst
      - corpora
        corpora.rst
        bleicorpus.rst
        lowcorpus.rst
        wikicorpus.rst
        svmlightcorpus.rst
        textcorpus.rst
        mmcorpus.rst
        hashdictionary.rst
        dictionary.rst
        ucicorpus.rst
        indexedcorpus.rst
      - about.rst
      - tut1.rst
      - wiki.rst
      - models
        lda_dispatcher.rst
        logentropy_model.rst
        word2vec.rst
        lda_worker.rst
        lsi_dispatcher.rst
        rpmodel.rst
        hdpmodel.rst
        ldamodel.rst
        ldamallet.rst
        lsimodel.rst
        lsi_worker.rst
        models.rst
        tfidfmodel.rst
      - tutorial.rst
      - support.rst
      - dist_lsi.rst
      - apiref.rst
      - utils.rst
      - tut2.rst
      - matutils.rst
      - gensim_theme
        page.html
        theme.conf
        genindex.html
        layout.html
        search.html
        domainindex.html
        static
        jquery.js
        doctools.js
        underscore.js
      - interfaces.rst
      - conf.py
      - tut3.rst
      - distributed.rst
      - changes_080.rst
      - simserver.rst
      - _templates
        indexcontent.html
      - _static
        images
        loading.gif
        favicon.ico
        features
        references
        logo_issuu.jpeg
        logo_dtu.gif
        favicon.ico
        js
        jquery.qtip.min.js
        jquery-migrate-1.1.1.min.js
        jquery-1.9.1.min.js
        jquery.anythingslider.min.js
        css
        jquery.qtip.min.css
        style.css
        anythingslider.css
      - dist_lda.rst
      - similarities
        docsim.rst
        simserver.rst
  - MANIFEST.in

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
# Copyright (C) 2013 Zygmunt Zając <zygmunt@fastml.com>
# Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html

"""
Corpus in CSV format.

"""


from __future__ import with_statement

import logging
import csv
import itertools

from gensim import interfaces

logger = logging.getLogger('gensim.corpora.csvcorpus')


class CsvCorpus(interfaces.CorpusABC):
    """
    Corpus in CSV format. The CSV delimiter, headers etc. are guessed automatically
    based on the file content.

    All row values are expected to be ints/floats.

    """

    def __init__(self, fname, labels):
        """
        Initialize the corpus from a file.
        `labels` = are class labels present in the input file? => skip the first column

        """
        logger.info("loading corpus from %s" % fname)
        self.fname = fname
        self.length = None
        self.labels = labels

        # load the first few lines, to guess the CSV dialect
        head = ''.join(itertools.islice(open(self.fname), 5))
        self.headers = csv.Sniffer().has_header(head)
        self.dialect = csv.Sniffer().sniff(head)
        logger.info("sniffed CSV delimiter=%r, headers=%s" % (self.dialect.delimiter, self.headers))

    def __iter__(self):
        """
        Iterate over the corpus, returning one sparse vector at a time.

        """
        reader = csv.reader(open(self.fname), self.dialect)
        if self.headers:
            next(reader)    # skip the headers

        line_no = -1
        for line_no, line in enumerate(reader):
            if self.labels:
                line.pop(0)  # ignore the first column = class label
            yield list(enumerate(map(float, line)))

        self.length = line_no + 1  # store the total number of CSV rows = documents

# endclass CsvCorpus