java source code of SequenceFileIngestMapperTest

Project: hadoop-solr (GitHub Link)

hadoop-solr-master
- gradle.properties
- gradle
  - wrapper
    - gradle-wrapper.properties
    - gradle-wrapper.jar
- solr-hadoop-common
- solr-hadoop-core
  - src
    - main
      - java
        com
        lucidworks
        hadoop
        utils
        ConfigurationKeys.java
        ingest
        SolrXMLIngestMapper.java
        SequenceFileIngestMapper.java
        AbstractJobFixture.java
        CSVIngestMapper.java
        BaseHadoopIngest.java
        ZipIngestMapper.java
        SipsIngestMapper.java
        util
        GrokHelper.java
        EmptyEntityResolver.java
        WarcIngestMapper.java
        IngestReducer.java
        XMLIngestMapper.java
        RegexIngestMapper.java
        IngestJob.java
        DirectoryIngestMapper.java
        GrokIngestMapper.java
        AbstractIngestMapper.java
        LucidCounters.java
    - test
      - resources
        warc
        at.warc
        at.warc.gz
        at.warc.bz2
        xml
        foo.xml
        xml_ingest_mapper.xsl
        csv
        quotes_with_circumflex.csv
        frank.csv.bz2
        LWS592.csv
        frank.csv.gz
        log4j.properties
        grok
        CISCO.conf
        confWithAddPatterns.conf
        extra_patterns.txt
        IP-WORD.conf
        customPattern.conf
        ip-word.log
        ip-word-small.log.bz2
        ip-word-small.log.gz
        Syslog.conf
        firewall.conf
        Month-Day-Year-Greedy.conf
        dir
        frank_txt_3.txt
        frank_txt_1.txt.gz
        frank_txt_2.txt.bz2
        frank_txt_5.txt.bz2
        frank_txt_4.txt
        frank_txt_2.txt
        frank_txt_4.txt.gz
        frank_txt_2.txt.gz
        frank_txt_5.txt
        frank_txt_5.txt.gz
        frank_txt_0.txt
        frank_txt_1.txt
        frank_txt_3.txt.bz2
        frank_txt_0.txt.bz2
        docs
        file.txt
        frank_txt_3.txt.gz
        frank_txt_0.txt.gz
        frank_txt_4.txt.bz2
        frank_txt_1.txt.bz2
        solr.xml
        regex
        regex-small.txt.bz2
        regex-small-2.txt
        regex-small.txt
        regex-small.txt.gz
        log4j2.xml
        stopwords.txt
        zip
        zipData.zip.gz
        zipData.zip.bz2
        sequence
        d05
        d12
        d01
        d07
        d10
        d06
        d03
        d11
        d08
        d02
        d09
        d04
        conf
        email_url_types.txt
        update-script.js
        protwords.txt
        synonyms.txt
        currency.xml
        params.json
        stopwords.txt
        lang
        stopwords_tr.txt
        contractions_fr.txt
        stopwords_it.txt
        hyphenations_ga.txt
        stopwords_en.txt
        stopwords_es.txt
        stopwords_da.txt
        stopwords_ar.txt
        userdict_ja.txt
        stopwords_fa.txt
        stopwords_hy.txt
        contractions_ga.txt
        stopwords_hu.txt
        stopwords_pt.txt
        stopwords_nl.txt
        stopwords_gl.txt
        stopwords_hi.txt
        stopwords_lv.txt
        stopwords_fr.txt
        stemdict_nl.txt
        stopwords_ga.txt
        stopwords_de.txt
        contractions_ca.txt
        stopwords_fi.txt
        stopwords_bg.txt
        stopwords_no.txt
        stopwords_ro.txt
        stopwords_id.txt
        stopwords_eu.txt
        stopwords_sv.txt
        stopwords_el.txt
        stopwords_cz.txt
        stoptags_ja.txt
        stopwords_th.txt
        stopwords_ca.txt
        stopwords_ru.txt
        stopwords_ja.txt
        contractions_it.txt
        managed-schema
        solrconfig.xml
        elevate.xml
      - java
        com
        lucidworks
        hadoop
        utils
        TestUtils.java
        JobArgs.java
        ingest
        CSVIngestMapperTest.java
        WarcIngestMapperTest.java
        GrokHelperTest.java
        BaseMiniClusterTestCase.java
        IngestJobCompressionTest.java
        IngestJobTest.java
        GrokIngestMapperTest.java
        DirectoryIngestMapperTest.java
        SequenceFileIngestMapperTest.java
        IngestJobInit.java
        SolrXMLIngestMapperTest.java
        BaseIngestMapperTestCase.java
        TestIngestReducer.java
        SipsIngestMapperTest.java
        RegexIngestMapperTest.java
        ZipIngestMapperTest.java
        XMLIngestMapperTest.java
  - libs
  - .gitignore
- .gitmodules
- gradlew.bat
- LICENSE
- gradlew
- build.gradle
- solr-hadoop-job
  - .gitignore
- README.adoc
- settings.gradle
- .gitignore
- logstash-packager
  - logstash-mapper
    - matcher.rb
    - lw_wrapped.rb
    - pattern_handler.rb
    - Rakefile
    - loader.rb
    - bin
      - main.rb
  - environment.rb
  - README.md
  - .gitignore

package com.lucidworks.hadoop.ingest;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.SequenceFileInputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.junit.Test;

import java.io.File;
import java.util.List;

import static com.lucidworks.hadoop.utils.ConfigurationKeys.COLLECTION;
import static com.lucidworks.hadoop.utils.ConfigurationKeys.ZK_CONNECT;
import static junit.framework.TestCase.assertEquals;
import static junit.framework.TestCase.assertNotNull;

public class SequenceFileIngestMapperTest extends BaseMiniClusterTestCase {

    private static final Path LOCAL_FRANKENSTEIN_SEQ_FILE = new Path(SequenceFileIngestMapperTest.class.getClassLoader()
            .getResource("sequence" + File.separator + "frankenstein_text_text.seq").toString());

    @Test
    public void test() throws Exception {
        prepareFrankensteinSeqFileInput();
        Configuration conf = getDefaultSequenceFileIngestMapperConfiguration();
        Job job = createJobBasedOnConfiguration(conf, SequenceFileIngestMapper.class);
        ((JobConf)job.getConfiguration()).setInputFormat(SequenceFileInputFormat.class);

        List<String> results = runJobSuccessfully(job, 776);

        assertNumDocsProcessed(job, 776);
        assertEquals(776, results.size());
        for (String docStr : results) {
            assertNotNull(docStr);
        }

    }

    private void prepareFrankensteinSeqFileInput() throws Exception {
        copyLocalInputToHdfs(LOCAL_FRANKENSTEIN_SEQ_FILE.toUri().toString(), "frankenstein_text_text.seq");
    }

    private Configuration getDefaultSequenceFileIngestMapperConfiguration() {
        Configuration conf = getBaseConfiguration();
        conf.set("io.serializations", "com.lucidworks.hadoop.io.impl.LWMockSerealization");
        conf.set(COLLECTION, "collection");
        conf.set(ZK_CONNECT, "localhost:0000");
        conf.set("idField", "id");

        return conf;
    }
}