scala source code of HiveBenchmarkApp

eel-sdk-master
- eel-cli
  - src
    - main
      - resources
        log4j.xml
      - scala
        io
        eels
        cli
        ShowSchemaMain.scala
        ApplySpecMain.scala
        FetchSpecMain.scala
        StreamMain.scala
        Main.scala
        AnalyzeMain.scala
    - test
      - resources
        test.avro
      - scala
        io
        eels
        cli
        ShowSchemaMainTest.scala
- eel-kafka
  - src
    - main
      - scala
        io
        eels
        component
        kafka
        KafkaSink.scala
    - test
      - resources
        log4j2.xml
      - scala
        io
        eels
        component
        kafka
        KafkaSinkTest.scala
- eel-schema
  - src
    - main
      - scala
        io
        eels
        schema
        PartitionConstraint.scala
        SchemaFn.scala
        SchemaMerger.scala
        Partition.scala
        Field.scala
        schema.scala
- LICENSE
- eel-orc
  - src
    - main
      - resources
        reference.conf
      - scala
        io
        eels
        component
        orc
        OrcSource.scala
        OrcSink.scala
        OrcPredicateBuilder.scala
        OrcDeserializer.scala
        OrcWriter.scala
        OrcSchemaFns.scala
        OrcBatchIterator.scala
        OrcSerializer.scala
    - test
      - resources
        log4j2.xml
      - scala
        io
        eels
        component
        orc
        OrcComponentTest.scala
        OrcMultipleFileSpeedTest.scala
        OrcPredicateTest.scala
        OrcSchemaCompatibilityTest.scala
- eel-kudu
  - src
    - main
      - resources
        reference.conf
      - scala
        io
        eels
        component
        kudu
        WriteMode.java
        KuduValueWriter.scala
        KuduSink.scala
        KuduValueReader.scala
        KuduSchemaFns.scala
        KuduSource.scala
    - test
      - resources
        log4j2.xml
      - scala
        io
        eels
        component
        kudu
        KuduComponentTest.scala
- project
  - build.properties
  - Build.scala
  - plugins.sbt
- eel-hbase
  - src
    - main
      - scala
        io
        eels
        component
        hbase
        HbaseSink.scala
        HbaseScanner.scala
        HbaseSinkWriter.scala
        HbaseSource.scala
        HbaseHiveInfo.scala
        HbasePredicate.scala
        HbasePublisher.scala
        HbaseStatistics.scala
        HbaseHiveOps.scala
        HbaseSerializer.scala
        HbaseCoercers.scala
    - test
      - resources
        log4j2.xml
      - scala
        io
        eels
        component
        hbase
        HbaseTests.scala
        HbaseFullTests.scala
- .sbtopts
- eel-spark
  - src
    - main
      - scala
        io
        eels
        spark
        SparkSchemaFns.scala
    - test
      - scala
        io
        eels
        spark
        SparkSchemaFnsTest.scala
        ParquetSparkCompatibilityTest.scala
- eel-yarn
  - src
    - main
      - scala
        io
        eels
        yarn
        EelContainerTask.scala
        YarnSampleApp.scala
        EelApplicationMaster.scala
        YarnUtils.scala
- eel-cloudera
  - src
    - main
      - scala
        io
        eels
        cloudera
        ClouderaSupport.scala
- eel-core
  - src
    - main
      - resources
        reference.conf
        log4j2.xml
      - scala
        io
        eels
        SchemaInferrer.scala
        Row.scala
        NoopListener.scala
        package.scala
        util
        HdfsIterator.scala
        JacksonSupport.scala
        PathIterator.scala
        JsonRow.scala
        HdfsMkdir.scala
        FilePattern.scala
        Listener.scala
        DevNullSink.scala
        Sink.scala
        Predicate.scala
        component
        avro
        AvroReaderFns.scala
        parser.scala
        AvroWriter.scala
        AvroSource.scala
        AvroRecordIterator.scala
        AvroSchemaMerge.scala
        AvroSink.scala
        serializer.scala
        AvroSchemaFns.scala
        AvroDeserializer.scala
        jdbc
        JdbcStoredProcSource.scala
        JdbcSource.scala
        JdbcPartitionStrategy.scala
        JdbcTable.scala
        RangePartitionStrategy.scala
        HashPartitionStrategy.scala
        BucketExprPartitionStrategy.scala
        JdbcSchemaFns.scala
        JdbcSinkWriter.scala
        JdbcReaderConfig.scala
        JdbcPrimitives.scala
        JdbcSink.scala
        JdbcPublisher.scala
        dialect
        OracleJdbcDialect.scala
        JdbcDialect.scala
        GenericJdbcDialect.scala
        SinglePartitionStrategy.scala
        BucketPartitionStrategy.scala
        JdbcInserter.scala
        csv
        CsvSupport.scala
        Header.java
        CsvSource.scala
        CsvSourceParser.scala
        CsvSink.scala
        CsvPublisher.scala
        CsvFormat.scala
        Component.scala
        ComponentSpec.scala
        SqlContext.scala
        parquet
        ParquetPublisher.scala
        avro
        AvroParquetWriterFn.scala
        AvroParquetSource.scala
        AvroParquetSink.scala
        AvroParquetReaderFn.scala
        AvroParquetRowWriter.scala
        AvroParquetPublisher.scala
        ParquetWriterConfig.scala
        ParquetSource.scala
        RecordWriter.scala
        ParquetReaderConfig.scala
        util
        ParquetIterator.scala
        parser.scala
        ParquetLogMute.scala
        RollingParquetWriter.scala
        ParquetSchemaFns.scala
        RowParquetReaderFn.scala
        ParquetPredicateBuilder.scala
        RowReadSupport.scala
        RowParquetWriterFn.scala
        RowWriteSupport.scala
        ParquetSink.scala
        Statistics.scala
        hdfs
        HdfsSource.scala
        AclEntry.scala
        HdfsWatcher.scala
        sequence
        SequenceSource.scala
        SequenceSink.scala
        SequenceSupport.scala
        json
        JsonSink.scala
        JsonSource.scala
        RowUtils.scala
        datastream
        DataStreamPublisher.scala
        Subscriber.scala
        GroupedDataStream.scala
        ExistsSubscriber.scala
        Publisher.scala
        DelegateSubscriber.scala
        Subscription.scala
        DataStream.scala
        SinkAction.scala
        IteratorAction.scala
        DataStreamSource.scala
        FindSubscriber.scala
        coercion
        coercers.scala
        Constants.scala
        Source.scala
        PredicateBuilder.scala
        HdfsOps.scala
        DataTable.scala
    - test
      - resources
        us-500.csv
        services
        org.apache.spark.sql.sources.DataSourceRegister
        uk-500.csv
        log4j2.xml
        log4j.xml
        hive-site.xml
        test.avro
        io
        eels
        component
        csv
        comments.csv
        csvwithempty.csv
        csvtest.csv
        corrupt.csv
        psv.psv
        parquet
        spark.parquet
        person2.avro.pq
        person.avro.pq
        json
        arrays.json
        test.json
        prims.json
        nested.json
        maps.json
        test.seq
        testsecurityspec.json
      - scala
        io
        eels
        FieldTest.scala
        SpeedTest.scala
        ReadParquetEEL.scala
        ListenerTest.scala
        ToSetActionTest.scala
        PathIteratorTest.scala
        RowTest.scala
        component
        avro
        AvroSchemaCompatibilityTest.scala
        ConverterTest.scala
        AvroSchemaFnsTest.scala
        AvroSourceParserTest.scala
        AvroSerializerTest.scala
        AvroDeserializerTest.scala
        AvroSinkTest.scala
        AvroSourceTest.scala
        AvroSchemaMergeTest.scala
        jdbc
        GenericJdbcDialectTest.scala
        H2SchemaCompatibilityTest.scala
        JdbcSinkTest.scala
        HashPartitionStrategyTest.scala
        JdbcSourceTest.scala
        dialect
        OracleJdbcDialectTest.scala
        RangePartitionStrategyTest.scala
        csv
        CsvSourceTypeConversionTest.scala
        CsvSourceTest.scala
        CsvSpeedTest.scala
        CsvSinkParserTest.scala
        CsvSinkTest.scala
        CsvSourceParserTest.scala
        parquet
        AvroParquetSinkTest.scala
        AvroAndParquetCrossCompatibilityTest.scala
        ParquetSourceTest.scala
        ParquetPredicateTest.scala
        AvroParquetSourceTest.scala
        ParquetComponentTest.scala
        ParquetMultipleFileSpeedTest.scala
        ParquetSourceParserTest.scala
        ParquetSinkTest.scala
        ParquetSchemaFnsTest.scala
        ParquetProjectionTest.scala
        ParquetSpeedTest.scala
        AvroParquetReaderFnTest.scala
        GroupedByParquetSpeedTest.scala
        DecimalWriterTest.scala
        ParquetSchemaCompatibilityTest.scala
        RollingParquetWriterTest.scala
        ParquetSinkParserTest.scala
        AvroParquetComponentTest.scala
        sequence
        SequenceSourceTest.scala
        SequenceSinkTest.scala
        json
        JsonSourceTest.scala
        JsonSinkTest.scala
        GroupedDataStreamTest.scala
        datastream
        DataStreamExpressionsTest.scala
        DataStreamTest.scala
        SinkActionTest.scala
        RowUtilsTest.scala
        schema
        StructTypeInferrerTest.scala
        StructTypeTest.scala
        DecimalTypeTest.scala
        FilePatternTest.scala
- eel-hive
  - src
    - main
      - resources
        reference.conf
      - scala
        io
        eels
        component
        hive
        OutputSchemaStrategy.scala
        HiveDatabase.scala
        HiveStats.scala
        HiveDialect.scala
        HivePartitionPublisher.scala
        Compactor.scala
        TableSpec.scala
        partition
        PartitionMetaData.scala
        StaticPartitionStrategy.scala
        RowPartitionFn.scala
        DynamicPartitionStrategy.scala
        PartitionStrategy.scala
        FileListener.scala
        HiveTable.scala
        HiveDDL.scala
        FilenameStrategy.scala
        HiveFilePublisher.scala
        HiveSchemaFns.scala
        HiveSourceParser.scala
        HiveFormat.scala
        MetastoreSchemaHandler.scala
        HiveSinkWriter.scala
        HiveSink.scala
        HiveFileScanner.scala
        HiveOps.scala
        HiveTableFilesFn.scala
        HivePartitionScanner.scala
        HiveDatasetUri.scala
        dialect
        OrcHiveDialect.scala
        ParquetHiveDialect.scala
        AvroHiveDialect.scala
        TextHiveDialect.scala
        HiveSource.scala
        HiveOutputStream.scala
        AlignmentStrategy.scala
        StagingStrategy.scala
    - test
      - resources
        log4j2.xml
      - scala
        io
        eels
        component
        hive
        HiveSinkTest.scala
        HiveDDLTest.scala
        HiveFilesFnTest.scala
        HiveSinkParserTest.scala
        HiveStatsTest.scala
        HiveAlignmentTest.scala
        HiveDataApp.scala
        HivePartitionConstraintTest.scala
        HiveConfig.scala
        HiveSpeedTest.scala
        HiveSourceParserTest.scala
        HiveTestUtils.scala
        HiveTableTest.scala
        HiveTestApp.scala
        HiveDatasetUriTest.scala
        HiveSchemaFnsTest.scala
        HiveDynamicPartitionTest.scala
        HdfsPermissionsTestApp.scala
        CompactorTest.scala
        HiveTests.scala
        HiveBenchmarkApp.scala
        HiveTableFilesFnTest.scala
        HiveSourceTest.scala
        HivePartitionExtractorTest.scala
        ParquetVsOrcSpeedTest.scala
        MetastoreSchemaHandlerTest.scala
        HiveCompactTest.scala
        HiveOpsTest.scala
- hadoop-resource-files
  - hdfs-site.xml
  - hive-site.xml
  - yarn-site.xml
  - core-site.xml
- .travis.yml
- README.md
- CODE_OF_CONDUCT.md
- .gitignore
- eel-elasticsearch
  - src
    - main
      - scala
        io
        eels
        component
        elasticsearch
        ElasticsearchSource.scala
- version.sbt

package io.eels.component.hive

import java.util.UUID

import com.sksamuel.exts.metrics.Timed
import io.eels.datastream.DataStream
import io.eels.schema.StructType
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.hive.conf.HiveConf
import org.apache.hadoop.hive.metastore.HiveMetaStoreClient

import scala.util.Random

object HiveBenchmarkApp extends App with Timed {

  val states = List(
    "Alabama",
    "Alaska",
    "Arizona",
    "Arkansas",
    "California",
    "Colorado",
    "Connecticut",
    "Delaware",
    "Florida",
    "Georgia",
    "Hawaii",
    "Idaho",
    "Illinois",
    "Indiana",
    "Iowa",
    "Kansas",
    "Kentucky",
    "Louisiana",
    "Maine",
    "Maryland",
    "Massachusetts",
    "Michigan",
    "Minnesota",
    "Mississippi",
    "Missouri",
    "Montana",
    "Nebraska",
    "Nevada",
    "New Hampshire",
    "New Jersey",
    "New Mexico",
    "New York",
    "North Carolina",
    "North Dakota",
    "Ohio",
    "Oklahoma",
    "Oregon",
    "Pennsylvania",
    "Rhode Island",
    "South Carolina",
    "South Dakota",
    "Tennessee",
    "Texas",
    "Utah",
    "Vermont",
    "Virginia",
    "Washington",
    "West Virginia",
    "Wisconsin",
    "Wyoming").map(_.replace(' ', '_').toLowerCase)

  import HiveConfig._

  val schema = StructType("id", "state")
  val rows = List.fill(1000000)(List(UUID.randomUUID.toString, states(Random.nextInt(50))))

  logger.info(s"Generated ${rows.size} rows")

  new HiveOps(client).createTable(
    "sam",
    "people",
    schema,
    List("state"),
    overwrite = true
  )

  logger.info("Table created")

  val sink = HiveSink("sam", "people")
  DataStream.fromValues(schema, rows).to(sink)

  logger.info("Write complete")

  while (true) {

    timed("datastream took") {
      val result = HiveSource("sam", "people").toDataStream().collect
      println(result.size)
    }
  }
}