scala source code of GDBRDD

Project: spark-gdb (GitHub Link)

spark-gdb-master
- src
  - main
    - resources
      - logback.xml
      - log4j.properties
    - scala
      - com
        esri
        udt
        SpatialType.scala
        PointType.scala
        PolyType.scala
        PointZUDT.scala
        Segment.scala
        PolylineMType.scala
        PointUDT.scala
        PointZMUDT.scala
        PolyUDT.scala
        PolygonType.scala
        PolylineType.scala
        PolygonUDT.scala
        SegmentIterator.scala
        PointMType.scala
        PointMUDT.scala
        PointZMType.scala
        PolylineMUDT.scala
        PointZType.scala
        PolylineUDT.scala
        gdb
        FieldGeom.scala
        FieldBinary.scala
        FieldPolylineType.scala
        FieldFloat64.scala
        FieldPolyline.scala
        EsriFieldType.scala
        GDBTableSeekWithNoNullValues.scala
        FieldPolylineMType.scala
        GDBRowIterator.scala
        FieldPointType.scala
        package.scala
        GDBRelation.scala
        FieldPoly3Type.scala
        GDBTable.scala
        FieldInt32.scala
        GDBRDD.scala
        GDBIndex.scala
        FieldBytes.scala
        FieldGeomNoop.scala
        DataBuffer.scala
        CatRow.scala
        FieldPoly.scala
        FieldPolygon.scala
        GDBTableScanWithNullValues.scala
        DefaultSource.scala
        Field.scala
        FieldDateTime.scala
        GDBTableSeekWithNullValues.scala
        FieldFloat32.scala
        FieldPoly2Type.scala
        FieldInt16.scala
        FieldPointZType.scala
        FieldPolygonType.scala
        FieldPointMType.scala
        FieldUUID.scala
        FieldPointZMType.scala
        FieldString.scala
        FieldOID.scala
        IndexInfo.scala
    - python
      - udtapp.py
      - udtapp.sh
      - com
        __init__.py
        esri
        udt
        __init__.py
        __init__.py
  - test
    - resources
      - log4j.properties
      - Test.gdb
        a00000004.gdbindexes
        a00000004.gdbtable
        a0000000e.gdbtablx
        a00000004.CatItemsByPhysicalName.atx
        a00000006.freelist
        a00000007.gdbtablx
        a00000010.spx
        a00000012.spx
        a00000001.freelist
        a00000004.CatItemsByType.atx
        a00000004.spx
        a00000001.gdbindexes
        a00000012.gdbtablx
        a0000000a.gdbindexes
        a00000007.CatRelTypesByUUID.atx
        a00000012.gdbindexes
        a00000006.CatRelsByDestinationID.atx
        a00000001.gdbtablx
        a00000006.gdbtablx
        a00000006.CatRelsByOriginID.atx
        a00000009.gdbtablx
        a00000002.gdbtable
        a00000011.gdbindexes
        a0000000e.gdbtable
        a00000010.gdbtable
        a0000000a.gdbtablx
        a00000004.FDO_UUID.atx
        a0000000d.spx
        a00000009.spx
        a00000007.gdbtable
        a00000007.CatRelTypesByBackwardLabel.atx
        a00000007.CatRelTypesByName.atx
        a0000000a.gdbtable
        a00000001.TablesByName.atx
        a00000006.FDO_UUID.atx
        a0000000e.spx
        a0000000e.gdbindexes
        a00000011.gdbtable
        a00000002.gdbtablx
        a00000005.CatItemTypesByUUID.atx
        a0000000d.gdbtable
        a00000012.gdbtable
        a00000003.gdbtable
        a00000003.gdbtablx
        a0000000f.spx
        a00000001.gdbtable
        a00000005.CatItemTypesByParentTypeID.atx
        a00000011.gdbtablx
        a00000005.gdbtablx
        a00000004.gdbtablx
        a00000006.gdbindexes
        a0000000f.gdbtablx
        a00000006.gdbtable
        timestamps
        a00000009.gdbindexes
        a00000003.gdbindexes
        a0000000f.gdbtable
        a00000005.CatItemTypesByName.atx
        a00000007.gdbindexes
        a00000005.gdbtable
        a00000005.gdbindexes
        a00000010.gdbindexes
        a00000007.CatRelTypesByForwardLabel.atx
        a00000009.gdbtable
        a00000011.spx
        a00000010.gdbtablx
        a00000004.freelist
        a0000000f.gdbindexes
        a00000006.CatRelsByType.atx
        a0000000d.gdbtablx
        gdb
        a0000000d.gdbindexes
        a00000007.CatRelTypesByOriginItemTypeID.atx
        a00000007.CatRelTypesByDestItemTypeID.atx
        a0000000a.spx
    - scala
      - com
        esri
        udt
        SegmentIteratorSpec.scala
        SerDeSpec.scala
        app
        GDBApp.scala
        Main.scala
        gdb
        GDBSuite.scala
    - python
      - TestToolbox.pyt
- pom.xml
- LICENSE
- README.md
- .gitignore

package com.esri.gdb

import org.apache.hadoop.conf.Configuration
import org.apache.spark.annotation.DeveloperApi
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.Row
import org.apache.spark.{Logging, Partition, SparkContext, TaskContext}

/**
  */
case class GDBRDD(@transient sc: SparkContext, gdbPath: String, gdbName: String, numPartitions: Int) extends RDD[Row](sc, Nil) with Logging {

  @DeveloperApi
  override def compute(partition: Partition, context: TaskContext): Iterator[Row] = {
    val part = partition.asInstanceOf[GDBPartition]
    val hadoopConf = if (sc == null) new Configuration() else sc.hadoopConfiguration
    val index = GDBIndex(gdbPath, part.hexName, hadoopConf)
    val table = GDBTable(gdbPath, part.hexName, hadoopConf)
    context.addTaskCompletionListener(context => {
      table.close()
      index.close()
    })
    table.rowIterator(index, part.startAtRow, part.numRowsToRead)
  }

  override protected def getPartitions: Array[Partition] = {
    val hadoopConf = if (sc == null) new Configuration() else sc.hadoopConfiguration
    GDBTable.findTable(gdbPath, gdbName, hadoopConf) match {
      case Some(catTab) => {
        val index = GDBIndex(gdbPath, catTab.hexName, hadoopConf)
        try {
          val numRows = index.numRows
          val numRowsPerPartition = (numRows.toDouble / numPartitions).ceil.toInt
          var startAtRow = 0
          (0 until numPartitions).map(i => {
            val endAtRow = startAtRow + numRowsPerPartition
            val numRowsToRead = if (endAtRow <= numRows) numRowsPerPartition else numRows - startAtRow
            val gdbPartition = GDBPartition(i, catTab.hexName, startAtRow, numRowsToRead)
            startAtRow += numRowsToRead
            gdbPartition
          }).toArray
        } finally {
          index.close()
        }
      }
      case _ => {
        log.error(s"Cannot find '$gdbName' in $gdbPath, creating an empty array of Partitions !")
        Array.empty[Partition]
      }
    }
  }
}

private[this] case class GDBPartition(m_index: Int,
                                      val hexName: String,
                                      val startAtRow: Int,
                                      val numRowsToRead: Int
                                     ) extends Partition {
  override def index = m_index
}