scala source code of SerializedProfilesLoader

Project: sparker (GitHub Link)

sparker-master
- LICENSE
- .gitattributes
- scala
  - sparker
    - src
      - main
        scala-2.11
        Experiments
        Main.scala
        SparkER
        DataStructures
        BlockDirty.scala
        UnweightedEdge.scala
        KeysCluster.scala
        MatchingEntities.scala
        WeightedEdge.scala
        BlockAbstract.scala
        BlockWithComparisonSize.scala
        ProfileTrait.scala
        Profile.scala
        BlockClean.scala
        KeyValue.scala
        EdgeTrait.scala
        ProfileBlocks.scala
        BlockBuildingMethods
        TokenBlocking.scala
        LSH.scala
        BlockingUtils.scala
        BlockRefinementMethods
        BlockFiltering.scala
        PruningMethods
        CNP.scala
        PruningUtils.scala
        CommonNodePruning.scala
        WNP.scala
        WEP.scala
        CEP.scala
        PCPQBlockCalc.scala
        BlockPurging.scala
        Wrappers
        CSVWrapper.scala
        SerializedObjectLoader.scala
        SerializedProfilesLoader.scala
        WrapperTrait.scala
        JSONWrapper.scala
        Utilities
        BoundedPriorityQueue.scala
        Converters.scala
        StatisticsEstimator.scala
    - build.sbt
  - README.md
- python
  - README.md
  - py_sparker
    - wrappers.py
    - blockers.py
    - wnp.py
    - objects.py
    - attribute_clustering.py
    - filters.py
    - converters.py
    - __init__.py
    - pruning_utils.py
    - common_node_pruning.py
- old_versions
  - sparker
    - src
      - main
        scala-2.11
        DataStructures
        BlockDirty.scala
        UnweightedEdge.scala
        KeysCluster.scala
        MatchingEntities.scala
        WeightedEdge.scala
        BlockAbstract.scala
        BlockWithComparisonSize.scala
        ProfileTrait.scala
        Profile.scala
        BlockClean.scala
        KeyValue.scala
        EdgeTrait.scala
        ProfileBlocks.scala
        BlockBuildingMethods
        TokenBlocking.scala
        LSHSpark.scala
        LSHLuca.scala
        LSHTwitter.scala
        BlockingUtils.scala
        Experiments
        AllTest.scala
        BlockRefinementMethods
        BlockFiltering.scala
        PruningMethods
        PruningUtils.scala
        CommonNodePruning.scala
        WNPForOld.scala
        CNPForOld.scala
        WNPFor.scala
        CNPFor.scala
        BlockPurging.scala
        Wrappers
        CSVWrapper.scala
        SerializedObjectLoader.scala
        SerializedProfilesLoader.scala
        WrapperTrait.scala
        JSONWrapper.scala
        Utilities
        MyPartitioner.scala
        RandomPartitioner.scala
        CustomPartitioner.scala
        BoundedPriorityQueue.scala
        CustomPartitioner2.scala
        Converters.scala
        StatisticsEstimator.scala
    - launch.sh
    - build.sbt
  - multi-data-source-sparker
    - src
      - main
        scala-2.11
        DataStructures
        BlockDirty.scala
        UnweightedEdge.scala
        KeysCluster.scala
        MatchingEntities.scala
        WeightedEdge.scala
        BlockAbstract.scala
        BlockWithComparisonSize.scala
        ProfileTrait.scala
        Profile.scala
        BlockClean.scala
        KeyValue.scala
        EdgeTrait.scala
        ProfileBlocks.scala
        BlockBuildingMethods
        TokenBlocking.scala
        LSHMio.scala
        BlockingUtils.scala
        Experiments
        Main3.scala
        Main.scala
        BlockRefinementMethods
        BlockFiltering.scala
        PruningMethods
        PruningUtils.scala
        CommonNodePruning.scala
        WNPFor.scala
        CNPFor.scala
        PCPQBlockCalc.scala
        BlockPurging.scala
        Wrappers
        CSVWrapper.scala
        SerializedObjectLoader.scala
        SerializedProfilesLoader.scala
        WrapperTrait.scala
        JSONWrapper.scala
        Utilities
        MyPartitioner.scala
        RandomPartitioner.scala
        CustomPartitioner.scala
        BoundedPriorityQueue.scala
        CustomPartitioner2.scala
        Converters.scala
        StatisticsEstimator.scala
    - multidataset2
      - groundtruth.json
    - README.md
    - build.sbt
- README.md
- .gitignore

package SparkER.Wrappers

import java.io.{IOException, _}

import SparkER.DataStructures.Profile
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

/**
  * Created by Luca on 04/02/2017.
  * Classe per ricaricare un array di profili salvato in un file serializzato
  */
object SerializedProfilesLoader {

  /**
    * Carica i profili contenuti in un file serializzato.
    *
    * @param filePath    percorso file serializzato da caricare
    * @param chunkSize   siccome il file può essere molto grosso viene parallelizzato in RDD a pezzi e poi unito, questa è la dimensione di un pezzo
    * @param startIDFrom serve se si vogliono aumentare gli ID dei profili di un certo valore, secondo me è costoso, è meglio averli già salvati con gli id aumentati
    **/
  def loadProfiles(filePath: String, chunkSize: Int = 10000, startIDFrom: Long = -1, sourceId: Int = 0): RDD[Profile] = {
    val sc = SparkContext.getOrCreate()
    val data = loadSerializedObject(filePath).asInstanceOf[Array[Profile]]
    val profiles = sc.union(data.grouped(chunkSize).map(sc.parallelize(_)).toArray)

    if (startIDFrom > 0) {
      profiles.map(p => Profile(p.id + startIDFrom, p.attributes, p.originalID, sourceId))
    }
    else {
      profiles
    }
  }

  /**
    * Carica un oggetto serializzato
    **/
  def loadSerializedObject(fileName: String): Any = {
    var `object`: Any = null
    try {
      val file: InputStream = new FileInputStream(fileName)
      val buffer: InputStream = new BufferedInputStream(file)
      val input: ObjectInput = new ObjectInputStream(buffer)
      try {
        `object` = input.readObject
      } finally {
        input.close
      }
    }
    catch {
      case cnfEx: ClassNotFoundException => {
        System.err.println(fileName)
        cnfEx.printStackTrace
      }
      case ioex: IOException => {
        System.err.println(fileName)
        ioex.printStackTrace
      }
    }
    return `object`
  }
}