scala source code of ALSRecommender

Project: albedo (GitHub Link)

albedo-master
- albedo
  - wsgi.py
  - urls.py
  - __init__.py
  - settings.py
- src
  - main
    - scala
      - org
        apache
        spark
        ml
        feature
        SimpleVectorAssembler.scala
        FuncTransformer.scala
      - ws
        vinta
        albedo
        recommenders
        ALSRecommender.scala
        Recommender.scala
        CurationRecommender.scala
        BoundedPriorityQueue.scala
        ContentRecommender.scala
        PopularityRecommender.scala
        ALSRecommenderCV.scala
        Word2VecCorpusBuilder.scala
        transformers
        NegativeBalancer.scala
        SnowballStemmer.scala
        HanLPTokenizer.scala
        UserRepoTransformer.scala
        RankingMetricFormatter.scala
        IntermediateCacher.scala
        utils
        DatasetUtils.scala
        ModelUtils.scala
        SchemaUtils.scala
        ALSRecommenderBuilder.scala
        UserProfileBuilder.scala
        evaluators
        RankingEvaluator.scala
        closures
        StringFunctions.scala
        DBFunctions.scala
        UDFs.scala
        RepoProfileBuilder.scala
        Playground.scala
        LogisticRegressionRankerCV.scala
        CurationRecommenderBuilder.scala
        ContentRecommenderBuilder.scala
        PopularityRecommenderBuilder.scala
        settings
        package.scala
        schemas
        package.scala
        LogisticRegressionRanker.scala
    - python
      - deps
        albedo_toolkit
        transformers.py
        evaluators.py
        common.py
        __init__.py
      - train_als.py
      - cross_validate_als.py
  - test
    - scala
      - ws
        vinta
        albedo
        AlbedoTest.scala
- Makefile
- log4j.properties
- pom.xml
- LICENSE
- .docker-assets
  - wait_container.sh
  - django_start.sh
  - django.env
  - mysql.env
  - elasticsearch.yml
  - django_bash_completion.sh
- manage.py
- albedo.iml
- README.md
- requirements.txt
- .idea
  - compiler.xml
  - modules.xml
  - codeStyleSettings.xml
  - encodings.xml
  - misc.xml
  - vcs.xml
  - scala_compiler.xml
  - runConfigurations
    - RepoProfileBuilder.xml
    - Word2VecCorpusBuilder.xml
    - LogisticRegressionRanker.xml
    - ALSRecommenderBuilder.xml
    - UserProfileBuilder.xml
    - PopularityRecommenderBuilder.xml
    - CurationRecommenderBuilder.xml
    - Playground.xml
    - ContentRecommenderBuilder.xml
    - LogisticRegressionRankerCV.xml
- Dockerfile
- app
  - apps.py
  - templates
    - index.html
  - mappings.py
  - models.py
  - views.py
  - urls.py
  - tests.py
  - __init__.py
  - migrations
    - 0001_initial.py
    - __init__.py
  - admin.py
  - utils_repo.py
  - management
    - commands
      - train_item_cf.py
      - train_content_based.py
      - train_graphlab.py
      - collect_data.py
      - train_user_cf.py
      - __init__.py
      - sync_data_to_es.py
      - drop_data.py
    - __init__.py
  - utils_timing.py
- .gitignore
- .dockerignore
- docker-compose.yml

package ws.vinta.albedo.recommenders

import com.github.fommil.netlib.F2jBLAS
import org.apache.spark.ml.recommendation.ALSModel
import org.apache.spark.ml.util.Identifiable
import org.apache.spark.sql.functions._
import org.apache.spark.sql.{DataFrame, Dataset}
import ws.vinta.albedo.settings

class ALSRecommender(override val uid: String) extends Recommender {

  def this() = {
    this(Identifiable.randomUID("alsRecommender"))
  }

  private def alsModel: ALSModel = {
    val alsModelPath = s"${settings.dataDir}/${settings.today}/alsModel.parquet"
    ALSModel.load(alsModelPath)
  }

  def blockify(factors: Dataset[(Int, Array[Float])], blockSize: Int = 4096): Dataset[Seq[(Int, Array[Float])]] = {
    import factors.sparkSession.implicits._
    factors.mapPartitions(_.grouped(blockSize))
  }

  override def source = "als"

  override def recommendForUsers(userDF: Dataset[_]): DataFrame = {
    transformSchema(userDF.schema)

    import userDF.sparkSession.implicits._

    val activeUsers = userDF.select(col($(userCol)).alias("id"))
    val userFactors = alsModel.userFactors.join(activeUsers, Seq("id"))
    val itemFactors = alsModel.itemFactors
    val rank = alsModel.rank
    val num = $(topK)

    val userFactorsBlocked = blockify(userFactors.as[(Int, Array[Float])])
    val itemFactorsBlocked = blockify(itemFactors.as[(Int, Array[Float])])
    val ratings = userFactorsBlocked.crossJoin(itemFactorsBlocked)
      .as[(Seq[(Int, Array[Float])], Seq[(Int, Array[Float])])]
      .flatMap { case (srcIter, dstIter) =>
        val m = srcIter.size
        val n = math.min(dstIter.size, num)
        val output = new Array[(Int, Int, Float)](m * n)
        var i = 0
        val pq = new BoundedPriorityQueue[(Int, Float)](num)(Ordering.by(_._2))
        srcIter.foreach { case (srcId, srcFactor) =>
          dstIter.foreach { case (dstId, dstFactor) =>
            val score = new F2jBLAS().sdot(rank, srcFactor, 1, dstFactor, 1)
            pq += dstId -> score
          }
          pq.foreach { case (dstId, score) =>
            output(i) = (srcId, dstId, score)
            i += 1
          }
          pq.clear()
        }
        output.toSeq
      }

    ratings
      .toDF($(userCol), $(itemCol), $(scoreCol))
      .withColumn($(sourceCol), lit(source))
  }
}