scala source code of CurationRecommender

Project: albedo (GitHub Link)

albedo-master
- albedo
  - wsgi.py
  - urls.py
  - __init__.py
  - settings.py
- src
  - main
    - scala
      - org
        apache
        spark
        ml
        feature
        SimpleVectorAssembler.scala
        FuncTransformer.scala
      - ws
        vinta
        albedo
        recommenders
        ALSRecommender.scala
        Recommender.scala
        CurationRecommender.scala
        BoundedPriorityQueue.scala
        ContentRecommender.scala
        PopularityRecommender.scala
        ALSRecommenderCV.scala
        Word2VecCorpusBuilder.scala
        transformers
        NegativeBalancer.scala
        SnowballStemmer.scala
        HanLPTokenizer.scala
        UserRepoTransformer.scala
        RankingMetricFormatter.scala
        IntermediateCacher.scala
        utils
        DatasetUtils.scala
        ModelUtils.scala
        SchemaUtils.scala
        ALSRecommenderBuilder.scala
        UserProfileBuilder.scala
        evaluators
        RankingEvaluator.scala
        closures
        StringFunctions.scala
        DBFunctions.scala
        UDFs.scala
        RepoProfileBuilder.scala
        Playground.scala
        LogisticRegressionRankerCV.scala
        CurationRecommenderBuilder.scala
        ContentRecommenderBuilder.scala
        PopularityRecommenderBuilder.scala
        settings
        package.scala
        schemas
        package.scala
        LogisticRegressionRanker.scala
    - python
      - deps
        albedo_toolkit
        transformers.py
        evaluators.py
        common.py
        __init__.py
      - train_als.py
      - cross_validate_als.py
  - test
    - scala
      - ws
        vinta
        albedo
        AlbedoTest.scala
- Makefile
- log4j.properties
- pom.xml
- LICENSE
- .docker-assets
  - wait_container.sh
  - django_start.sh
  - django.env
  - mysql.env
  - elasticsearch.yml
  - django_bash_completion.sh
- manage.py
- albedo.iml
- README.md
- requirements.txt
- .idea
  - compiler.xml
  - modules.xml
  - codeStyleSettings.xml
  - encodings.xml
  - misc.xml
  - vcs.xml
  - scala_compiler.xml
  - runConfigurations
    - RepoProfileBuilder.xml
    - Word2VecCorpusBuilder.xml
    - LogisticRegressionRanker.xml
    - ALSRecommenderBuilder.xml
    - UserProfileBuilder.xml
    - PopularityRecommenderBuilder.xml
    - CurationRecommenderBuilder.xml
    - Playground.xml
    - ContentRecommenderBuilder.xml
    - LogisticRegressionRankerCV.xml
- Dockerfile
- app
  - apps.py
  - templates
    - index.html
  - mappings.py
  - models.py
  - views.py
  - urls.py
  - tests.py
  - __init__.py
  - migrations
    - 0001_initial.py
    - __init__.py
  - admin.py
  - utils_repo.py
  - management
    - commands
      - train_item_cf.py
      - train_content_based.py
      - train_graphlab.py
      - collect_data.py
      - train_user_cf.py
      - __init__.py
      - sync_data_to_es.py
      - drop_data.py
    - __init__.py
  - utils_timing.py
- .gitignore
- .dockerignore
- docker-compose.yml

package ws.vinta.albedo.recommenders

import org.apache.spark.ml.util.Identifiable
import org.apache.spark.sql.functions._
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
import ws.vinta.albedo.utils.DatasetUtils._

class CurationRecommender(override val uid: String) extends Recommender {

  def this() = {
    this(Identifiable.randomUID("curationRecommender"))
  }

  override def source = "curation"

  override def recommendForUsers(userDF: Dataset[_]): DataFrame = {
    transformSchema(userDF.schema)

    implicit val spark: SparkSession = userDF.sparkSession
    import spark.implicits._

    val rawStarringDS = loadRawStarringDS().cache()

    val curatorIds = Array(652070, 1912583, 59990, 646843, 28702) // vinta, saiday, tzangms, fukuball, wancw
    val curatedRepoDF = rawStarringDS
      .select($"repo_id", $"starred_at")
      .where($"user_id".isin(curatorIds: _*))
      .groupBy($"repo_id")
      .agg(max($"starred_at").alias("starred_at"))
      .orderBy($"starred_at".desc)
      .limit($(topK))
      .cache()

    def calculateScoreUDF = udf((starred_at: java.sql.Timestamp) => {
      starred_at.getTime / 1000.0
    })

    userDF
      .select($(userCol))
      .crossJoin(curatedRepoDF)
      .select(col($(userCol)), $"repo_id".alias($(itemCol)), calculateScoreUDF($"starred_at").alias($(scoreCol)))
      .withColumn($(sourceCol), lit(source))
  }
}