參考:
SparkML之推薦算法(一)ALS --有個比較詳細的講解,包含blocks使用。
Spark ALS源碼總結算法
//TODO 源碼,集羣嘗試、研究blocks使用原理及做用。 官方解釋:numBlocks is the number of blocks used to parallelize computation (set to -1 to auto-configure). 即bloclk用於並行計算。並行計算量的大小。 block設定小值,集羣中咱們設置spark.default.parallelism=10 或者blocks=2。大大下降了運算時間,從6min下降到40s。可是這是爲何? 由於RDD的lineage?