Spark中分佈式矩陣使用

時間 2021-07-14

標籤 spark 欄目 Spark 简体版

原文原文鏈接

綜述最近在開發一版基於協同過濾算法的推薦系統，需要用到歷史7天的訪問數據，約1萬件商品，8千萬用戶。單機已經跑不動，只能轉向Spark。爲了計算相似度方便，就需要用到Spark中的分佈式矩陣。分佈式矩陣分佈式矩陣由長整型的行列索引值和雙精度浮點型的元素值組成。它可以分佈式地存儲在一個或多個RDD上，MLlib提供了三種分佈式矩陣的存儲方案：行矩陣RowMatrix，索引行矩陣Ind

>>阅读原文<<