Hadoop處理數據遇到超大矩陣問題

時間 2021-01-09

原文原文鏈接

數據集如圖片所示，我需要用某個簡單公式計算兩兩數據之間的相似性，這樣就會計算出一個12乘12的方陣，在後面的計算中，不同的步驟會用到方陣中的若干行，請問如果是一個超大數據集怎麼辦？假如說我有100萬條數據，那麼這個方陣就是100萬乘100萬那麼大，相信再大的集羣也很難勝任這樣的任務，更別說後面還有複雜的計算，各位網友有什麼好的方法嗎？放在Hadoop中處理，應該如何設計算法邏輯？

>>阅读原文<<