Hadoop處理數據遇到超大矩陣問題

數據集如圖片所示,我需要用某個簡單公式計算兩兩數據之間的相似性,這樣就會計算出一個12乘12的方陣,在後面的計算中,不同的步驟會用到方陣中的若干行,請問如果是一個超大數據集怎麼辦?假如說我有100萬條數據,那麼這個方陣就是100萬乘100萬那麼大,相信再大的集羣也很難勝任這樣的任務,更別說後面還有複雜的計算,各位網友有什麼好的方法嗎?放在Hadoop中處理,應該如何設計算法邏輯?
相關文章
相關標籤/搜索