TDW千臺Spark千億節點對相似度計算

時間 2021-01-21

原文原文鏈接

相似度計算在信息檢索、數據挖掘等領域有着廣泛的應用，是目前推薦引擎中的重要組成部分。隨着互聯網用戶數目和內容的爆炸性增長，對大規模數據進行相似度計算的需求變得日益強烈。在傳統的MapReduce框架下進行相似度計算會引入大量的網絡開銷，導致性能低下。我們藉助於Spark對內存計算的支持以及圖劃分的思想，大大降低了網絡數據傳輸量；並通過在系統層次對Spark的改進優化，使其可以穩定地擴展至上千臺規模

>>阅读原文<<