TDW千臺Spark千億節點對相似度計算

相似度計算在信息檢索、數據挖掘等領域有着廣泛的應用,是目前推薦引擎中的重要組成部分。隨着互聯網用戶數目和內容的爆炸性增長,對大規模數據進行相似度計算的需求變得日益強烈。在傳統的MapReduce框架下進行相似度計算會引入大量的網絡開銷,導致性能低下。我們藉助於Spark對內存計算的支持以及圖劃分的思想,大大降低了網絡數據傳輸量;並通過在系統層次對Spark的改進優化,使其可以穩定地擴展至上千臺規模
相關文章
相關標籤/搜索