Spark的快難道是以喪失正確性爲代價的?

是的,Spark很快。但是它不保證它算出的值是對的,哪怕你要做的只是簡單的整數累加。 Spark最著名的一篇論文是:《Spark: Cluster Computing with Working Sets》。當你讀它的時候你需要明白:文中代碼不保證計算結果是正確的。具體來說,它的Logistic Regression的代碼在map階段用到了accumulator。下面解釋爲什麼這麼做是錯誤的。 假設
相關文章
相關標籤/搜索