Spark機器學習第5課:深入理解RDD、DataFrame、DataSet、Structured

  RDD的操作是以Partition爲單位,輸入的是Partition,輸出的是itertor 它的計算是不透明,它是什麼類型,從用戶應用程序的角度來講,類型是不透明的 由此我們無法做更多的細緻優化,如果我們能清楚地知道類型,就能做更多的限制,也就有了更多優化的空間   以下是一些圖的對比:   從結構化的角度來看,SQL只能在runtime才能發現語法錯誤和類型錯誤, DataFrane能在編
相關文章
相關標籤/搜索