1-Spark高級數據分析-第一章 大數據分析

1.1 數據科學麪臨的挑戰

  第一,成功的分析中絕大部分工做是數據預處理。
  第二,迭代與數據科學緊密相關。建模和分析常常須要對一個數據集進行屢次遍歷。這其中一方面是由機器學習算法和統計過程自己形成的。
  第三,構建完編寫卓越的模型不等於大功告成。數據科學的目標在於讓數據對不懂科學的人有用。算法

1.2 認識Apache Spark

  Spark繼承了MapReduce的線性擴展性和容錯性,同事對它作了一些重量級擴展。
  Spark摒棄了MapReduce先map再reduce這樣的嚴格方式。
  Spark擴展了前輩們的內存計算能力。
  在數據處理和ETL方面,Spark的目標是成爲大數據界的Python而不是大數據界的Matlab。
  Spark還緊密集成Hadoop生態系統裏的不少工具。他能鍍錫MapReduce支持的全部數據格式,能夠與Hadoop上的經常使用數據格式,如Avro和Parquet(固然也包括古老的CSV),進行交互。它能讀寫NoSQL數據庫,能連續從Flume何Kafka之類的系統讀取數據,能和Hive Metastore交互。
  Spark相比MapReduce仍然很年輕,其批處理能力仍然比不過MapReduce。數據庫

1.3 關於本書

  每一個實例都自成一體。機器學習

相關文章
相關標籤/搜索