1. 官網
http://spark.apache.orghtml
有各類資源連接:數據庫
2. 總結得很好的我的博客
【從零開始學Hadoop系列】
1)初識
http://blog.csdn.net/u010168160/article/details/51314600
2)淺析HDFS(一)
http://blog.csdn.net/u010168160/article/details/51345107
3)淺析HDFS(二)
http://blog.csdn.net/u010168160/article/details/51351670
4)淺析HDFS(三)
http://blog.csdn.net/u010168160/article/details/51352221
5)淺析MapReduce(一)
http://blog.csdn.net/u010168160/article/details/51438897
6)淺析MapReduce(二)
http://blog.csdn.net/u010168160/article/details/51439402apache
【傾情大奉送--Spark入門實戰系列】
http://www.cnblogs.com/shishanyuan/p/4699644.html分佈式
(做者已出書)工具
3. 名詞解釋:
shuffle ['ʃʌf(ə)l] n.洗牌;
fetch [fetʃ] v.(去)拿來;提取oop
RDD - Resilient Distributes Dataset,彈性分佈式數據集。
resilient [rɪ'zɪljənt] adj.可迅速恢復的;有適應力的;有彈性(或彈力)的;
詳見:
深刻理解RDD - http://blog.csdn.net/u010719504/article/details/51592624
Spark RDD究竟是個什麼東西 - https://www.cnblogs.com/jechedo/p/5732951.htmlfetch
HA - High Availability,高可用優化
DAG圖
Directed Acyclic Graph,意思是有向無環圖,所謂有向無環圖是指任意一條邊有方向,且不存在環路的圖。spa
即席查詢(Ad Hoc)
是用戶根據本身的需求,靈活的選擇查詢條件,系統可以根據用戶的選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不一樣是普通的應用查詢是定製開發的,而即席查詢是由用戶自定義查詢條件的。
在數據倉庫領域有一個概念叫Ad hoc queries,中文通常翻譯爲「即席查詢」。即席查詢是指那些用戶在使用系統時,根據本身當時的需求定義的查詢。即席查詢生成的方式不少,最多見的就是使用即席查詢工具。通常的數據展示工具都會提供即席查詢的功能。一般的方式是,將數據倉庫中的維度表和事實表映射到語義層,用戶能夠經過語義層選擇表,創建表間的關聯,最終生成SQL語句。即席查詢與一般查詢從SQL語句上來講,並無本質的差異。它們之間的差異在於,一般的查詢在系統設計和實施時是已知的,全部咱們能夠在系統實施時經過創建索引、分區等技術來優化這些查詢,使這些查詢的效率很高。而即席查詢是用戶在使用時臨時生產的,系統沒法預先優化這些查詢,因此即席查詢也是評估數據倉庫的一個重要指標。即席查詢的位置一般是在關係型的數據倉庫中,即在EDW或者ROLAP中。多維數據庫有本身的存儲方式,對即席查詢和一般查詢沒有區別。在一個數據倉庫系統中,即席查詢使用的越多,對數據倉庫的要求就越高,對數據模型的對稱性的要求也越高。對稱性的數據模型對全部的查詢都是相同的,這也是維度建模的一個優勢。.net