大數據學習，涉及的知識點

時間 2019-11-11

標籤數據學習涉及知識简体版

原文原文鏈接

大數據技術都包括哪些，如何學習大數據技術。首先咱們要了解Java語言和Linux操做系統，這兩個是學習大數據的基礎，學習的順序不分先後。mysql

Java：只要瞭解一些基礎便可，作大數據不須要很深的Java技術，即便不懂Java也能夠學習大數據。算法

Linux：由於大數據相關軟件都是在Linux上運行的，因此Linux要學習的紮實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置，能少踩不少坑，學會shell就能看懂腳本這樣能更容易理解和配置大數據集羣。還能讓你對之後新出的大數據技術學習起來更快。sql

好說完基礎了，再說說還須要學習哪些大數據技術，能夠按我寫的順序學下去。shell

Hadoop：這是如今流行的大數據處理平臺幾乎已經成爲大數據的代名詞，因此這個是必學的。Hadoop裏面包括幾個組件HDFS、MapReduce和YARN，HDFS是存儲數據的地方就像咱們電腦的硬盤同樣文件都存儲在這個上面，MapReduce是對數據進行處理計算的，它有個特色就是無論多大的數據只要給它時間它就能把數據跑完，可是時間可能不是很快因此它叫數據的批處理。數據庫

想要在大數據這個領域汲取營養，讓本身壯大成長。分享方向，行動之前先分享下一個大數據交流分享資源羣870097548，歡迎想學習，想轉行的，進階中你加入學習。網絡

記住學到這裏能夠做爲你學大數據的一個節點。工具

Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，之後的Hbase也會用到它。它通常用來存放一些相互協做的信息，這些信息比較小通常不會超過1M，都是使用它的軟件對它有依賴，對於咱們我的來說只須要把它安裝正確，讓它正常的run起來就能夠了。oop

Mysql：咱們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql數據庫，由於一會裝hive的時候要用到，mysql須要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的權限，修改root的密碼，建立數據庫。這裏主要的是學習SQL的語法，由於hive的語法和這個很是類似。學習

Sqoop：這個是用於把Mysql裏的數據導入到Hadoop裏的。固然你也能夠不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是同樣的，固然生產環境中使用要注意Mysql的壓力。大數據

Hive：這個東西對於會SQL語法的來講就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapReduce程序。有的人說Pig那?它和Pig差很少掌握一個就能夠了。

Oozie：既然學會Hive了，我相信你必定須要這個東西，它能夠幫你管理你的Hive或者MapReduce、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關係。我相信你必定會喜歡上它的，否則你看着那一大堆腳本，和密密麻麻的crond是否是有種想屎的感受。

Hbase：這是Hadoop生態體系中的NOSQL數據庫，他的數據是按照key和value的形式存儲的而且key是惟一的，因此它能用來作數據的排重，它與MYSQL相比能存儲的數據量大不少。因此他常被用於大數據處理完成以後的存儲目的地。

Kafka：這是個比較好用的隊列工具，隊列是幹嘛的?排隊買票你知道不?數據多了一樣也須要排隊處理，這樣與你協做的其它同窗不會叫起來，你幹嘛給我這麼多的數據(好比好幾百G的文件)我怎麼處理得過來，你別怪他由於他不是搞大數據的，你能夠跟他講我把數據放在隊列裏你使用的時候一個個拿，這樣他就不在抱怨了立刻灰流流的去優化他的程序去了，由於處理不過來就是他的事情。而不是你給的問題。固然咱們也能夠利用這個工具來作線上實時數據的入庫或入HDFS，這時你能夠與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各類數據接受方(好比Kafka)的。

Spark：它是用來彌補基於MapReduce處理數據速度上的缺點，它的特色是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合作迭代運算，因此算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala均可以操做它，由於它們都是用JVM的。