零基礎學習大數據人工智能，學習路線篇！

時間 2019-11-24

標籤零基礎學習數據人工智能路線简体版

原文原文鏈接

大數據處理技術怎麼學習呢?首先咱們要學習Python語言和Linux操做系統，這兩個是學習大數據的基礎，學習的順序不分先後。php

Python：Python 的排名從去年開始就藉助人工智能持續上升，如今它已經成爲了語言排行第一名。html

從學習難易度來看，做爲一個爲「優雅」而生的語言，Python語法簡捷而清晰，對底層作了很好的封裝，是一種很容易上手的高級語言。在一些習慣於底層程序開發的「硬核」程序員眼裏，Python簡直就是一種「僞代碼」。html5

零基礎學習大數據人工智能，學習路線篇！在大數據和數據科學領域，Python幾乎是萬能的，任何集羣架構軟件都支持Python，Python也有很豐富的數據科學庫，因此Python不得不學。mysql

Linux：由於大數據相關軟件都是在Linux上運行的，因此Linux要學習的紮實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置，能少踩不少坑，學會 shell就能看懂腳本這樣能更容易理解和配置大數據集羣。還能讓你對之後新出的大數據技術學習起來更快。程序員

好說完基礎了，再說說還須要學習哪些大數據技術，能夠按我寫的順序學下去。算法

分享以前推薦一個大數據學習交流羣：722680258將來將是大數據時代，須要學習大數據的抓緊時間學習，羣內不按期分享視頻資料，歡迎加入sql

Hadoop：這是如今流行的大數據處理平臺幾乎已經成爲大數據的代名詞，因此這個是必學的。Hadoop裏面包括幾個組件HDFS、MapReduce和YARN，HDFS是存儲數據的地方就像咱們電腦的硬盤同樣文件都存儲在這個上面，MapReduce是對數據進行處理計算的，它有個特色就是無論多大的數據只要給它時間它就能把數據跑完，可是時間可能不是很快因此它叫數據的批處理。 YARN是體現Hadoop平臺概念的重要組件有了它大數據生態體系的其它軟件就能在hadoop上運行了，這樣就能更好的利用HDFS大存儲的優點和節省更多的資源好比咱們就不用再單獨建一個spark的集羣了，讓它直接跑在現有的hadoop yarn上面就能夠了。其實把Hadoop的這些組件學明白你就能作大數據的處理了，只不過你如今還可能對」大數據」到底有多大尚未個太清楚的概念，聽個人別糾結這個。等之後你工做了就會有不少場景遇到幾十T/幾百T大規模的數據，到時候你就不會以爲數據大真好，越大越有你頭疼的。固然別怕處理這麼大規模的數據，由於這是你的價值所在，讓那些個搞Javaee的php的html5的和DBA的羨慕去吧。shell

記住學到這裏能夠做爲你學大數據的一個節點。數據庫

Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，之後的Hbase也會用到它。它通常用來存放一些相互協做的信息，這些信息比較小通常不會超過1M，都是使用它的軟件對它有依賴，對於咱們我的來說只須要把它安裝正確，讓它正常的run起來就能夠了。網絡

Mysql：咱們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql數據庫，由於一會裝hive的時候要用到，mysql須要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的權限，修改root的密碼，建立數據庫。這裏主要的是學習SQL的語法，由於hive的語法和這個很是類似。

Sqoop：這個是用於把Mysql裏的數據導入到Hadoop裏的。固然你也能夠不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是同樣的，固然生產環境中使用要注意Mysql的壓力。

Hive：這個東西對於會SQL語法的來講就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapReduce程序。有的人說Pig那?它和Pig差很少掌握一個就能夠了。

Oozie：既然學會Hive了，我相信你必定須要這個東西，它能夠幫你管理你的Hive或者MapReduce、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關係。我相信你必定會喜歡上它的，否則你看着那一大堆腳本，和密密麻麻的crond是否是有種想屎的感受。

Hbase：這是Hadoop生態體系中的NOSQL數據庫，他的數據是按照key和value的形式存儲的而且key是惟一的，因此它能用來作數據的排重，它與MYSQL相比能存儲的數據量大不少。因此他常被用於大數據處理完成以後的存儲目的地。

Kafka：這是個比較好用的隊列工具，隊列是幹嘛的?排隊買票你知道不?數據多了一樣也須要排隊處理，這樣與你協做的其它同窗不會叫起來，你幹嘛給我這麼多的數據(好比好幾百G的文件)我怎麼處理得過來，你別怪他由於他不是搞大數據的，你能夠跟他講我把數據放在隊列裏你使用的時候一個個拿，這樣他就不在抱怨了立刻灰流流的去優化他的程序去了，由於處理不過來就是他的事情。而不是你給的問題。固然咱們也能夠利用這個工具來作線上實時數據的入庫或入HDFS，這時你能夠與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各類數據接受方(好比Kafka)的。

Spark：它是用來彌補基於MapReduce處理數據速度上的缺點，它的特色是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合作迭代運算，因此算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala均可以操做它，由於它們都是用JVM的。

會這些東西你就成爲一個專業的大數據開發工程師了，月薪2W都是小毛毛雨。

後續提升：大數據結合人工智能達到真正的數據科學家，打通了數據科學的任督二脈，在公司是技術專家級別，這時候月薪再次翻倍且成爲公司核心骨幹。

機器學習(Machine Learning, ML)：是一門多領域交叉學科，涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。它是人工智能的核心，是使計算機具備智能的根本途徑，其應用遍佈人工智能的各個領域，它主要使用概括、綜合而不是演繹。機器學習的算法基本比較固定了，學習起來相對容易。

深度學習(Deep Learning, DL)：深度學習的概念源於人工神經網絡的研究，最近幾年發展迅猛。深度學習應用的實例有AlphaGo、人臉識別、圖像檢測等。是國內外稀缺人才，可是深度學習相對比較難，算法更新也比較快，須要跟隨有經驗的老師學習。

最快的學習方法，就是師從行業專家，學習老師多年積累的經驗，本身少走彎路達到事半功倍的效果。自古以來，名師出高徒。