唐宇迪-人工智能學習路線(上篇)

唐宇迪:51CTO微職位講師,計算機博士,人工智能專家html

內容梗概:介紹人工智能學習步驟和知識框架。人工智能的學習能夠拆分爲7步,此爲1-3步:上篇。git

第1步:必備基礎技能

要學人工智能(數據科學)這行仍是須要一些基本功的,最基礎也是最核心的就是Python和數學了!這兩兄弟入門起來並不難,先掌握基礎的邊用邊學也是能夠的!github

1)必備Python基礎

若是對Python不熟悉的同窗們,建議先看一下個人Python入門視頻課程,能夠快速入門!免費學習連接:https://edu.51cto.com/course/8399.html面試

  • 爲何是Python?
    最直接的解釋就是你們都用它!之前是面向對象編程,後來你們更喜歡面向複製粘貼編程,如今懶到面向github編程,確實如此,該偷懶就得偷懶,Python就是這個做用!後續全部的實戰內容都是基於Python,因此沒得選啦!算法

  • 須要安裝什麼?
    Anaconda就夠了!Anaconda就夠了!Anaconda就夠了!好了,說了三遍了,具體解釋你們參考上面傳送門課程就好編程

  • 用什麼編程工具開始?
    雖然你們都有趁手的兵器,可是我給你們準備的絕大多數課件都是基於jupyter notebook的,因此這個確定是必備的!

2)必備Python工具包

  • 什麼是工具包?
    工具包就是人家把功能都寫好了,我們直接調用就完事啦!數據處理,分析,建模等都有對應的工具包。對於學習來講並不用把這些工具包背下來,先熟悉起來,後續確定仍是要現用現查的。網絡

  • 哪些工具包是初學者必備的呢?
工具包名稱 功能概述
Numpy 矩陣計算必備!它是後續一切計算的核心,數據科學領域核心工具包
Pandas 數據處理必備!讀數據,處理數據,分析數據,非他不可!
Matplotlib 可視化必備!功能十分強大,沒有畫不出來的圖,分析展現就靠它了!
Seaborn 更簡單的可視化神器!一行代碼給你搞定一個可視化展現結果

3)必備數學基礎

  • 數學重要嗎?非學不可嗎?
    數學有多重要同窗們確定都十分清楚,尤爲是在人工智能(數據科學)領域,不懂數學想必步履維艱,不少同窗都問過我一個問題,工做中真能用上這麼多數學嗎?

我跟你們來解釋一下,人工智能這行發展至關迅速,在實際工做中確定要邊幹邊學,學什麼呢?想必就是當下的一些優秀論文了,若是連基本的數學公式都看不懂,那就不用再去談什麼高端技術了。作這行的同窗們確定都會有這樣一個想法,所謂的人工智能就是對數據作各類各樣的數學計算罷了!框架

  • 如何學數學?要定一個長期計劃嗎?
    對於數學我以爲並不須要從頭開始花大量時間一步一個腳印去學習,舉一個例子,我和我身邊的同事,朋友都是幹這行蠻久的了,數學不知道擼了多少遍了,考研時候也曾刷題無數,但也會遇到這樣的問題,不少知識點若是一段時間沒看很快仍是會忘記。

我最常作的一件事就是用到什麼查什麼,查找的過程其實也是學習進步過程。建議你們能夠快速過一遍經常使用的知識點(高數,線性,機率論中的基礎),這個過程當中千萬別去看各類解題過程,也不用管具體求解的方法,說白了就是隻要理解一個公式是作什麼的,有什麼用就足夠了,相似教材中的習題,練習冊上的求解這些通通不須要,之後也根本不會用筆去算這些麻煩事,把這個時間省下來去學習算法更划得來!機器學習

下面是課程中所設計的知識點,也是必備基礎ide

知識點 內容 做用
高等數學 高等數學基礎,微積分,泰勒公式與拉格朗日 機器學習公式推導必備
線性代數 線性代數基礎,特徵值與矩陣分解 算法求解必備
機率論 機率論基礎,隨機變量與機率估計,經常使用分佈 機器學習常常提這些詞
統計分析 迴歸分析,假設檢驗,相關分析,方差分析 數據分析必備

第2步:機器學習

人工智能領域最核心的就是機器學習了,不管你們後續想從事哪一個方向,確定都是先從機器學習開始!主要就兩件事,第一就是掌握經典算法原理,第二就是熟練應用Python工具包進行建模實戰!

1)機器學習算法

  • 算法要學什麼?
    理解機器學習算法是如何對數據進行操做從而完成建模求解過程,說白了就是熟悉下數學在算法中是如何應用的。重在理解便可!不要對一個問題鑽的沒完沒了,這樣太浪費時間了,沒準後續學習過程當中一會兒就迎刃而解了。

我以爲對算法的學習確定不止一遍,尤爲是準備面試就業的同窗們,二刷,三刷都是很正常的現象(曾經有同窗跟我說面試前一共刷了6遍課程)

  • 有了深度學習還須要機器學習嗎?
    深度學習能夠說是機器學習算法的一種,並非有了神經網絡其餘經典算法就不須要了,須要根據不一樣的任務和數據來選擇最合適的算法,學習路經確定是先從機器學習開始,其實掌握了這些經典算法以後再看神經網絡真的很簡單!

下面是課程中會講解的算法,也是你們必須掌握的!這裏沒有列出全部機器學習算法,由於有不少如今已經不實用了。

知識點 內容 概述
分類算法 邏輯迴歸,決策樹,支持向量機,集成算法,貝葉斯算法 準備面試的同窗們必須掌握
迴歸算法 線性迴歸,決策樹,集成算法 有些算法既能作分類也能作迴歸
聚類算法 k-means,dbscan等 無監督是實在沒標籤的時候才考慮的
降維算法 主成分分析,線性判別分析等 重在理解降維的思想
進階算法 GBDT提高算法,lightgbm,,EM算法,隱馬爾科夫模型 進階算法有時間精力的同窗們能夠挑戰

2)機器學習算法實驗分析

經過對比實驗分析經典算法建模方法及其參數對結果的影響,經過實驗與可視化展現理解算法中的參數與應用實例。

案例名稱 內容概述
線性迴歸實驗分析 掌握一元與多元線性迴歸,非線性迴歸方法,正則化懲罰的做用
模型評估方法 經常使用分類與迴歸算法評估方法對比,數據集切分實例
邏輯迴歸實驗分析 經典分類模型構造方法,決策樹邊界繪製方法
聚類算法實驗分析 無監督建模實例,聚類算法評估方法,無監督的做用與應用實例
決策樹實驗分析 樹模型可視化實例與構造方法,樹模型的分類與迴歸應用
集成算法實驗分析 集成方法應用實例與效果分析,常見集成策略對比
支持向量機實驗分析 SVM涉及參數與建模對比實驗
關聯規則實戰分析 關聯規則必備知識點與建模分析實例

3)機器學習算法代碼復現

爲了更好理解算法的機制從零開始復現經典算法,堅持不掉包原則,一步步完成算法所需全部模塊。

  • 爲何要本身復現代碼?有何價值呢?
    主要目的是更好的掌握算法的工做原理,重在練習!有時間的同窗們能夠本身復現一遍,時間緊的同窗就沒必要親力親爲了。
案例名稱 內容概述
線性迴歸代碼實現 分模塊構建算法經常使用函數
邏輯迴歸代碼實現 實例解讀邏輯迴歸實現方法
Kmeans代碼實現 很是簡單易懂的無監督算法
決策樹代碼實現 樹模型其實就是遞歸實現
神經網絡代碼實現 代碼量略大,建議debug模式學習
貝葉斯代碼實現 貝葉斯在文本任務中仍是比較好解釋
關聯規則代碼實現 經常使用的數據分析算法
打造音樂推薦系統 從零開始構造推薦系統模型

4)機器學習經典案例實戰

  • 實戰須要掌握哪些技能?
    在實戰中可能把數學知識點都弱化了,由於更多時候咱們都是使用現成的工具包來完成任務(調包俠)。這裏須要你們掌握的節能功能比較多,首先就是熟練使用這些經常使用工具包了,數據預處理,特徵工程,調參,驗證這些都是很是核心的步驟。

歸納來講就是要完成不一樣的任務所需流程和套路都是相似的,可是使用的方法和算法卻可能不一樣,這就須要你們不斷積累來豐富實戰經驗了。給同窗們提供的這些案例你們均可以看成是本身的實戰模板!

  • 這些案例能讓我收穫什麼?
    最重要的就是學會針對不一樣數據(數值,文本,圖像)如何進行預處理與分析,熟練應用工具包中各大核心函數進行調參與預處理,針對不一樣任務提出多種解決方案並進行實驗分析。總結起來就是多作實驗,多動手,代碼寫的多了天然就熟練了!
案例名稱 內容概述
K近鄰算法實戰 機器學習入門案例,掌握工具包應用於建模方法
交易數據異常檢測 十分重要,數據處理和建模策略的詳細分析對比
集成算法建模實戰 集成不用我多說了,必備核心策略
基於隨機森林的氣溫預測 隨機森林是機器學習中最經常使用的算法,詳細分析對比
新聞分類實戰 文本數據分析處理,基於貝葉斯算法展開建模實戰
聚類實踐分析 無監督應用實例
時間序列分析 時間序列數據製做方法,基於序列數據進行建模
用戶流失預警 我常常說夢幻西遊的用戶流失,這個只是個DEMO
使用lightgbm進行飯店流量預測 又是一個大殺器,比xgboost還虎
人口普查數據集項目實戰-收入預測 核心模板,數據分析,可視化啥的該有的都有
貝葉斯優化實戰 難度較大,貝葉斯優化工具包使用實例
文本特徵方法對比 文本數據經常使用特徵提取方法對比
製做本身經常使用工具包 本身作個包玩玩

5)機器學習實戰集錦

這裏還給你們準備了豐富的實戰項目,很是適合你們來練手!

案例名稱 內容概述
Python實戰關聯規則 用工具包來作關聯規則實在過輕鬆了
愛彼迎數據集分析與建模 房價數據集分析與建模實例
基於類似度的酒店推薦系統 來構建一個推薦系統完成酒店推薦
商品銷售額迴歸分析 銷售額預測,很常規的任務,常規套路搞定
絕地求生數據集探索分析與建模 絕地求生數據集,來看看你究竟被什麼人幹掉了
模型解釋方法實戰 建模後如何來解釋模型呢,這幾個工具包幫你搞定
天然語言處理必備工具包實戰 NLP經常使用工具包解讀,實例演示
銀行客戶還款可能性預測 銀行客戶數據來預測還款的可能性
圖像特徵聚類分析實踐 圖像數據如何進行聚類呢?
人口普查數據集項目實戰-收入預測 核心模板,數據分析,可視化啥的該有的都有

第3步:數據分析與挖掘

數據分析這個詞你們每天都在聽,要幹什麼呢?無非就是從數據中獲取有價值的信息,這其中方法與套路仍是很是多的。 這個方向不須要什麼理論積累,直接上數據,幹就得了!案例的積累就是學習過程!

1)數據挖掘實戰

  • 數據挖掘是什麼?和機器學習有什麼區別?
    簡單來講數據挖掘就是對海量數據應用機器學習算法來獲得想要的結果。在數據挖掘中重點並非機器學習算法的選擇,而是怎麼樣對數據進行處理才能獲得更好的預測結果,在這裏特徵工程與預處理將成爲核心解決方案。
案例名稱 內容概述
泰坦尼克號獲救預測 經典的kaggle競賽案例,入門數據挖掘的第一個實戰項目
數據特徵構建 特徵工程是數據挖掘的核心,基於sklearn講解多種特徵構建方法
用戶畫像實戰 用戶畫像想必你們都聽過了,如何應用數據來完成畫像呢?
集成策略實例 數據挖掘中選擇一般都選擇集成策略來更好的提高效果
Xgboost實戰 集成中的典型表明,競賽的大殺器
京東購買意向預測 經典預測問題,基於用戶歷史行爲數據完成預測任務
kaggle數據科學調查 可視化展現kaggle競賽中參賽人員狀況
房價預測 數據挖掘入門級別案例,快速掌握常規套路
電力敏感用戶分析 競賽實例,主要講解特徵工程的做用
fbprophet時間序列預測 時間序列預測很是實用的算法,用起來很是簡單

2)數據挖掘競賽優勝解決方案

  • 我又不參加競賽,爲何要看人家的解決方案呢?
    給你們選擇了天池,kaggle,融機等大型競賽案例,而且提供的代碼和方案均爲競賽時優勝者的解決思路。就比如要學下棋就得跟下的最好的玩本身才會提高,案例中均會講解優勝者的思路和總體解決方案並提供代碼實現。很是有助於你們提高!
案例名稱 內容概述
快手短視頻用戶活躍度分析 基於用戶的行爲數據來預測接下來的活躍程度
工業化工生產預測 對化工數據進行分析,建模預測生產效率
智慧城市-道路通行時間預測 很接地氣的競賽,基於道路數據預測通行時間
特徵工程建模可解釋工具包 數據挖掘中很難的一點就是進行特徵解釋,這些工具包很是實用
醫學糖尿病數據命名實體識別 命名實體識別算法講解與應用實例分析
貸款平臺風控模型-特徵工程 用圖模型來構建特徵工程,這套思路應用很廣
新聞關鍵詞抽取模型 關鍵詞抽取能夠說是NLP必備技能了
機器學習項目實戰模板 模板來了,之後有任務能夠套用了,方法都差很少
電力敏感用戶分析 競賽實例,主要講解特徵工程的做用

3)數據分析實戰

  • 數據分析的重點又是什麼呢?
    數據挖掘主要是建模來進行預測,數據分析則重在可視化展現,分析其中各項指標對結果的影響等。給你們選擇了一些經典分析案例,不少均可以直接看成模板來使用
案例名稱 內容概述
散點圖繪製技巧 都說了可視化是重點,畫圖確定必須的了
紐約出租車運行狀況分析建模 用了好多工具包,能夠熟悉下對地理數據如何進行分析與展現
基於統計分析的電影推薦任務 統計分析經常使用方法,還能作推薦
數據分析與機器學習模板 這個模板真的很是全面了,分析,展現,建模,評估,簡直一套龍了
數據降維 幾種經常使用的降維算法對比分析與展現
商品可視化展現與文本處理 文本數據預處理與可視化展現
多變量分析 多變量分析也是數據分析中常見的方法
商品訂單數據集分析 訂單數據集分析
KIVA貸款數據分析 貸款數據集分析

點擊圖片查看唐宇迪講師親自授課的微職位

唐宇迪-人工智能學習路線(上篇)

相關文章
相關標籤/搜索