原文地址:Comprehensive learning path – Data Science in Pythonhtml
假如你想成爲一個數據科學家,或者已是數據科學家的你想擴展你的技能,那麼你已經來對地方了。本文的目的就是給數據分析方面的Python新手提供一個完整的學習路徑。該路徑提供了你須要學習的利用Python進行數據分析的全部步驟的完整概述。若是你已經有一些相關的背景知識,或者你不須要路徑中的全部內容,你能夠隨意調整你本身的學習路徑,而且讓你們知道你是如何調整的。python
開始學習旅程以前,先回答第一個問題:爲何使用Python?或者,Python如何發揮做用? 觀看DataRobot創始人Jeremy在PyCon Ukraine 2014上的30分鐘演講,來了解Python是多麼的有用。git
如今你已經決心要好好學習了,也是時候設置你的機器環境了。最簡單的方法就是從http://Continuum.io 上下載分發包Anaconda。Anaconda將你之後可能會用到的大部分的東西進行了打包。採用這個方法的主要缺點是,即便可能已經有了可用的底層庫的更新,你仍然須要等待Continuum去更新Anaconda包。固然若是你是一個初學者,這應該沒什麼問題。 若是你在安裝過程當中遇到任何問題,你能夠在這裏找到不一樣操做系統下更詳細的安裝說明。github
你應該先去了解Python語言的基礎知識、庫和數據結構。Codecademy上一些免費的Python課是你最好的選擇之一。本課程的重點是如何開始使用Python進行數據科學,完成這個課程後,您應該能夠熟悉python語言的基本概念,並利用他寫一些小腳本。正則表達式
做業:參加由分析公司Vidhya提供的免費Python課程算法
替代資源:若是你不喜歡交互編碼這種學習方式,你也能夠學習谷歌的Python課程。這個2天的課程系列不但包含前邊提到的Python知識,還包含了一些後邊將要討論的東西。express
你會常常用到正則表達式來進行數據清理,尤爲是當你處理文本數據的時候。學習正則表達式的最好方法是參加谷歌的Python課程,它會讓你能更容易的使用正則表達式。數組
做業:作關於小孩名字的正則表達式練習。數據結構
若是你還須要更多的練習,你能夠參與這個文本清理的教程。數據預處理中涉及到的各個處理步驟對你來講都會是不小的挑戰。機器學習
從這步開始,學習旅程將要變得有趣了。下邊是對各個庫的簡介,你能夠進行一些經常使用的操做:
根據NumPy教程進行完整的練習,特別要練習數組arrays。這將會爲下邊的學習旅程打好基礎。
接下來學習Scipy教程。看完Scipy介紹和基礎知識後,你能夠根據本身的須要學習剩餘的內容。
這裏並不須要學習Matplotlib教程。對於咱們這裏的需求來講,Matplotlib的內容過於普遍。取而代之的是你能夠學習這個筆記中前68行的內容。
最後學習Pandas。Pandas爲Python提供DataFrame功能(相似於R)。這也是你應該花更多的時間練習的地方。Pandas會成爲全部中等規模數據分析的最有效的工具。做爲開始,你能夠先看一個關於Pandas的10分鐘簡短介紹,而後學習一個更詳細的Pandas教程。
您還能夠學習兩篇博客Exploratory Data Analysis with Pandas和Data munging with Pandas中的內容。
額外資源:
做業:嘗試解決哈佛CS109課程的這個任務。
參加CS109的這個課程。你能夠跳過前邊的2分鐘,但以後的內容都是乾貨。你能夠根據這些做業來完成課程的學習。
如今,咱們要開始學習整個過程的實質部分了。Scikit-learn是機器學習領域最有用的Python庫。能夠看看該庫的簡要概述。完成哈佛CS109課程的課程10到課程18,這些課程包含了機器學習的概述,同時介紹了像迴歸、決策樹、總體模型等監督算法以及聚類等非監督算法。你能夠根據各個課程的做業來完成相應的課程。
額外資源:
恭喜你,你已經完成了整個學習旅程。你如今已經學會了你須要的全部技能。
如今就是如何練習的問題了,還有比經過在DataHack上和數據科學家們進行競賽來練習更好的方式嗎?(這裏應該是做者作了一些更改,記得之前的版本,推薦的是Kaggle。不過都是不錯的實戰平臺)
如今你已經學習了大部分的機器學習技術,是時候關注一下深度學習了。極可能你已經知道什麼是深度學習,可是若是你仍然須要一個簡短的介紹,能夠看這裏。
我本身也是深度學習的新手,因此請有選擇性的採納下邊的一些建議。deeplearning.net上有深度學習方面最全面的資源,在這裏你會發現全部你想要的東西—講座、數據集、挑戰、教程等。
附言:這篇文章雖然是2015年的,可是對於剛入門python,同時想學數據科學的同窗仍是頗有參考價值的。並且點開原文後,做者有在開頭更新了一版2019年學習路徑,有興趣的也能夠去看看。