原文連接:Step by step approach to perform data analysis using Python
譯文連接:使用Python一步一步地來進行數據分析--By Michael翔python
你已經決定來學習Python,可是你以前沒有編程經驗。所以,你經常對從哪兒着手而感到困惑,這麼多Python的知識須要去學習。如下這些是那些開始使用Python數據分析的初學者的廣泛遇到的問題:git
當開始學習一項新技術時,這些都是能夠理解的困惑,這是《在20小時內學會任何東西》的做者所說的。不要懼怕,我將會告訴你怎樣快速上手,而沒必要成爲一個Python編程「忍者」。github
在開始使用Python以前,我對用Python進行數據分析有一個誤解:我必須不得不對Python編程特別精通。所以,我參加了Udacity的Python編程入門課程,完成了code academy上的Python教程,同時閱讀了若干本Python編程書籍。就這樣持續了3個月(平均天天3個小時),我那會兒經過完成小的軟件項目來學習Python。敲代碼是快樂的事兒,可是個人目標不是去成爲一個Python開發人員,而是要使用Python數據分析。以後,我意識到,我花了不少時間來學習用Python進行軟件開發,而不是數據分析。編程
在幾個小時的深思熟慮以後,我發現,我須要學習5個Python庫來有效地解決一系列的數據分析問題。而後,我開始一個接一個的學習這些庫。segmentfault
在我看來,精通用Python開發好的軟件纔可以高效地進行數據分析,這觀點是沒有必要的。數組
有許多優秀的Python書籍和在線課程,然而我不併不推薦它們中的一些,由於,有些是給大衆準備的而不是給那些用來數據分析的人準備的。一樣也有許多書是「用Python科學編程」的,但它們是面向各類數學爲導向的主題的,而不是成爲爲了數據分析和統計。不要浪費浪費你的時間去閱讀那些爲大衆準備的Python書籍。數據結構
在進一步繼續以前,首先設置好你的編程環境,而後學習怎麼使用IPython notebookapp
從code academy開始學起,完成上面的全部練習。天天投入3個小時,你應該在20天內完成它們。Code academy涵蓋了Python基本概念。可是,它不像Udacity那樣以項目爲導向;不要緊,由於你的目標是從事數據科學,而不是使用Python開發軟件。函數
當完成了code academy練習以後,看看這個Ipython notebook:工具
Python必備教程(在總結部分我已經提供了下載連接)。
它包括了code academy中沒有提到的一些概念。你能在1到2小時內學完這個教程。
如今,你知道足夠的基礎知識來學習Python庫了。
首先,開始學習Numpy吧,由於它是利用Python科學計算的基礎包。對Numpy好的掌握將會幫助你有效地使用其餘工具例如Pandas。
我已經準備好了IPython筆記,這包含了Numpy的一些基本概念。這個教程包含了Numpy中最頻繁使用的操做,例如,N維數組,索引,數組切片,整數索引,數組轉換,通用函數,使用數組處理數據,經常使用的統計方法,等等。
Pandas包含了高級的數據結構和操做工具,它們使得Python數據分析更加快速和容易。
教程包含了series, data frams,從一個axis刪除數據,缺失數據處理,等等。
這是一個分爲四部分的Matplolib教程。
第一部分介紹了Matplotlib基本功能,基本figure類型。
包含了怎麼調整figure的樣式和顏色,例如:makers,line,thicness,line patterns和color map.
圖的註釋--包含若干圖,控制座標軸範圍,長款比和座標軸。
包含了一些複雜圖形。
MatplotLib Part4
你學習Python時能犯的最簡單的錯誤之一就是同時去嘗試學習過多的庫。當你努力一會兒學會每樣東西時,你會花費不少時間來切換這些不一樣概念之間,變得沮喪,最後轉移到其餘事情上。
因此,堅持關注這個過程:
你能夠從個人github上下載這些文件。這些文件是以.ipynb格式存放。這些文件也包含了我用來講明的一些圖片。
博客連接: