[翻譯]使用Python一步一步地來進行數據分析

原文連接:Step by step approach to perform data analysis using Python
譯文連接:使用Python一步一步地來進行數據分析--By Michael翔python

你已經決定來學習Python,可是你以前沒有編程經驗。所以,你經常對從哪兒着手而感到困惑,這麼多Python的知識須要去學習。如下這些是那些開始使用Python數據分析的初學者的廣泛遇到的問題:git

  • 須要多久來學習Python?
  • 我須要學習Python到什麼程度才能來進行數據分析呢?
  • 學習Python最好的書或者課程有哪些呢?
  • 爲了處理數據集,我應該成爲一個Python的編程專家嗎?

當開始學習一項新技術時,這些都是能夠理解的困惑,這是《在20小時內學會任何東西》的做者所說的。不要懼怕,我將會告訴你怎樣快速上手,而沒必要成爲一個Python編程「忍者」。github

不要犯我以前犯過的錯

在開始使用Python以前,我對用Python進行數據分析有一個誤解:我必須不得不對Python編程特別精通。所以,我參加了Udacity的Python編程入門課程,完成了code academy上的Python教程,同時閱讀了若干本Python編程書籍。就這樣持續了3個月(平均天天3個小時),我那會兒經過完成小的軟件項目來學習Python。敲代碼是快樂的事兒,可是個人目標不是去成爲一個Python開發人員,而是要使用Python數據分析。以後,我意識到,我花了不少時間來學習用Python進行軟件開發,而不是數據分析。編程

在幾個小時的深思熟慮以後,我發現,我須要學習5個Python庫來有效地解決一系列的數據分析問題。而後,我開始一個接一個的學習這些庫。segmentfault

在我看來,精通用Python開發好的軟件纔可以高效地進行數據分析,這觀點是沒有必要的。數組

忽略給大衆的資源

有許多優秀的Python書籍和在線課程,然而我不併不推薦它們中的一些,由於,有些是給大衆準備的而不是給那些用來數據分析的人準備的。一樣也有許多書是「用Python科學編程」的,但它們是面向各類數學爲導向的主題的,而不是成爲爲了數據分析和統計。不要浪費浪費你的時間去閱讀那些爲大衆準備的Python書籍。數據結構

在進一步繼續以前,首先設置好你的編程環境,而後學習怎麼使用IPython notebookapp

學習途徑

code academy開始學起,完成上面的全部練習。天天投入3個小時,你應該在20天內完成它們。Code academy涵蓋了Python基本概念。可是,它不像Udacity那樣以項目爲導向;不要緊,由於你的目標是從事數據科學,而不是使用Python開發軟件。函數

當完成了code academy練習以後,看看這個Ipython notebook:工具

Python必備教程(在總結部分我已經提供了下載連接)。

它包括了code academy中沒有提到的一些概念。你能在1到2小時內學完這個教程。

如今,你知道足夠的基礎知識來學習Python庫了。

Numpy

首先,開始學習Numpy吧,由於它是利用Python科學計算的基礎包。對Numpy好的掌握將會幫助你有效地使用其餘工具例如Pandas。

我已經準備好了IPython筆記,這包含了Numpy的一些基本概念。這個教程包含了Numpy中最頻繁使用的操做,例如,N維數組,索引,數組切片,整數索引,數組轉換,通用函數,使用數組處理數據,經常使用的統計方法,等等。

Numpy Basics Tutorial

Pandas

Pandas包含了高級的數據結構和操做工具,它們使得Python數據分析更加快速和容易。

教程包含了series, data frams,從一個axis刪除數據,缺失數據處理,等等。

Pandas Basics Tutorial

Matplotlib

這是一個分爲四部分的Matplolib教程。

1st 部分:

第一部分介紹了Matplotlib基本功能,基本figure類型。

MatplotLib Part 1

2nd 部分:

包含了怎麼調整figure的樣式和顏色,例如:makers,line,thicness,line patterns和color map.

MatplotLib Part2

3rd 部分:

圖的註釋--包含若干圖,控制座標軸範圍,長款比和座標軸。

MatplotLib Part3

4th 部分:

包含了一些複雜圖形。
MatplotLib Part4

總結

你學習Python時能犯的最簡單的錯誤之一就是同時去嘗試學習過多的庫。當你努力一會兒學會每樣東西時,你會花費不少時間來切換這些不一樣概念之間,變得沮喪,最後轉移到其餘事情上。

因此,堅持關注這個過程:

  • 理解Python基礎
  • 學習Numpy
  • 學習Pandas
  • 學習Matplolib

下載連接:

你能夠從個人github上下載這些文件。這些文件是以.ipynb格式存放。這些文件也包含了我用來講明的一些圖片。

  1. Python and Numpy Basics
  2. Pandas Basics
  3. Matplotlib

最後

博客連接:

相關文章
相關標籤/搜索