近年來,數據分析師成爲了一個高薪而又熱門的職業,若是你想跨入這一行又沒什麼編程基礎,那麼學習Python絕對是一個好的選擇。由於Python的代碼風格使代碼更易於閱讀和理解,和其餘語言相比,其學習曲線沒有那麼陡峭。Python的一系列豐富的內建庫和附加庫能夠方便地完成許多通常的數據處理和分析操做,讓你能夠輕鬆地一站式完成數據處理與分析任務,從而大大減輕編程的工做量。python
若是你仍是一個不會編程的小白,那麼從安裝python到下載各類包再到運行起程序的整個過程都夠讓你喝一壺的了。《Python數據分析基礎》書中推薦了Anaconda Python,不過筆者認爲安裝Anaconda Python依然略顯繁瑣,下面是筆者總結的只須要三步就能玩轉《Python數據分析基礎》的具體步驟:docker
Docker是什麼?可參考拙做《離不開的工具之Docker開發指南》,簡單講是一個用於環境封裝的工具(集裝箱)。若是沒精力去了解也不要緊,你只須要知道Docker用起來很方便就好了。Windows用戶 從https://www.docker.com/docker-windows下載,Mac用戶從https://www.docker.com/docker-mac下載,只需輕點Download Now from Docker Store按鈕,循序漸進的等待安裝完成便可。編程
Jupyter是什麼?Jupyter是一個交互式筆記本(大名鼎鼎的 IPython notebook 是它的原名,大部分入門型的Python書裏都會提到它,本書也不例外)。用Jupyter寫代碼能夠自動補全,比記事本高到不知哪裏去了,每一段代碼(cell)的運行結果能能夠根據你的須要(代碼)以文字、表、圖等方式展示出來,並且會像真正的筆記本同樣把結果保留在頁面上,以便縱向對比。windows
然而Jupyter如今已經不僅是Python的編輯器這麼簡單了,實際上它支持40多種編程語言,好比R、Ruby、Javascript、C#、Go、Scala、Erlang、以及新興的Julia等…… ,根據任務和編程語言的不一樣,jupyter提供多種了預先打包好的官方鏡像(https://hub.docker.com/r/jupyter/),和數據分析和科學計算有關的主要有兩個鏡像:一、scipy-notebook(https://hub.docker.com/r/jupyter/scipy-notebook/),是純Python3.x環境;二、datascience-notebook(https://hub.docker.com/r/jupyter/datascience-notebook/)預裝了Python、R、Julia,適合更高級的混合式開發。對於本書而言,完成全部的教程只須要安裝scipy-notebook鏡像,該鏡像已經預裝了本書全部用到的數據分析庫。瀏覽器
介紹了這麼多,到底怎麼下載呢?其實很簡單,只須要敲入一行命令便可 ——服務器
docker pull jupyter/scipy-notebook編程語言
用docker下載完 scipy-notebook 鏡像後,咱們敲入如下指令 ——編輯器
docker run -it --rm -p 8888:8888 jupyter/scipy-notebook工具
稍等一下,就會給出提示:學習
Copy/paste this URL into your browser when you connect for the first time, to login with a token:
http://localhost:8888/?token=84222a835fff50f7sssss9c8bb4a45a2e13dd387a86zzz
咱們這時候只須要把最後那一行地址拷貝到瀏覽器,就能夠見到一個搭建好的交互式Python數據分析開發環境了!是否是很簡單?
如圖所示,在Jupyter右側菜單的New下選擇Python3
會自動進入Python的命令行交互環境,咱們試着敲入第一行代碼,而後點擊工具條上的 '⏯ Run'按鈕,立刻就能夠看到執行結果。
數據分析的數據來源有很大頭是各類類型的文件,從文件中讀取數據是基本功,咱們先嚐試本身讀一個本身編寫的文件:
input_file = 'abc.txt'
print("Output #144:")
with open(input_file, 'r', newline='') as filereader:
for row in filereader: print("{}".format(row.strip()))
import sys import pandas as pd
input_file = 'supplier_data.csv'
output_file = 'abc.csv'
data_frame = pd.read_csv(input_file)
print(data_frame)
data_frame.to_csv(output_file, index=False)
數據的可視化是咱們作數據分析的重要組成部分,用Jupyter + matplotlib也能夠輕鬆的完成這一工做。 咱們在交互區輸入第6章6.1.3中的代碼,點擊 'Run'按鈕,一幅漂亮的折線圖就產生了。
總結:《Python數據分析基礎》確實書如其名,很是的基礎,能夠把一個程序小白,手把手的帶入數據分析的世界。
而咱們利用Jupyter+Docker能夠更加省去不少繁瑣的安裝/配置環節,更快的實現Python數據分析入門。