1 數據分析概述

數據分析工具

Python自己的數據分析功能不強,須要安裝一些第三方的擴展庫來加強的它的能力。咱們課程用到的庫包括Numpy、Matplotlib、Pandas等,下面對這三個庫作一個簡單介紹,後面會經過案例深刻講解相關庫的使用。python

Numpy

Python並無提供數組的功能。雖然列表能夠完成基本的數組功能,但它不是真正的數組,並且在數據量較大的時候,使用列表的速度會慢的讓人難以接受。爲此,Numpy提供了真正的數組功能,以及對數據進行快速高效處理的函數。Numpy仍是不少更高級的擴展庫的依賴庫,後面講解的Matplotlib庫、Pandas庫都依賴於它。值得強調的是,Numpy內置函數處理數據的速度是C語言界別的,由於在編寫程序的時候,應當儘可能使用它們內置的函數,避免出現效率瓶頸的現象。程序員

Numpy是Python中至關成熟和經常使用的庫,所以關於它的教程有不少。django

Matplotlib

不管是數據挖掘仍是數學建模,都免不了數據可視化的問題。對於Python來講, Matplotlib來講是最著名的會圖庫,它主要用於二維繪圖。它可讓咱們很是快捷的用Python可視化數據。編程

Pandas

Pandas是Python下最強大的數據分析工具。它包含高級的數據結構和精巧的工具,使得在Python中處理數據很是快速和簡單。Pandas構建與Numpy之上,它使得以Numpy爲中心的應用很容易被使用。其最初是被做爲金融數據分析工具而開發出來的,由AQR Capital Management公司於2008年4月開發出來並於2009年開源。windows

Pandas功能很是強大,支持相似與SQL的數據增、刪、改、查,而且帶有豐富的數據處理函數,支持靈活的處理缺失數據。api

Anaconda

Anaconda是一個用於科學計算的Python發行版,支持Linux、Mac、Windows. 提供了包管理和不一樣Python環境管理的功能, 能夠很方便解決多版本Python問題和各類包安裝問題. Anaconda使用conda命令來進行包管理和虛擬環境管理.數組

anaconda和conda區別: conda是一個工具,主要是進行包管理和虛擬環境管理. anaconda是一個包含了衆多的package、科學計算工具的集合, 因此咱們也稱Anaconda爲Python的一個發行版.數據結構

# 建立Python版本3.4的環境my-env-py3
conda create --name my-env-py3 python=3.4
# activate激活環境
# Windows命令沒有source
# activate my-env-py3
# Linux & Mac激活命令
source activate my-env-py3  
# 查看版本
python --version
 # for Windows
deactivate my-env-py3 
 # for Linux & Mac
source deactivate my-env-py3 
# 刪除一個已有的環境
conda remove --name python34 --all

安裝包:  

# 安裝第三方包
conda install django=1.8.2
# 卸載第三方包
conda uninstall django

爲何須要jupyter notebook?

在進行數據分析時,咱們須要和其餘人進行溝通,重現咱們整個分析過程,並將說明文字、代碼、圖表、公式、結論都整理在一個文檔中, 也就是說數據分析的過程是一個不斷計算,而且繪圖的工做流程。 顯然傳統的文本編輯器並不能很好知足咱們的需求,咱們今天使用一款數據分析編輯器jupyter notebook.app

咱們之前在編寫代碼的時候,讀者是機器,而不是人,因此咱們按照計算機的邏輯思惟來編寫程序,咱們進行數據分析,讀者就再也不是機器,而是人了,因此咱們須要從編寫讓機器讀得懂的代碼過渡到人們解說如何讓機器實現咱們的想法,其中除了代碼,更多的是敘述性文字、圖表內容。因此數據分析師不只是一個好程序員仍是一個好做家。好做家就須要一款好的編輯器,jupyter notebook 就是一款集編程與寫做於一體的效率工具。編程語言

說到 Jupyter 你會以爲陌生,但你或多或少聽過鼎鼎大名的 IPython。其實Jupyter 脫胎於 IPython 項目,IPython 顧名思義,是專一於 Python 的項目,但隨着項目發展壯大,已經不只僅侷限於 Python 這一種編程語言了。Jupyter 的名字就很好地釋義了這一發展過程,它是 Julia、Python 以及 R 語言的組合,字形相近於木星(Jupiter),並且如今支持的語言也遠超這三種了。

jupyter安裝

  1. 建立虛擬環境
pip install virtualenv
pip install virtualenvwrapper-win
mkvirtualenv data-env-py3

  2. 安裝工具包

pip install numpy
pip install matplotlib
pip install pandas  # windows可直接安裝whl包
pip install jupyter

  3. 打開jupyter notebook

workon data-env-py3
jupyter notebook

顯示效果以下:  

入門簡單演練

效果圖以下:

 shirt + 回車 --------> 當前代碼所有執行,並跳到下一行

  ctr   + 回車---------> 只執行當前行,不跳到下一行 

輸入代碼

10+20

輸入代碼

import matplotlib.pyplot as plt

plt.plot([1,2,3,4],[2,4,6,8])

plt.show()

  

這個位置能夠選擇marterdang語法 

#號和輸入的內容之間要有空格

  

點擊這裏能夠給當前的文件重命名

命名前:

 

 命名後

 

相關文章
相關標籤/搜索