Pandas基本介紹:python
pandas is an open source, BSD-licensed (permissive free software licenses) library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.數組
咱們快速簡單地看一下pandas中的基本數據結構,先從數據類型、索引、切片等簡單操做開始。首先導入必要的域名空間:數據結構
咱們首先簡單介紹一下數據結構:函數
Series 是一個一維數組結構的,能夠存入任一一種python的數據類型(integers, strings, floating point numbers, Python objects, etc.)。最建立一個Series的最基本方法是:scala
>>> s = pd.Series(data, index=index)
這裏,data指代許多不一樣的數據類型:orm
index指代一個標籤軸鏈表(list),所以,根據data的數據類型不一樣,咱們能夠大體有以下方式新建Series:blog
一、 from ndarray索引
若是data是ndarray類型,那麼index的長度必須與data同樣。若是index值缺省,整數鏈表[0,1,2,…,len(data)-1]將會被自動初始化爲index。ip
二、 from dictget
若是data是字典結構,index默認爲字典中的key值。若是在建立時index被從新賦值,那麼value將會與新建的index對應,若是index值不在字典的key值中,那麼value將會被初始化爲NaN。
注:NaN不是一個值,在pandas中表明缺省值。
三、 from scalar value
若是data是一個標量,index值必須被初始化,value值將會重複對應到每個index。
Series與ndarray相似
Series的操做與ndarray很是相似,可是Series能夠應用numpy中的大多數函數,例如切片操做。
Series與dict相似
Series像一個固定大小的dict,能夠經過index賦值或者取值。
Series矢量操做以及標籤對齊運算
在數據分析時,numpy無需進行循環便可對每個值進行同等操做,Series也能夠經過調用numpy中的函數達到預期運算結果。