Python的pandas

pandas 是python中很重要的組件,網上關於pandas 的文章也不少,好比Python科學計算之Pandas 和 Python數據分析入門python

Pandas基於兩種數據類型:series與dataframe。git

一個series是一個一維的數據類型,其中每個元素都有一個標籤。若是你閱讀過這個系列的關於Numpy的文章,你就能夠發現series相似於Numpy中元素帶標籤的數組。其中,標籤能夠是數字或者字符串。github

一個dataframe是一個二維的表結構。Pandas的dataframe能夠存儲許多種不一樣的數據類型,而且每個座標軸都有本身的標籤。你能夠把它想象成一個series的字典項。數組

這裏我使用的數據源以下:"https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"網絡

常常使用的效果如圖:函數

 

要使用pandas首先咱們須要 安裝並引入import pandas as pd,read_csv方法能夠加載本地文件也能夠讀取網絡文件,head()方法默認加載前面5條記錄,也能夠指定記錄條數,好比head(10)就是前面10條記錄,tail()取後面多少條記錄, 也能夠指定記錄條數。columns顯示的表格的列名,index這裏能夠理解爲表格的下標,默認是從0開始的,能夠用len(df)來獲取記錄數 ,df.T能夠理解爲表格的行列轉換spa

 

head和tail是表格前面或者後面多少條記錄, 也能夠用loc方法指定第幾條記錄,好比我這裏就強制指定第一和第三條及記錄,固然也能夠限制值顯示指定的列,drop方法是丟棄的意思,axis 參數告訴函數到底捨棄列仍是行。若是axis等於0,那麼就捨棄行,這裏丟棄的是第二、3列的數據,describe屬性對數據的統計特性進行描述3d

Python有一個很好的統計推斷包。那就是scipy裏面的stats。ttest_1samp實現了單樣本t檢驗。所以,若是咱們想檢驗數據Abra列的稻穀產量均值,經過零假設,這裏咱們假定整體稻穀產量均值爲15000blog

第一個數組是t統計量,第二個數組則是相應的p值。返回下述值組成的元祖:排序

t : 浮點或數組類型 ,t 統計量
prob : 浮點或數組類型, two-tailed p-value 雙側機率值
經過上面的輸出,看到p值是0.267遠大於α等於0.05,所以沒有充分的證聽說平均稻穀產量不是150000。將這個檢驗應用到全部的變量,一樣假設均值爲15000

 

表格的列還能夠當作屬性來獲取, 好比df["Abra"]和df.Abra都是有效的,而且列也支持過濾和排序,以下的df[df.Abra>5000]

 

注意到列名雖然只有一個元素,卻實際上須要包含於一個列表中。若是你想要多個索引,你能夠簡單地在列表中增長另外一個列名.咱們能夠在Pandas中經過調用sort_index來對dataframe實現排序

 

Python中有許多可視化模塊,最流行的當屬matpalotlib庫。稍加說起,咱們也可選擇bokeh和seaborn模塊.

相關文章
相關標籤/搜索