Pandas的數據初步探索(學習筆記)

Pandas數據結構python

    

    與R語言同樣,python也經常使用於數據分析。除了經常使用的科學計算庫Numpy和繪圖庫matplotlib以外,pandas也給python提供了強大助力。數組

    首先要認識pandas的兩種強大的數據結構Series和DataFrame。其中Series就是序列,相似一維數組,索引在左邊,值在右邊;而DataFrame則是相似於二維數組。數據結構

    

    建立的Series進行numpy計算,都會保留值與索引之間的連接。能夠知道Series的數據結構跟python的字典很是相似,能夠用字典來直接建立Series:obj=pd.Series(dict)。DataFrame也有索引功能,能夠用read_excel()函數打開表格,進行常見的數據統計。函數

 

數據質量分析spa

 

    在拿到數據以後,咱們一般先須要先進行數據質量分析。數據質量分析就是檢查原始數據中,是否存在不符合要求以及不能進行分析的數據。髒數據包括:excel

    一、缺失值blog

      a、刪除缺失記錄索引

      b、對缺失值插補數據分析

      c、不處理pandas

    二、異常值

      a、簡單統計量分析,如最大最小值描述

      b、若是服從正態分佈,利用3δ原則。異常值被定義爲一組測定值中與平均值的誤差超過三倍標準差的值

      c、箱型圖分析(對數據沒有任何要求)

    三、不一致的值

    四、重複數據以及含有特殊符號

 

     

 

    箱型圖在數據異常檢測方面有着很是好的穩定性。

    

 

                 

 

    上圖能夠分析出2二、5一、60、6607.四、9106.44爲異常值。而後就能夠擬定過濾規則:

    日銷量在400如下5000以上爲異常數據。編寫程序過濾便可。

相關文章
相關標籤/搜索