目錄:python
1、數據預處理:機器學習
數據審覈函數
篩選學習
排序spa
2、品質數據的整理與展現:code
分類數據的整理與展現對象
順序數據的分類與展現blog
3、數值型數據的整理與展現:排序
數據分組token
數據展現
1、數據預處理:
數據的預處理的涵蓋範圍很普遍,涉及到數據相關行業的工做內容都離不開預處理,不論是作機器學習仍是須要作業務相關分析,數據預處理的效果好壞也表明了機器學習結果或業務分析的準確性。
一、數據審覈
檢查數據中的錯誤與異常是審覈的主要內容。經過反覆檢查數據是否遺漏空缺,是否存在錯誤、異常,是否適用於項目場景,是否具備時效性等來覈對數據源。
(數據異常並不必定表明該數據值爲非法,異常值可能爲錯誤值時應當篩出,異常值爲正確值時應當保留)
二、數據篩選
根據需求找出符合條件的數據,以下python實現:
1 #篩選行 2 data.loc[:,['A']] #取'A'列全部行 3 4 data.iloc[:,[0]] #取第0列全部行 5 6 df[1:4]#使用切片操做選擇特定的行 7 8 9 #篩選列 10 df[['a','c']]#傳入列名選擇特定的列 11 12 13 14 #篩選值 15 data.loc[['a','b'],['A','B']] #提取index爲'a','b',列名爲'A','B'中的數據 16 data.iloc[[0,1],[0,1]] #提取第0、1行,第0、1列中的數據 17 18 #條件篩選 19 data[data.A==100]#找出df中A列值爲100的全部數據 20 21 num = [100, 200, 300] 22 df[df.A.isin(num)] #篩選出A列值在num列表的數據條 23 24 data.loc[data['A']==0] #提取data數據(篩選條件: A列中數字爲0所在的行數據) 25 26 data.loc[(data['A']==0)&(data['B']==2)] #提取data數據(多個篩選條件) 27 28 data[(data['A'].isin([0]))&(data['B'].isin([2]))] #isin函數
三、數據排序
python中有sort函數用於數據排序
2、品質數據的整理與展現:
一、分類數據的整理與展現
分類數據自己是對事物的一種分類。相似頻數分佈:是落在某一特定類別或組中的數據個數,把各種別及落在其中的相應頻數所有列出並用表格展現稱爲頻數分佈。方法如數據透視(pandas中有相應函數方法)、直方圖(matplotlib中有相應方法hist)等。
對於定性的數據,除了可使用頻數分佈進行描述,也可使用比例、百分比、比率等統計量進行描述。
數據展現可以下集中圖形:
條形圖:
帕累託圖:rcParams方法
餅圖:pie方法
環形圖:使用python可實現代碼略
二、順序數據的分類與展現
上述分類數據展現有些狀況下也能夠用於順序數據,除此以外還能夠利用累計頻數、累計頻率來展現。
3、數值型數據的整理與展現:
一、數據分組:
根據需求將數據按照相應標準分紅不一樣的組別。
步驟:一、肯定組數;二、肯定組距;三、根據分組編制頻數分佈表(採起組距分組需遵循「不重不漏」原則,上組限不在內結局不重問題)
組中值:組距分組掩蓋了各組數據分佈狀況,組中值用來反應各組數據的通常水平。即(上限值+下限值)/2。
二、數據展現:(繪製圖形都可使用python庫,代碼略)
分組數據:直方圖
未分組數據:莖葉圖、箱線圖
時間序列數據:線圖
多變量數據:散點圖、氣泡圖、雷達圖
這一篇簡單介紹數據展現的方法,具體代碼實現抽時間寫一篇matplotlib的
純屬我的筆記。