統計學基礎—數據圖表展現

時間 2019-12-01

標籤統計學基礎數據圖表展現简体版

原文原文鏈接

目錄：python

1、數據預處理：機器學習

數據審覈函數

篩選學習

排序spa

2、品質數據的整理與展現：code

分類數據的整理與展現對象

順序數據的分類與展現blog

3、數值型數據的整理與展現：排序

數據分組token

數據展現

1、數據預處理：

數據的預處理的涵蓋範圍很普遍，涉及到數據相關行業的工做內容都離不開預處理，不論是作機器學習仍是須要作業務相關分析，數據預處理的效果好壞也表明了機器學習結果或業務分析的準確性。

一、數據審覈

檢查數據中的錯誤與異常是審覈的主要內容。經過反覆檢查數據是否遺漏空缺，是否存在錯誤、異常，是否適用於項目場景，是否具備時效性等來覈對數據源。

（數據異常並不必定表明該數據值爲非法，異常值可能爲錯誤值時應當篩出，異常值爲正確值時應當保留）

二、數據篩選

根據需求找出符合條件的數據，以下python實現：

 1 #篩選行
 2 data.loc[:,['A']] #取'A'列全部行
 3 
 4 data.iloc[:,[0]] #取第0列全部行
 5 
 6 df[1:4]#使用切片操做選擇特定的行
 7 
 8 
 9 #篩選列
10 df[['a','c']]#傳入列名選擇特定的列
11 
12 
13 
14 #篩選值
15 data.loc[['a','b'],['A','B']] #提取index爲'a','b',列名爲'A','B'中的數據
16 data.iloc[[0,1],[0,1]] #提取第0、1行，第0、1列中的數據
17 
18 #條件篩選
19 data[data.A==100]#找出df中A列值爲100的全部數據
20 
21 num = [100, 200, 300]
22 df[df.A.isin(num)]     #篩選出A列值在num列表的數據條
23 
24 data.loc[data['A']==0] #提取data數據(篩選條件: A列中數字爲0所在的行數據)
25 
26 data.loc[(data['A']==0)&(data['B']==2)] #提取data數據(多個篩選條件)
27 
28  data[(data['A'].isin([0]))&(data['B'].isin([2]))] #isin函數