Excel數據處理（缺失值/重複值/異常值/拆分）

時間 2021-01-21

標籤 app ide 函數網站 spa 3d orm blog token 圖片欄目 Microsoft Office 简体版

原文原文鏈接

6月12日給你們講解了一下數據獲取的東東（時隔略久，忘記的請點擊數據獲取回顧），時隔一個月，接着咱們的用Excel進行數據分析系列的第二篇：數據處理。文末有獲取本篇實例數據的方法。
app

目錄：ide

1、缺失值函數

一、篩選
網站

二、定位空值
spa

三、缺失值的處理
3d

四、實例
orm

2、重複值blog

一、countif函數
token

二、條件格式
圖片

三、數據透視表

3、異常值

一、異常值的判斷

二、實例

4、字段拆分

一、分列

二、文本函數

三、實例

正文開始：

爬取了某招聘網站關於數據分析的職位的信息進行數據處理的實例講解

原始字段：

崗位：崗位名稱
地址：地市+區
薪資：薪資+X年經驗+學歷
薪資2：薪資
公司：公司名稱
公司概況：公司所屬行業+規模+人數

1、缺失值

缺失值即數據值爲空，或爲NULL等，尋找缺失值有不少方法，這裏提供篩選和定位空值兩個思路。

一、篩選

咱們發現學歷一欄裏是有空值的，尋找空值的方法不少，這裏提供兩個方法，一個是直接篩選，在Excel裏對於數據量較少的狀況下篩選空值是頗有效的一個方法，數據——篩選裏能夠找到，篩選的快捷鍵是「ctrl+L」.

二、定位空值

開始——查找——定位條件裏選擇定位空值，能夠篩選出全部空值。

三、缺失值的處理

對於尋找到的缺失值咱們該如何處理呢，這得看實際的數據和業務需求了，通常來講能夠有如下3種處理方式，直接刪除、保留和尋找替代值。

直接刪除：直接刪除的優勢是刪除之後整個數據集都變得完美了，都是有完整記錄的數據，缺點是缺乏了部分樣本可能致使總體結果的誤差。對於有大量缺失值的在衡量利弊的狀況下建議就直接刪除了吧，缺失了大量關鍵數據的樣本集統計起來也沒有什麼意義。
保留：保留缺失值，優勢是保證了樣本的完整，缺點是你得知道爲何要保留，保留它的意義是什麼，是什麼緣由致使了值的缺失，是系統的緣由仍是人爲的緣由，這種保留創建在缺失單個數據的狀況下，且缺失值是有明確意義的。
尋找替代值：如用均值、衆數、中位數等代替缺失值，優勢是簡單且有依據，缺點是可能會使缺失值失去其自己的含義。對於尋找替代值的除了統計學中經常使用的描述數據的值之外，還能夠人爲地去賦予缺失值一個具體的值。

四、實例

具體到本例中，學歷爲空的缺失值咱們若是直接刪除，會發如今年限一欄裏就少了應屆畢業生這個變量了，因此不能直接刪除。保留的話，按照常識，就算是應屆畢業生也應該有相應的學歷，是什麼應屆，高中？大專？本科？碩士？因此保留也不行。那要就尋找替代值了，咱們發現學歷裏的變量有大專、本科、碩士、不限，這些是類別變量，若是取衆數來替代空值的話，那應屆畢業生的學歷應該填本科，但咱們經過分析薪資和年限發現，填本科好像不太對，學歷本科，年限一年如下的薪資在4K-8K之間，而應屆畢業生的薪資在10-15K，說明這個應屆畢業生的學歷要比本科高比碩士低，依據常識推斷此處空值可填本科雙學位。

能夠直接篩選出來填，也能夠定位空值填，此處以定位空值批量填寫爲例，定位好空值後直接在單元格內輸入「本科雙學位」，此時先不要急着回車，批量填寫時要「ctrl+回車」。

2、重複值

獲取數據源的時候可能由於各類緣由會致使獲取到徹底重複的數據，對於這樣的數據咱們不必進行重複統計，所以須要找出重複值並刪除，這裏也提供3種尋找重複值的思路：countif函數、條件格式和數據透視表。

一、countif函數

還記得countif函數嗎，按條件統計個數，模板：countif(區域，條件)，這裏countif（I:I,I2），統計I2單元格在I列裏出現的次數，以此類推，結果爲1的是出現了1次，爲2是出現了2次。這樣就能夠統計重複出現的公司了，對於公司等招聘條件都重複的能夠刪除。

二、條件格式

開始——條件格式——突出顯示單元格的規則——重複值，將重複值直接以紅色底色顯示出來。

三、數據透視表

數據透視表能夠直觀地統計出每一個變量出現的次數，行標籤是公司，以公司進行計數統計。

對於重複值的處理，就兩個字：刪除。

3、異常值

一、異常值的判斷

對異常值的判斷除了依靠統計學常識之外就是對業務的理解。若是某個類別變量出現的頻率很是少，或者某數值型變量相對業務來講太異常的能夠判斷爲異常值。對異常值的處理就直接刪除好了。

二、實例

在本例中，咱們對薪資下限升序排列，發現了一個薪資區間在1-1K的，但由於深圳的基本工資爲2200元，因此對於薪資上限小於2K的值咱們都斷定爲異常。

4、字段拆分

對於原始數據有些字段不是咱們想象中格式，所以要對這些字段作一些計算和處理，計算這裏就不細說了，用函數搞定便可，這裏主要講解一下字段拆分的操做。

對於原始字段裏的地址一欄，咱們想要將地市和區域分開，將一個字段分割成兩個字段，這裏介紹兩種方式：分列和函數。

一、分列

以前講到過度列的功能，數據——分列，觀察數據發現，地市和區域之間以符號「 · 」區分，因此咱們也用該符號進行分列的標誌，能夠獲得地市和區域分開的數據。

二、文本函數

可使用left、right以及find函數來實現字段分列的功能。觀察發現，地市所有爲兩個字符，那麼地市一欄咱們就能夠用left函數取前兩個字符便可獲得。

區域字段理想狀況下應該用right函數取後3位字符，但觀察發現，有的區域是三個字符，有的是兩個字符，那就不能直接用right函數取後3位了，應該取的是總字符個數減3個字符（沒明白的再好好琢磨一下），RIGHT(B2,LEN(B2)-3)。

三、實例

這裏咱們還要對薪資一欄進行處理，咱們想要把原始字段裏的區間變量轉換成薪資下限和薪資上限，爲何要作這樣一個處理呢？咱們在學Excel使用技巧的時候發現，其實把幾個字段合併起來是很是容易的，但想要把一個字段拆分紅幾個咱們想要的字段實際上是很困難的，有規律的還好咱們用分列+公式也能解決，規律不明顯的就無法處理了。因此在錄入Excel表的時候，也建議小夥伴們本着最簡化的原則去錄入，一個單元格里能少放就不要多放，好比地址：深圳市福田區上梅林XX大廈，你就把它分紅三個單元格錄入最好，深圳市，福田區，上梅林XX大廈，這也是給統計的人以方便，人家想合併幾秒就能合併，想拆分還得寫上一大堆公式，還不必定能拆分出來否。

好，咱們先來看看分列能不能完成，分割符號是-，最後分列完是BC列顯示的，數據+單位的形式（13K），咱們在作Excel數據表統計的時候數值一般是不帶單位的，由於你帶上個單位這個單元格的值就變成了文本形式，無法作數值統計，因此咱們還要把K這個單位去掉，這很簡單了，咱們用LEFT(B2,LEN(B2)-1)公式，

這是先分列再公式，可能有人會以爲繁瑣，接下來，咱們直接上公式。=LEFT(A2,FIND("k",A2)-1)，高效，就看你對公式的掌握了。先find找k是第幾個值，find後的結果是數到k，多是3也多是2，，而後left左取3-1（2-1）。