利用Excel作一些簡單的數據分析

先來幾個原始數據的截圖,以下所示:數組

示例圖就舉一個吧,由於這些數據量還挺大的,大概的總結了一下,這下列這幾欄中不合規範的數據佔比很大:函數

  (1)民族(經分析,在此表中所涉及到的民族分別爲:漢族,滿族,蒙古族,回族,土家族,侗族,瑤族,彝族,苗族,藏族,東鄉族,壯族,傣族,仫佬族)原始數據中有寫漢族,也有寫漢的,其餘民族的寫法相似,爲了將這些數據規範化,咱們利用Excel中的批量替換功能,直接按快捷鍵Ctrl+f,以下:選中民族這一列,而後先進行查找,確認一下那些只寫‘漢’的這些數據行,而後再進行批量替換。如圖所示:學習

而後在替換,以下圖所示:spa

這樣就把單個字‘漢’, 替換成‘漢族’, 同時也將那些寫成‘漢族’的規範的數據替換成了‘漢族族’, 這個並不礙事,利用一樣的功能,選中民族這一列,先查找‘漢族族’,而後再進行替換,以下圖:3d

而後點擊所有替換,以下圖:excel

這樣一來,民族這一列中全部關於「漢」,「漢族」的替換也就完成了,數據的規範化工做也就完成了一小部分。一樣其餘的'民族' 也使用這種方法修改,這樣就效率提升不少。blog

  (2)年級:年級這一欄基本出現的是這樣的狀況:92級,88,還有範圍的數據2009-2013,還有一些莫名其妙的數字例如40098。這些數據的修改應當統一規範,對剛纔這幾種狀況的數據應該改爲: 1992, 1988, 2009, 對於40098相似的不合規範的數據將其標註紅色。下面是一組原始數據與修改以後數據的對比: 內存

 這一欄的修改基本就採用這樣的方法。字符串

  (3)學院:學院這一欄基本都是寫的學院的簡稱,這一欄一樣採用批量代換的方法,根據已建好的學院表將其進行替換,學院表以下:效率

替換方法和上面所用到的方法同樣,下面給一組原始數據與替換後的數據對比,以下圖所示:

  (4)專業:專業這一欄一樣也是寫的簡稱,也有一些如今所屬的學院中無法找到的一些專業(估計是換了專業名字吧)土木學院的居多,一樣的方法批量替換,將那些不合規範和找不見的專業紅底標註,參照已創建好的專業表對其進行數據規範化,現有學院對應的專業表以下:

 

一共是71個現有專業。替換過程和上邊用到的過程同樣,再次不在囉嗦,,,下面給一組原始數據與修改完成的數據的比對:

紅底標註的專業是不合規範的或者是在現有學院中找不到的專業。

  (5)學歷:學歷這一欄經分析寫的大概都是這樣的(大學本科,大學,本科,,研究生,碩士,博士畢業生,大專,專科,本科畢業生,工程碩士,工學碩士等等),在新建好的學歷數據表中通常將學歷分紅下列幾種,如圖:

根據數據表中規範的數據,對學歷這一欄進行修改,也是採用一樣的方法,批量代換,將(大專)替換成專科,將(大學本科,大學,本科畢業生)替換成本科,將(研究生,工程碩士,工學碩士)替換成碩士,將(博士畢業生)替換成博士,這樣對這一列的數據規範化,給出一組原始數據與規範化以後的數據的比對:

其餘的地方也採用同樣的方法進行修改。

附錄:一些常見的統計分析函數,在Excel中提供了強大的函數庫fx,以下圖所示,經過相應的函數,對數據進行加工分析。

在excel中,統計個數有三個經常使用的函數:
1 COUNT函數
COUNT函數能夠統計一個區域中數字的個數。
如:=COUNT(A1:A10)能夠統計A1:A10區域數字的個數
2 COUNTA函數
COUNTA函數能夠統計非空單元格的個數,只要是非空均可以統計在內。
3 COUNTIF函數
COUNTIF函數能夠按條件求和。是一個很是有用的EXCEL函數。
countif函數是使用頻率最高的幾個函數之一,下面針對這個函數作一個小小的專題.以方便你們學習,此文是本站原創。轉載請註明轉自「excel精英培訓」

1、countif函數的用途
countif函數是根據條件在另外一個區域進行個數的統計,一方面它能夠完成符合條件的統計計算。另外一方面由此擴展出它能夠進行重複值的查找我表格的核對。
2、countif的基本語法:COUNTIF(單元格引用, 條件)參數說明:1 第一個參數只能是單元格引用方式,不能使用內存數組2 第二個參數是條件,條件能夠是值,能夠是字符串構成的複合條件,可使用通配符進行模糊統計,可使用內存數組。應用示例:例1:統計在A列是「公司A」的個數公式=Countif(A:A,"公司A")例2:統計A列包含「公司A」的個數公式=Countif(A:A,"*公司A*")注:這裏使用通配*表示字符先後有任意個字符。例3:統計C列成績大於60的學生個數公式 =Countif(C:C,">60")注:這裏是用運算對比符號和數字構成的條件例4:統計大於C1單元格數值的C列個數。公式:=Countif(c:c,">" & c1)注:這裏是用&插入了一個變量,即C1的值。例5:統計C列大於平均數的個數公式:=Countif(c:c,">" & average(c:c))注:這裏是使用了平均值函數average先計算平均值,而後做爲條件。例6:統計A列爲「公司A」或「公司B」的個數公式:{=Sum(Countif(A:A,{"公司A","公司B"})) }注:這裏在第二個參數里加入了常量數組,使用countif的結果是分別按兩個公司名稱統計的結果,也是一個數組假如是{3,4},獲得數組後用sum函數對兩個數進行求和,獲得總的個數,這個公式是數組公式,因此必定要輸入公式後把光標放在公式最後,按ctrl+shift,而後按enter鍵結束輸入。另:也許也還會問,若是設置更多條件該怎麼弄,蘭色幻想建議使用另外一個能夠多條件求和與計數的函數:sumproduct例:統計大於1000,小於3000的數字個數=sumprodcut((a1:a100>1000)*(a1:a100<3000))

相關文章
相關標籤/搜索