正在經歷畢業論文季的各位還好嗎?無數學長學姐的經驗證實,學校裏那幾節數據分析課,徹底不夠應付畢業論文的須要。面對滿屏收集而來的數據,咱們仍是無從下手。html
天天有愈來愈多的同窗向SPSSAU諮詢:論文應該怎麼分析好,收集好了數據,但徹底沒有思路?數據庫
今天,SPSSAU給你們帶來[數據分析思惟培養]系列課程。主要針對第一次接觸數據分析,徹底不懂分析的小白用戶,或者懂一些簡單方法但苦於沒有分析思路,不知道如何規範化分析。微信
本文章爲SPSSAU數據分析思惟培養的第一篇文章。app
想要進行科學的數據分析,正確的數據格式,以及正常的數據是最基本的。並且數據的準備和數據的理解,正是科學的數據分析思惟必備條件之一。編碼
第1點,須要準備好正確的數據格式url
第2點,對數據的基本處理,包括數據標籤、數據編碼和生成變量等spa
第3點,一些分析方法須要的數據特殊格式準備.net
第4點,數據異常值,或者無效樣本數據的處理3d
第5點,數據基本特徵探索orm
第6點,是一些其它注意事項
數據格式
在進行數據分析前,數據的準備是第一點,不管是使用數據庫下載的數據,或者實驗數據,也或者問卷調查數據,手工錄入數據等。不管是直接從系統下載的原始數據,仍是本身手工錄入的數據,均須要按照數據分析思惟的規範格式進行,不然任何軟件都沒法分析。
但一般狀況下,不少人都會忽略此步驟,認識有了數據立刻就能夠分析,其實否則,準備數據和數據的基本處理也屬於數據分析的範疇,並且正常狀況下數據處理花的時間佔比會超過50%,也便是說想完成一項分析,其實有超過50%的時間(多數狀況下會是70%左右)都是在準備數據上。
接下來以例子說明下什麼是正確的數據格式,首先看下常見的錯誤數據格式例子以下圖:
上圖爲是最爲常見的一種錯誤數據格式,手工錄入到EXCEL裏面的時候,很是的隨意,想如何就如何。但一旦想進行分析的時候就會出錯,那是因爲EXCEL是表格軟件,而不是數據分析軟件,因此隨意的格式均可以。
上圖中出現了5個常見的問題,分別是:
第1:出現合併單元格,A1和A2這兩個單元格合併,在分析的時候軟件就不知道名字應該叫什麼,因此直接沒法上傳到軟件中;
第2:C1這個單元格自己是標識體重信息,但直接爲空,分析軟件可不知道空就是‘體重’的意思,這是很是明顯的錯誤;
第3:A列裏面爲性別,可是數據很是不規範,男,男性,MALE這三個詞語都是男,可是分析軟件會認爲這是3個不一樣的名詞,這也能夠很好的解釋爲何‘填空題’這種雜亂無章的數據一般是沒法分析的緣由;
第4:B8這個格子裏面爲‘平均爲175’,這是錯誤的。緣由在於B列是標識身高信息,而不是平均身高信息,若是須要獲得平均身高,讓分析軟件幫你計算就好;
第5:C7這個格式爲‘無數據’,其實就是缺失數據,直接空着就好,不然分析軟件會認爲‘無數據’是一個數據信息。
上述已經列出常見的錯誤特徵,接下來講明正確的數據格式以下:
規範的數據格式(可用於數據分析)應該是這樣,第1行爲‘標題’即具體名字,第2行起爲具體的數據,且不能有合併單元格的狀況,若是爲空值即缺失值,直接不錄入就好。而且數據信息須要規範,好比男,男性,MALE這三個詞語都應該規範成‘男’。
任何的分析軟件都應該提供規範的數據格式才能分析,以SPSSAU爲例,其支持的數據格式說明以下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三種類型),SAV(SPSS格式等),使用SPSSAU右上角‘個人數據’上傳數據後即成功導入了數據。
須要特別說明的一點是:數據分析軟件事實上只認識數字,好比上例中的‘男’,‘女’,軟件是不認識的,那麼軟件如何處理呢。它會自動把‘男’或‘女’用數字1或2進行表示,而後打上數字的標籤,分析出來後數字1的時候就會顯示成‘男’,數字2就會顯示成‘女’。任何的機器原理上都只認識數字而不認識文字,所有都是將文字‘數字化’處理。所以接下來會進行一些數字標籤,以及數據基本處理的說明。
除此以外還須要說明一點是:若是有多份數據,這是須要本身合併整理在一個EXCEL工做表裏面才能夠,分析軟件是沒法知道多份數據分別表明什麼意思,須要本身手工將數據合併整理在一個工做表裏面後才能進一步分析。
數據標籤及編碼處理等
上一點已經說明正確的數據以後,接下來講明下數據的基本處理,包括數據標籤、數據編碼和生成變量。關於數據處理相關的操做,SPSSAU截圖以下:
完成正確的數據上傳後,那麼數字表明的意義是什麼呢?好比數字1表示男,數字2表示女,這須要告訴軟件才能夠,這便是數據標籤的功能,SPSSAU操做以下:
除了數據標籤外,有時候還可能須要進行數據編碼處理,好比但願對年齡分紅3個組別,分別是20如下,20~30,30以上。此時就須要使用數據編碼處理,以下圖:
上圖中顯示,將0~20歲編碼成數字1;20~30編碼成數字2;30到100編碼成數字3;固然至於數字1,2,3分別表明的意義,只有分析人員本身才知道,因此通常還須要使用數據標籤功能去標識出數字1,2,3表明的意義。
不少時候還須要對數據生成變量處理,好比說對體重或者身高求對數處理,或者對數據開根號,取絕對值,求和,求平均值處理等,那麼可以使用SPSSAU生成變量功能。
SPSSAU提供大約30類數據處理的功能基本上能夠知足全部人的需求。固然有時候還須要更多的處理,可以使用‘高級公式’本身輸入公式處理便可。
在完成數據編碼,生成變量以後,有可能會想對‘標題名稱’修改或者刪除掉多餘項,此時可以使用SPSSAU‘標題處理’功能便可。
分析方法數據格式
在完成正確的數據上傳及數據處理後,一般就能夠開始進行正常的分析了,絕大多數的分析均可以完成。
但有的時候,個別研究方法對於數據格式是有特殊要求的,因此還須要按照其特徵的數據格式要求進行準備數據:好比卡方檢驗時有時提供的是‘加權’數據格式,kappa一致性檢驗,模糊綜合評價分析方法等特別分析方法時,對於數據的格式有特殊的要求,建議可直接查看SPSSAU幫助手冊裏面的案例數據格式,固然也能夠直接使用SPSSAU的案例數據裏面的格式模仿參考進行便可。
具體可在此頁面查看SPSSAU的案例數據格式:
https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html
數據異常或無效處理
對於上傳後的數據,有時候會出現異常狀況,好比正常男性成年人的身高是介於1.5~2米之間,可是若是出現一個數據爲1.2米,那這種異常數據在分析以前是須要進行處理才能夠,通常狀況下是把該值直接設置成null值。SPSSAU操做以下:
也有的時候會對數據標識爲無效樣本,好比一份關於淘寶購物滿意度的問卷,填寫者所有都填寫徹底相同的答案,說明該樣本沒有認真填寫,此時可將該樣本設置爲無效樣本,SPSSAU操做以下圖(將相同數字大於70%設置成無效樣本):
數據基本特徵探索
一般在分析前,還須要首先探索下數據的特徵,看下數據是否有異常狀況,大概看下數據的特徵狀況等,便於作到心中有數,好比正常男性成年人身高是介於1.5~2米之間,但數據中有沒有異常值呢,一般可以使用描述分析大概看下就好。以下圖中最小值是1.69米,最大是1.82米,都是正常數據。
固然還能夠查看一些更深刻的數據指標,好比百分位數等,以下圖:
另外也可使用箱線圖、或者散點圖等看下是否有異常數據,SPSSAU可視化裏面均有提供。
其它
數據的準備和清理是進行數據分析的第一步,並且正常狀況下,此步驟佔用了數據分析超過50%(大部分狀況下是70%)的時間,但此步驟很是容易被普通用戶忽略。
完成數據準備和基本的清理,數據異常,數據無效,以及數據特徵探索以後,才能開始進入下一步,即正常的數據分析。不然後面分析發現有着異常數據或者無效數據,也或者錯誤的數據,那麼中間全部的分析都會白費。
預告一下接下來的幾期內容:
感興趣的同窗千萬別錯過!
本文分享自微信公衆號 - SPSSAU(spssau)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。