教育 | 學生羣體分析

什麼是羣體分析?算法

通俗的講,就是一類人或者一類事情經過分析後,得到共同的特徵屬性或者特異的特徵屬性,是一種對羣體畫標籤的方法。機器學習

那麼,怎麼進行羣體分析呢?學習

第一步,要學會分羣。可使用機器學習算法中的分類與聚類等,固然也能夠人爲地對事物進行分類。對象

第二步,對分類好的數據進行分析,畫出對應的標籤。本文將使用人爲分類的辦法,對學霸與學渣在圖書館借書、圖書館出入狀況進行分析,剖析出學霸與學渣借書的區別,用數聽說明學渣是否是必定不去圖書館等問題。排序

1、數據準備it

(一)表結構說明 foreach

加載已經對每一個學生ID進行多維度畫像的df表,df表的結構以下:書籍

(二)記錄條數說明循環

總共包含29列,總共記錄條數爲21605條,以下:方法

(三)記錄內容說明

數據記錄以下:

2、數據分類

(一)數據分類思路

根據學院和學生成績的排名,取不一樣學院的前50名和後50名,對不一樣學院前50名的學霸組成一張表a,對不一樣學院倒數後50名的組合生成一張表b。分別對a、b表作異常數據的剔除,最後得到學霸和學渣數據各969條數。

(二)步驟

一、對導入FEA的df表作排序操做,排序的對象爲college列和score_pm列,使用以下語句:

df=order df by (college,score_pm) with (desc,asc)

二、使用foreach循環,分別獲取各學院的學霸與學渣記錄;

三、組成a表和b表,並處理異常數據;

3、羣體分析

(一)羣體分析思路

第一種,取消費、住宿等維度的平均值進行比較。

第二種,只取學生成績、學生圖書館借書、學生進出記錄關聯分析,拋開住宿、消費維度。

(二)分析過程

第一種我作過,結果以下:

比較結果沒法區分學霸與學渣之間鮮明的特徵,最大的兩個特徵是學渣得到的助學金多,學霸晚歸次數比較多,消費平均數比較大。

去查找了爲何產生這種沒有鮮明特徵的緣由,發現本次數據是通過脫敏處理的,學生成績排名不分年級,不分專業,只是將全部成績按學分加權求和,而後除以學分總和,再按照學生所在學院排序。因此,低年級學生怎麼可能比高年級學生學分高啊?!

經過第一種思路的分析,說明咱們本次數據準備並不完美,或者說自己就是有必定的錯誤存在。學霸的數據應該是高年級同窗中的學霸,而不是學院中各年級各專業的學霸,學渣多是低年級學渣佔多數,並且過幾年他們不必定是學渣。因此本次羣體分析的立論,應該改成高年級學霸與低年級學渣比較合適。

經過第二種思路,咱們只分析圖書館借書維度。先分析學霸和學渣中有多少人沒有借過書?

學霸有197人沒有借書,學渣有181沒有借書。再分析借書總數、平均數、借書人平均數等數據。

接着,分析學霸與學渣都關注哪一種類型的書籍。

由於本數據來自工科類大學,因此工業技術類書籍佔到第一。第二是文學類,第三語言與文字,第四數理化,第五是經濟,第六是哲學,第七是政治法律,第八是歷史,具體排名見最後圖表。

最後,咱們看一下借書類型的總次數。

經過上圖發現學渣同窗比學霸借的書多,具體排名爲:第一是語言、文學,第二是經濟,第三是政治、法律。可是學霸與學渣借書的類型、數量上相差不大。

4、羣體分析結論

經過上面分析,咱們得出如下結論:

第1、學霸、學渣人數各969,可是學霸不借書的人數多於學渣;

第2、學霸借書平均數大於學渣;

第3、被分類到學渣類的同窗去圖書館平均次數多於學霸,估計緣由爲高年級學霸到後期可能忙着找工做;

第4、被分類到學渣類的同窗,比學霸更加關注經濟、政治、法律、文字、語言類的書籍。

第5、從數據能夠看出,學霸與學渣都是很努力學習的。

相關文章
相關標籤/搜索