Follow me!百萬獎金由你拿 | 精準資助數據探索(一)

以前已經有大神發過一個《智慧中國杯百萬大獎賽解讀》系列的文章,好多小白初學者表示文章好高大上,他們感受有點懵,記不住那麼多的原語。那麼有沒有更加簡便的方法呢,不須要記一堆原語,也不須要記各類各樣的格式。算法

你們彆着急,OpenFEA早就爲菜鳥們考慮好了。OpenFEA的可視化分析模塊,就採用可視化的圖表操做方式,將原語操做簡化爲點擊幾下按鈕便可完成數據的分析處理,讓菜鳥迅速變成老鳥再也不是夢想。.net

下面讓咱們跟隨高人的腳步,向百萬獎金髮起衝擊吧。Follow me!!!blog

1、數據介紹get

OpenFEA已經將上述數據存放到了OpenFEA在線試用環境的match/fund目錄下,具體在www.openfea.cn下載專區裏有介紹。數據分析

2、助學金數據分析it

關於大賽的介紹這裏就很少說了,能夠參看以前大神的文章智慧中國杯算法賽解讀 | 精準資助數據探索(一),咱們直接上乾貨。可視化

一、加載助學金數據下載

由於原始數據沒有列名,因此加參數with (header=-1)爲各列自動填寫列名。方法

二、修改字段名im

分別用id和money表示學生編號和資助金額(下圖以id爲例)。

三、分組統計

按照money字段進行分組統計,查看助學金共有幾個檔次。

四、繪製餅圖

可視化展示助學金的分組狀況。

3、一卡通數據

一、加載一卡通數據

二、修改字段名

分別用id、pos、address、catalog、time、cost、have表示學生編號、pos消費、消費地點、消費時間、消費金額、餘額(下圖以id爲例)。

三、分組統計

按照id字段進行分組,而後按照cost字段進行最大值、最小值、平均值、中位數的計算。

四、再次進行分組統計

按照id字段進行分組,而後按照have字段進行最大值、最小值、平均值、中位數的計算。

五、關聯表

將card_cost表和card_have表用index字段關聯起來。

六、查看card_money表的簡要統計信息

消費總額最高的是3萬多,中位數是8903,單筆最大的消費是4407元,中位數是300,有人單筆最低是93元,看來此同窗屬於土豪行列,出現的負數多是退款或誤扣等,這個要結合業務知識去判斷了,也能夠做爲噪音處理一下。

卡里保有金額的最大是4399元,中位數是316元,還比較符合對學生的印象。

相關文章
相關標籤/搜索