EMC杯智慧校園開放數據大賽

##1 比賽背景##html

面對社會、科研、企業對於大數據人才的緊迫需求,上海交大網絡信息中心聯合EMC卓越研究集團,於2015年4月共同舉辦「EMC杯上海交大智慧校園數據分析大賽」。此次數據分析大賽將開放校園數據並啓動數據訓練營,鼓勵同窗和社會人士參與到大數據的學習和實踐之中。身爲茫茫人海的一枚迷途小碼農,我也奮不顧身地加入了這場比賽中。git

##2 準備##github

因爲比賽鼓勵使用R進行數據分析,而我對於R一樣也是聽聞已久,因此正好趁着數據訓練營的機會自學了一下R。看的書本是《R語言實戰》,相關的學習筆記也都整理成文章記錄在個人我的博客中。總之,一個多月的時間下來,對於R的基本知識有了一個全面的掌握。web

##3 初賽##網絡

掌握了R的基本知識後,就能夠在實戰中驗證本身的學習成果了。本次校園開放數據比賽共開放了三類數據:一卡通消費數據、校園網wifi數據、閔行區氣象數據。說得更詳細一些:框架

  • 商戶信息:共134項觀測,包含32個商戶系統、85個子商戶;
  • 用戶信息:共30861項觀測,包含30861個一卡通帳戶、30812個學號,即有49名學生擁有兩個一卡通帳戶;
  • 交易記錄:共7915289項交易記錄,時間跨度爲2014-09-01至2015-01-31;
  • 氣象記錄:共26660項氣象記錄,時間跨度爲2014-08-15至2015-03-25;
  • 校園網記錄:共12736408項校園網記錄,時間跨度爲2014-09-01至2015-01-31。

我作的分析工做主要針對一卡通消費數據,首先是對數據的概要統計,包括用戶分佈、商戶結構、歷史降雨和校園網紀錄。接着從消費類別總額、消費類別次數、消費類別均值、男生消費總額和女生消費總額等角度統計食堂就餐紀錄,而且以第三餐飲學生餐廳爲例,分析其歷史就餐總額變化趨勢、雨天和晴天就餐狀況對比、一天中不一樣時段的就餐密度等內容,從而研究食堂就餐量和降雨量、校園網活躍人數等因素之間的關係。最後,我分析了不一樣類別用戶在各個消費類別和商戶的消費分佈,包括消費總額和消費次數等,並創建了橫向模式和縱向模式兩種模型來分析不一樣類別用戶的就餐模式。學習

最後的報告部署在這裏,代碼託管於個人Github大數據

EMC杯智慧校園開放數據大賽.png

##4 決賽##ui

我很幸運地進入了決賽,但主辦方考慮到我是一我的單幹,因而給我推薦了一位一樣單幹的小夥伴——上海同濟大學交通專業的金建棟學弟。學弟實力很強,在數據分析和R的掌握上有着更加深厚的功底。和學弟相比,咱們兩作的不少內容有一些相似,也許我在可視化能力和思惟邏輯上略勝一籌,可是學弟涉及到了數據質量管理、數據清洗、相關性檢測等偏理論的內容,同時還開發出了四款在線web應用,稱之爲全站工程師一點也不過度。3d

通過一番融合和整理,我和學弟的比賽項目合併到了一塊兒,即基於一卡通消費數據的用戶就餐分析。項目報告部署到了這裏,決賽答辯ppt也能夠在上述Github的project.zip中找到。

決賽的最終結果是極爲惋惜地以2分之差(固然滿分是100分)錯過了「綜合應用數據大獎」,拿到了「最佳R語言應用」獎。第一名的團隊選擇校園網wifi數據做爲分析對象,他們理智地看清了wifi流量中所蘊藏的巨大價值。咱們反思的結果是,之因此沒有拿到第一名,是由於咱們僅僅針對一卡通數據進行了分析,若是可以結合多源數據,同時挖掘出校園網wifi數據中的有用信息,咱們將會做出更精彩的成果。

決賽答辯記錄報道在這裏,成員訪談記錄在這裏這裏

決賽答辯.png

最佳R語言應用.jpg

##5 分享會##

在決賽以後,主辦方還舉辦了一場落地分享會,即邀請決賽中的優秀團隊對他們的做品作進一步的開發和分享,力求能將其產品應用到實際中。

此次我和學弟不只僅停留於產出一份數據分析報告,咱們更但願能呈現出一款完備的應用級系統;數據源也再也不只是一卡通消費數據,咱們作到了對一卡通消費和校園網wifi數據的360度全面分析。通過一個月的艱苦奮鬥,咱們的產品逐漸成型,一款以構建智慧校園數據生態系統爲願景的實時監測和分析統計系統——Elite。

Elite的意思是「精英」,即咱們致於提取數據中最精華的部分給用戶,同時「E」表示數字化和信息化,「lite」和「life」相近,即智慧校園中的數據生活。

總的來講,Elite的功能包括如下幾個方面,校園實時監測、餐飲分析、學務管理、教學統計、我的顧問、Elite助手、信息共享等。

  • 實時監測:包括實時人羣監測、人羣遷移趨勢和就餐人數預測等;
  • 餐飲分析:包括各大商戶今日就餐總額和就餐次數等實時統計、實時就餐總額和歷史日均總額的計算、餐飲人羣組成和各大食堂佔比的分析;
  • 學務管理:包括男女生上網關鍵詞彙總、不一樣年級學生對不一樣關鍵詞的關注程度分析、本碩博學生不一樣場景不一樣時間wifi流量分佈統計、學生在一卡通消費和wifi用網量上的分佈、浴室人羣流量實時監測和預測;
  • 教學統計:包括校園設備、科研設備、教學設備統計,科研立項、科研到款、科研著做、論文發表統計,各大校區硬性指標對比,和各種別學生數量統計;
  • 我的顧問:根據匿名處理後的學號獲取該學生的一卡通消費和校園網wifi數據,從勤奮係數、就餐係數、睡眠係數、清潔係數、恩格爾係數、我的評價、我的關注、用戶羣分類等角度展現個性化統計結果;
  • Elite助手:提供針對用戶我的定製化的推薦和建議,包括生活預警、學習預警、活動推薦、課程推薦、動態記錄等;
  • 信息共享:包括「活動」、「點評」、「比賽」、「二手」、「租房」、「實習」、「校車」七大模塊,彙集校園裏各個方面的動態信息。

咱們對於Elite的定位是智慧校園中數據source和sink之間的鏈接器,更具體的來講,在智慧校園這個不斷進行數據循環流動的生態系統中,學生和校方是數據的生產者,學生、校方以及商戶都是數據的消費者,而Elite則是數據的分解者。Elite實現了數據的處理加工和資源的整合重用,使得生態系統中的各個角色都能互助雙贏。

咱們使用prezi進行分享會的答辯,用咱們的產品Elite獲得了你們的認同。Elite部署在這裏,代碼託管於個人Github,在裏面能夠找到分享時使用的prezi。

Elite實時監測.png

Elite餐飲分析.png

Elite學務管理.png

Elite教學統計.png

Elite我的顧問.png

Elite助手.png

Elite信息共享.png

##6 總結##

此次的比賽從集訓到分享會結束一共通過了三個多月的時間,在這個過程當中,我掌握了R的基本使用和數據分析的流程,進一步強化了數據可視化的能力。個人做品也從一開始簡單的統計分析逐步改善,最終成長爲完善強大的智慧校園數據分析系統,並被上海交通大學網絡信息中心採納,做爲智慧校園項目的初步展現和雛形框架。

相關文章
相關標籤/搜索