一直以來,大數據領域學習、採訪、總結、概括的一些要點。但因爲大數據還處於前期發展期,所以不可能像一些成熟的硬件產品線那樣,給你們相對成熟的理論。大數據落地會有哪些具體方向?技術實現如何搭建?咱們針對大數據帶給教育的機遇與挑戰,深刻探討和分享大數據與傳統數據的區別,及其行業落地的進展狀況。
網絡
1、大數據與傳統數據的區別學習
與全部新鮮事物同樣,大數據是一個還沒有被明肯定義的概念。它如此年輕,以致於最時髦的大學還沒來得及遇上開設這門專業,最時髦的專家也還未能讓本身的理論一統江湖。全部對它進行研究的人都還在感悟,大數據究竟與傳統數據有怎樣的區別。大數據
在google scholar(谷歌學術搜索)中鍵入big data,查詢近5年來的學術著做,共有355,000篇之多;而若是輸入「big data」與「education」兩個關鍵詞,模糊匹配下約出現17,600條結果,而精確匹配下則不足10篇。可見,教育領域的大數據挖掘,仍然是一片未開墾,未有先來者制定規則的處女地。而在傳統數據領域,一次PISA考試就能在全世界各地產生300篇以上的博士論文,全世界教育與心理計量方向每一年約培養碩士與博士5000人,教育與心理統計分析相關的SSCI核心期刊多達489種,爲IES、ETS等機構提供數據分析的專業機構有160餘家,從業者4000多人,而像WWC這樣的行業標準已經造成——傳統的教育數據領域氣象格局已成,很難撼動其已有的方法論與評價體系。網站
數據量與分析手段也必然走向鳥槍換炮。傳統數據中,一個學生讀完9年制義務教育產生的可供分析的量化數據基本不會超過10kb,包括我的與家庭基本信息,學校與教師相關信息,各門各科的考試成績,身高體重等生理數據,圖書館與體育館的使用記錄,醫療信息與保險信息等,以及其餘類別的評估數據。這樣的數據量,一臺較高配置的普通家庭電腦,初級的EXCEL或SPSS軟件就能進行5000名如下學生量的統計分析工做;而雙核處理器,ACESS,SurveyCraft等軟件的配置足以完成整個區域的高級統計運算。這樣的工做通常只須要中級水平的教育與心理統計知識,一套可供循序漸進進行對照處理的數據分析模版,以及通過兩三個月的操做培訓就能基本勝任。google
而大數據的分析則徹底是另外一種層面的技術。根據美國著名的課堂觀察應用軟件開發商Classroom Observer的研究,在一節40分鐘的普通中學課堂中一個學生所產生的全息數據約有5-6GB,而其中可歸類、標籤、並進行分析的量化數據約有50-60MB,這至關於他在傳統數據領域中積累5000年的數據總和。而要處理這些數據,須要運用雲計算技術,而且須要採用Matlab,Mathematica,Maple等軟件進行處理並進行數據可視化。而可以處理這些數據的專業人才通常來自數學或計算機工程領域,須要極強的專業知識與培訓,而更爲難能難得的是,大數據挖掘並無必定的方法,更多須要依靠挖掘者的天賦與靈感。雲計算
大數據與傳統數據最本質的區別體如今採集來源以及應用方向上。傳統數據的整理方式更可以凸顯的羣體水平——學生總體的學業水平,身體發育與體質情況,社會性情緒及適應性的發展,對學校的滿意度等等。這些數據不可能,也沒有必要進行實時地採集,而是在週期性、階段性的評估中得到。傳統數據反應的是教育的因變量水平,即學生的學科學習情況如何,生理健康與心理健康狀態如何,對學校的主觀感覺如何等問題。這些數據,徹底是在學生知情的狀況下得到的,帶有很強的刻意性和壓迫性——主要會經過考試或量表調查等形式進行——所以也會給學生帶來很大的壓力。spa
而大數據有能力去關注每個個體學生的微觀表現——他在何時翻開書,在聽到什麼話的時候微笑點頭,在一道題上逗留了多久,在不一樣學科課堂上開小差的次數分別爲多少,會向多少同班同窗發起主動交流?這些數據對其餘個體都沒有意義,是高度個性化表現特徵的體現。同時,這些數據的產生徹底是過程性的:課堂的過程,做業的過程,師生或生生的互動過程之中……在每時每刻發生的動做與現象中產生。這些數據的整合可以詮釋教育微觀改革中自變量的水平:課堂應該如何變革才符合學生心理特色?課程是否吸引學生?怎樣的師生互動方式受到歡迎?……而最最有價值的是,這些數據徹底是在學生不自知的狀況下被觀察、收集的,只須要必定的觀測技術與設備的輔助,而不影響學生任何的平常學習與生活,所以它的採集也很是的天然、真實。ssr
因此,綜合以上的觀點,咱們不難發現,在教育領域中,傳統數據與大數據呈現出如下區別:設計
一、傳統數據詮釋宏觀、總體的教育情況,用於影響教育政策決策;大數據能夠分析微觀、個體的學生與課堂情況,用於調整教育行爲與實現個性化教育。
二、傳統數據挖掘方式,採集方法,內容分類,採信標準等都已存在既有規則,方法論完整;大數據挖掘爲新鮮事物,尚未造成清晰的方法、路徑、以及評判標準。
三、傳統數據來源於階段性的,針對性的評估,其採樣過程可能有系統偏差;大數據來源於過程性的,即時性的行爲與現象記錄,第三方、技術型的觀察採樣的方式偏差較小。
四、傳統數據分析所須要的人才、專業技能以及設施設備都較爲普通,易得到;大數據挖掘須要的人才,專業技能以及設施設備要求較高,而且從業者須要有創新意識與挖掘數據的靈感而不是循序漸進者,這樣的人才十分稀缺。
2、大數據時代潛藏的教育危機
「不得不認可,對於學生,咱們知道得太少」——這是卡耐基·梅隆大學(Carnegie Mellon University)教育學院研究介紹中的一句自白,也一樣是美國十大教育類年會中出鏡率最高的核心議題。這種對於學生認識的匱乏,在21世紀以前長達數百甚至上千年的教育史中並無產生什麼消極的效應,但卻在信息技術革命後的近十年來成爲教育發展的致命痼疾。
「過去,對於學生來講,到學校上學學習知識具備無可辯駁的重要性,而那是由於當時人們可以接觸知識的渠道太少,離開學校就沒法獲取成體系的知識」斯坦福大學教授Arnetha Ball在AERA(美國教育研究會)大會主旨發言中說道,「可是,互聯網的普及將學校的地位從神壇上拉了下來。」Ball的擔憂不無道理。根據Kids Count Census Data Online發佈的數據,2012年全美在家上學(Home-Schooling)的5-17歲學生已達到197萬人,相對逐年價降低的出生人口,這一人口比重十分可觀。
與此同時,應運而生的則是內容愈來愈精緻的網上課堂,而創立於2009年並迅速風靡全球的可汗學院(Khan Academy)正是其中的傑出表明。從知名學府的公開課到可汗學院,這種網絡學習模式受到熱捧偏偏證實了:人們對於學習的熱情並無過去,可是人們已經極端但願與傳統的學院式授課模式告別。一成不變,甚至「目中無人」的傳統集體教學模式在適應愈來愈多元化、也愈來愈追求個性化的學生羣體時顯得捉襟見肘。
可汗學院模式不但支持學生自主選擇感興趣的內容,還能夠快速跳轉到本身適合的難度,從而提升了學習的效率。學習者沒有學習的壓力,時長、時機、場合、回顧遍數均可以由本身控制。
能夠想象,若是可汗學院的模式進一步發展,與計算機自適應(CAT)的評估系統相聯繫,讓使用者能夠經過自我評估實現對學習進度的掌握以及學習資料的精準獲取,那麼它將造成互聯網產品的「閉環」,其優點與力量將是顛覆性的。
而若是傳統教育的課程模式不革新,課堂形態不脫胎換骨,教師角色與意識不蛻變,那麼學校的存在就只有對現代化學習資源匱乏的學生纔有意義;而對於可以自主得到更適宜學習資源的學生來講,去學校可能只是爲了完成一項社會角色賦予的義務,甚至談不上必要性,也就更談不上愉快的體驗或興趣的驅使了。
大數據的研究能夠幫助教育研究者從新審視學生的需求,經過高新的技術以及細緻的分析找到怎樣的課程、課堂、教師是可以吸引學生的。但問題在於,社會發展給予教育研究者的時間窗口並不寬裕,由於有太多人一樣在試圖經過大數據挖掘設法瓜分學生們有限的精力與注意力。並且從某種程度上,他們作得遠比教育研究者更有動力與誠意。
首當其衝的是遊戲的設計者——青少年是其主要消費羣體。撇開馳名世界的暴雪公司(Blizzard Entertainment),美國藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國際巨鱷不談;即便是國內的盛大網絡,第九城市,巨人科技,淘米網絡等遊戲公司,亦都早已組建了專業實力強勁的「用戶體驗」研究團隊。他們會經過眼動跟蹤,心律跟蹤,血壓跟蹤,鍵盤與鼠標微操做速率等各類微觀行爲來研究如何讓玩家在遊戲中投入更多的時間,更加願意花真實世界的錢來購買虛擬世界的物品。何時應該安排敵人出現,敵人應當是什麼級別,主人公須要耗費多少精力纔可以將其擊敗,這些變量都獲得了嚴格的設計與控制,緣由只有一個——大數據告訴遊戲創做者,這樣的設計是最可以吸引玩家持續遊戲的。
其次是電影視頻、青春小說等鏈式文化產業。爲何在網站上看視頻會一個接一個,沒法中止,由於它會根據該帳號的歷史瀏覽記錄推算出其喜歡看什麼樣的視頻,喜歡聽什麼類型風格的歌,並投其所好;而暢銷網絡小說看似並無「養分」,但裏面的遣詞造句、語段字數,故事起伏設定,甚至主人公性格的類型都是有相關研究進行支持——讀者每每並不喜歡結構嚴密、精心設計的劇情——這就是爲何情節千篇一概的韓劇受人追捧的緣由,他們經過收視率的反覆研究,挖掘到了觀衆最須要的那些元素,而且屢試不爽。
此外還有許多更強大的研究者,好比電子商務,總能經過數據找到你可能願意購買的商品——他們甚至知道買尿片的父親更願意買啤酒。
這些領域看似與咱們教育者並沒有特別關聯,可是他們與咱們最關心的對象——學生卻有着千絲萬縷的聯繫。數百年甚至數十年前,學生並不會面對如此多的誘惑,學校在其生活中佔據極大比重,對其影響也最爲顯著,所以教育者對於學生的控制老是有着充分的自信。可是,當不一樣的社會機構與產品開始爭奪學生的注意力時,教育者的自信就只能被認爲是一種沒法認清形勢的傲慢了——由於在這場「學生爭奪戰」中,傳統學校看上去實在缺少競爭力。
即便教育研究者願意放下身段,經過大數據的幫助來悉心研究學生的需求與個性。可是人才的匱乏也是很是不利的一點因素——相比於商業環境下對研究實效的追逐,教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出「首席數據官」的頭銜,向各類數據科學狂人拋出橄欖枝,而且在風險投資的鼓舞下,動輒以百萬年薪進行延聘時,大數據研究的前沿陣地必然還是在互聯網行業中最轟轟烈烈地開戰。
分析形勢後的姿態,以及投入的力度與強度,或許是教育領域在進入大數據研究時最早須要充分考慮的兩個先決條件。
3、誰在爲大數據歡呼:一場關於「人性」研究的啓蒙
孜孜不倦地觀測、記錄、挖掘海量的數據,有朝一日終會推導出或簡約或繁複的方程,以此得以在天然科學的歷史豐碑上留名——數百年來,這種對數據的崇拜早已成爲了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業也揭示了數據對於科學發現的無限重要價值。
相形之下,社會科學領域的研究就要慘淡地多——他們一樣看重數據,一樣追求統計與分析的「程序正義」,一樣勤勤懇懇地設計實驗與調研,去尋找成千上萬的被試,一樣像模像樣地去嵌套方程……可是幾乎不多有研究結果可以獲得廣泛的認可,無論是社會學、心理學、經濟學、管理學仍是教育學。
固然,社會科學領域的研究者們遇到的困難是顯而易見的:「人性」與「物性」是不一樣的,物質世界比較穩定,容易尋找規律;而由人組成的社會極其善變,難以總結。從數據的角度來講,人的數據不如物的數據那麼可靠:
首先是人不會像物那樣忠實地進行迴應:誰知道一我的填寫的問卷有多少是注意力不集中填錯的、語文水平不高理解錯的、仍是壓根沒打算講真話?此外,人與人自己的差距也大於物與物的差距:兩個化學組成相同的物質表現出各類性質幾乎是徹底同樣的,但即便是兩個基因徹底相同的雙胞胎也會由於不一樣的人生經驗,而表現出截然不同的行爲特徵。
但這些都還並不關鍵,最最重要的是:人沒法被反覆研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會配合一次次從斜坡上被滑下來,一次次從比薩塔頂被扔下來,一次次流着口水乾等着送肉來的鈴聲。而咱們知道,在「科學」的三個標準中,首當其衝的就是「可重複驗證」。
換句話說,咱們能夠得到的關於「人性」的數據不夠大,不夠多,不夠隨時隨地,所以咱們沒法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼(Daniel Kahneman)時,彷佛標示着社會科學領域已經接受了這樣一種事實:人類的行爲是沒法尋找規律、沒法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否能夠解答關於「人性」的種種現象。與此相映成趣的是2012年的美國大選,奧巴馬的團隊依靠對網絡數據的精準篩選捕捉到了大量的「草根」選民,而對於其喜愛與需求的分析與把握更是贏得其信任,從而在不被傳統民調與歷史數據規律看好的狀況下一舉勝出。這跨越十年的兩個標誌性事件讓人們對於「數據揭示人性」可能性的認識經歷了戲劇性的轉變。
現在,迅速普及的互聯網與移動互聯網悄然爲記錄人的行爲數據提供了最爲便利、持久的載體。手機,iPad等貼近人的終端無時不刻不在記錄關於人的點點滴滴思考、決策與行爲。最最重要的是,在這些強大的數據收集終端面前,人們沒有掩飾的意圖,人們完整地呈現着本身的各類經歷,人們不厭其煩一遍又一遍重複着他們不肯在實驗情境下表現出來的行爲,從而創造着海量的數據——傳統數據研究沒法作到的事,傳統研究範式苦苦糾結的許多難點,都在大數據到來的那一剎那遁於無形。
大數據的到來,讓全部社會科學領域可以藉由前沿技術的發展從宏觀羣體走向微觀個體,讓跟蹤每個人的數據成爲了可能,從而讓研究「人性」成爲了可能。而對於教育研究者來講,咱們比任什麼時候候都更接近發現真正的學生。http://www.cda.cn/view/2273.html