「大數據」無疑是當下的熱門術語,說起數據分析必談大數據,這是對大數據和數據分析的雙重誤解,面對一個流行概念自己所許諾的前景和它所表明的商業利益,學界應保持高度的真誠和懷疑。關注WX公衆號::大數據技術工程師 瞭解更多精彩資訊。
複製代碼
「大數據」成爲2018年的關鍵詞彙,被認爲將會帶來生活、工做與思惟的重大變革。java
谷歌、亞馬遜等互聯網企業在利用大數據方面所作的工做使數據行業看到了新的發展路徑。大數據在教育、醫療、汽車、服務性行業的應用所彰顯的能量使企業、研究者對大數據的將來充滿信心。《連線》雜誌主編克里斯·安德森甚至早在2008年就斷言數據洪流將會帶來理論的終結,科學方法將會過期,其原話是「面對大規模數據,科學家「假設、模型、檢驗」的方法變得過期了」。面試
技術的變遷在任何行業都是值得歡欣鼓舞的,但不妨在此處借用蘇珊·朗格在《哲學新視野》中的論述表達一點謹慎:算法
某些觀念有時會以驚人的力量給知識情況帶來巨大的衝擊。因爲這些觀念能一會兒解決許多問題,因此,它們彷佛有但願解決全部基本問題,澄清全部不明瞭的疑點。每一個人都想迅速的抓住它們,做爲進入某種新實證科學的法寶,做爲可用來建構一個綜合分析體系的概念軸心。這種‘宏大概念’忽然流行起來,一時間把全部東西都擠到了一邊。[4][5]數據庫
蘇珊·朗格認爲這是因爲「全部敏感而活躍的人都當即致力於對它進行開發這個事實形成的」,這一論述放置在今日對大數據的狂熱崇拜之中也極爲恰當,大數據的流行並不意味着其它的理解與思考方式就再也不適合存在,正如微軟的Mundie先生所說,「以數據爲中心的經濟還處於發展初期,你能夠看到它的輪廓,但它的技術上的、基礎結構的、甚至商業模型的影響尚未被徹底理解。」但不能否認的是人們確實將更多的學術興趣轉移到這一領域,而一旦人們可以以審慎的思路開始清晰的闡述它們,即使一時不能提供完美的解決方案,至少也是能讓人有所獲益的途徑。緩存
人們在談論大數據的美好圖景時固然沒有徹底忘記它可能帶來的風險,但擔心多集中於大數據的後果,如信息安全,而沒有集中於如何看待大數據自己。本文將就當前尤爲國內技術環境下,進入大數據時代所面臨的風險和存在的問題作簡要分析,以但願能釐清概念,澄清一些誤解。安全
大數據的面臨的風險主要表如今如下幾方面:網絡
1、海量數據的計算速度 零售業巨頭沃爾瑪每小時處理超過一百萬客戶交易,輸入數據庫中的數據預計超過2.5PB(拍字節,2的50次方)——至關於美國國會圖書館書籍存量的167倍,通訊系統製造商思科預計,到2013年因特網上流動的數據量每一年將達到667EB(艾字節,2的60次方)[6],數據增加的速度將持續超過承載其傳送的網絡發展速度。架構
來自淘寶的數據統計顯示,他們一天產生的數據量便可達到甚至超過30TB,這僅僅是一家互聯網公司一日以內的數據量,處理如此體量的數據,首先面臨的就是技術方面的問題。海量的交易數據、交互數據使得大數據在規模和複雜程度上超出了經常使用技術按照合理的成本和時限抓取、存儲及分析這些數據集的能力。框架
如今談到大數據,難以免言必稱美國的傾向,那麼美國究竟如何應對這這方面的問題呢?機器學習
美國政府六個部門啓動的大數據研究計劃中,包括:
• DARPA的大數據研究項目:多尺度異常檢測項目,旨在解決大規模數據集的異常檢測和特徵化;網絡內部威脅計劃,旨在經過分析傳感器和其餘來源的信息,進行網絡威脅和很是規戰爭行爲的自動識別; Machine Reading項目,旨在實現人工智能的應用和發展學習系統,對天然文本進行知識插入。
• NSF的大數據研究內容:從大量、多樣、分散和異構的數據集中提取有用信息的核心技術;開發一種以統一的理論框架爲原則的統計方法和可伸縮的網絡模型算法,以區別適合隨機性網絡的方法。
• 國家人文基金會(NEH)項目包括:分析大數據的變化對人文社會科學的影響,如數字化的書籍和報紙數據庫,從網絡搜索,傳感器和手機記錄交易數據。
• 能源部(DOE)的大數據研究項目包括:機器學習、數據流的實時分析、非線性隨機的數據縮減技術和可擴展的統計分析技術。[7]
從這份研究計劃能夠看出,絕大多數研究項目都是應對大數據帶來的技術挑戰,目前咱們所使用的數據庫技術誕生於上世紀70年代,大數據時代首先須要解決的是整個IT結構的從新架構,提高對不斷增加的海量數據的存儲、處理能力。
筆者最先進入數據分析領域是在1986年,使用的機器是長城,520,小的IBM機器,在完成數據輸入、問卷輸入以後,作一個最簡單的命令操做,須要等三個小時以後才能出結果,咱們如今面對大數據時的處理能力,形象化來說就是當年PC機對小數據的處理能力。
這也就是大數據常和雲計算聯繫在一塊兒的緣由,實時的大型數據集分析至少須要使用像MapReduce和Hadoop那樣的分析技術並有數千臺電腦同時工做,由於想作到實時分析,須要在數據庫中空出分析工做空間,控制對資源和數據的訪問,同時不影響生產系統。[8]在現有的技術條件下談大數據須要充分考慮到硬件設施和分析技術的不足,由於這是前提,這也正是數據中心成爲谷歌、亞馬遜最高機密的緣由,Facebook的開源硬件計劃獲得衆多企業包括國內的騰訊響應的積極響應也是基於這方面的現實須要。
2、海量數據帶來的風險是到處都是假規律 「若是隻就人類的認識是零星、細小的而言,小之中蘊含着智慧,由於人類的認識更多的是依靠實驗,而不是依靠了解。最大的危險必然是不顧後果的運用局部知識。」舒馬赫在《小的是美好的》一書中用這段話來表達對核能、農業化學物、運輸技術大規模運用的擔心,也適用於今日調查行業、企業、研究者對全數據的迷信、忽視抽樣所帶來的風險。
對於海量數據數據的計算能力隨着分佈式緩存、基於MPP的分佈式數據庫、分佈式文件系統、各類NoSQL分佈式存儲方案等新技術的普及能夠解決,但這只是關於數據處理的第一步(甚至這種處理方式自己都存在很大風險),還並非最大的風險,大數據最爲嚴重的風險存在於數據分析層面。
(一)數據量的增大,會帶來規律的喪失和嚴重失真 維克托·邁爾-舍恩伯格在其著做《大數據的時代》中也指出這一點,「數據量的大幅增長會形成結果的不許確,一些錯誤的數據會混進數據庫,」[9]此外,大數據的另一層定義,多樣性,即來源不一樣的各類信息混雜在一塊兒會加大數據的混亂程度,統計學者和計算機科學家指出,巨量數據集和細顆粒度的測量會致使出現「錯誤發現」的風險增長。那種認爲假設、檢驗、驗證的科學方法已通過時的論調,正是出於面對大數據時的混亂與迷茫,由於沒法處理非結構化的海量數據,從中找出肯定性的結論,索性擁抱凱文凱利所稱的混亂。這種想法在某些領域是有效地,好比它能夠解釋生物的選擇性,東非草原上植物的選擇過程,可是未必能解釋人,解釋事件過程和背後的規律。
大數據意味着更多的信息,但同時也意味着更多的虛假關係信息,斯坦福大學Trevor Hastie教授用‘在一堆稻草裏面找一根針’來比喻大數據時代的數據挖掘,問題是不少稻草長得像針同樣,‘如何找到一根針’是如今數據挖掘的問題上面臨的最大問題,海量數據帶來顯著性檢驗的問題,將使咱們很難找到真正的關聯。
咱們以一個實際的案例來看一下樣本量不斷增大以後,會出現的問題:
表1 數據量增大以後帶來的顯著性檢驗問題
上表是關於2006年網絡遊戲歷程擴散的迴歸分析,當樣本量是5241個的時候,你會發現用一個簡單的線性迴歸擬合這個數據,年齡、文化程度、收入這三個變量顯著,當咱們把樣本量增長到10482個的時候,發現獨生子女和女性開始顯著,增長到20964個的時候,體制外這個變量也開始顯著,當樣本增長到33萬的時候,全部變量都具備顯著性,這意味着世間萬物都是有聯繫的。那麼在這個時候,若是說上億我的呢?樣本大到必定程度的時候,不少結果天然就會變得顯著,會沒法進行推論,或者得出虛假的統計學關係。此外,斷裂數據、缺失數據(下文將會進行分析)的存在將會使這種虛假關係隨着數據量的增加而增加,咱們將很難再接觸到真相。
事實上,真實的規律是這樣的:
體制外
這是網絡遊戲2006年曆程擴散的結果,實際模型是這樣的,經過這個模型咱們能夠看到:
2.在高文化程度人羣中,開始向34歲-40歲擴散,呈現大幅增加,並造成一個峯值。
3.在低文化程度羣體中,好比高中、初中在年輕羣體中迅速擴散,造成一個峯值。
4.在2006年,網絡遊戲從文化程度的幾個角度開始擴散,年齡再也不只是高低之分,而是與文化程度變量綜合造成的效果[10]。咱們看到網絡遊戲這種波浪式的擴散過程,不只能夠找到2006年是誰在使用網絡遊戲,也能夠用生命週期、家庭週期來解釋緣由,而經過對體制內與體制外人羣的使用差別分析,又能夠展示出工做空間不一樣所帶來的人的行爲差別。當咱們把2006年的結果放回網絡遊戲的整個擴散歷程中時,所能看到就已經再也不是網絡遊戲自己,而是新技術帶來的社會變遷過程。
對一個社會現象進行客觀深入準確的分析,對事物的理解須要數據,但更須要分析思惟,在大數據時代,理論並不是不重要,而是變得更加劇要。咱們所指的理論也並不是僵化一成不變的固守舊有理論,而是在處理問題的過程當中意識到海量數據所帶來的複雜性,堅持分析方法和理論的不斷創新。
(二)抽樣分析+全數據驗證的分析思路 維克托·邁爾·舍恩伯格在介紹大數據時代的數據分析思惟轉變時提到過三個觀點,其中之一是:分析全部的數據,而再也不僅僅依靠一小部分數據。全數據一時甚囂塵上,企業、研究者覺得大數據就是全數據,以致於再談抽樣都彷佛帶有保守主義色彩,這種見解無疑是對大數據和抽樣兩者都存在偏見和不足,而一個風行的詞彙偏偏對於從事這項活動的人來講意味着什麼纔是及其重要的,若是認爲大數據就是收集全部樣本的信息,讓數據本身說話,那麼在方法論上就是狹隘的,而這種狹隘卻由於其閃爍着開放、客觀、全面的光芒而被忽視。
這種觀點面臨的第一個風險就是「全數據」在哪裏?數據量達到何種程度時,能夠認爲是「全」數據?
這裏也涉及了全數據的第二個問題全(暫且假定咱們經過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預測到流感爆發的案例被廣爲引用以說明數據自會說話,當人們開始在網上搜索關於感冒的詞彙代表他感染了流感,創建流感與空間、病毒的關係,可以成功的預測一場流感)[11]數據確實能看到變化,經過變化做出「預測」,但沒法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:咱們要相關性,不要因果關係。這並不是是這位做者有選擇的選擇,而是放棄抽樣而直接採用大數據的必然。
維克托·邁爾·舍恩伯格認爲能夠容許不精確而使用大數據的簡單算法解決問題,而1936年《文學文摘》和蓋洛普在總統選舉預測中的不一樣表現,至今仍然向咱們代表科學、嚴謹抽樣的重要性。《文學文摘》依靠紙媒時代巨大的發行量得到240萬民衆的數據,而蓋洛普僅在嚴格抽樣基礎上研究了5000人,是「小數據」的複雜算法超過「大數據」的簡單算法的真實案例。
沒有抽樣的擬合,直接面對大數據,將使咱們失去對人的瞭解,對真實規律的追尋,畢竟不是全部的社會事實都一場流感同樣易於預測,何況即使是谷歌被廣爲讚譽的流感預測案例也被認爲存在問題:在與傳統的流感監測數據比較以後,根據互聯網流感搜索實時更新的Google流感趨勢被發現明顯高估了流感峯值水平。科學家指出基於搜索有太多的噪音影響了它的精確度這代表基於社交網絡數據挖掘的流感跟蹤將不是替代而只能補充傳統的流行病監測網絡。他們正在開發噪音較少的替代跟蹤方法,例如基於Twitter的流感跟蹤只包含真正病人的帖子,而不是轉載的流感新聞報道。
3、封閉數據與斷裂數據 封閉數據和斷裂數據所帶來的問題在第二部分已經提到,它們會產生虛假的統計學關係,影響分析結果的準確性和可檢驗性,下面具體對這兩方面的問題作一個分析。
(一)封閉數據使數據缺少多樣化 「數據增值的關鍵在於整合,但自由整合的前提是數據的開放。開放數據是指將原始的數據及其相關元數據以能夠下載的電子格式放在互聯網上,讓其餘方自由使用。開放數據和公開數據是兩個不一樣的概念,公開是信息層面的,開放是數據庫層面的。開放數據的意義,不只僅是知足公民的知情權,更在於讓大數據時代最重要的生產資料數據自由地流動起來,以催生創新,推進知識經濟和網絡經濟的發展。」[13]
開放是大數據的題中之義,也是我國政府、企業在大數據時代必須適應的轉變,而咱們目前面臨的狀況仍然是一個平臺一個數據,數據壁壘形成的局面是:有全部數據,同時又什麼數都缺。
好比在醫療領域,大數據被認爲爲醫療領域帶來但願 ---計算機能夠在模仿人類專家在直覺方面更進一步,而沒必要依賴EBM這樣的小數據集了。醫療信息體系仍在使用陳舊的數據屏障,在這個體系中,只有經過審覈的、標準的、被編輯過的數據才能被接收,因爲缺少一致性,許多可用的數據被拒之門外。這個屏障創造了同質化的數據,而排除了能使系統真正有用的多樣性。[14]
再以新浪、搜狐、網易、騰訊四大微博的數據平臺爲例,四家公司的數據各自爲陣,相互獨立,關於微博用戶行爲分析都是基於對本身現有用戶的分析,這種封閉的數據環境下,不少層面的具體分析都將受到很大的侷限,好比重疊用戶的分析,什麼特徵的人羣會只在一個平臺上開設帳號,什麼特徵的人會在不一樣平臺上都開設帳號,在不一樣平臺上使用風格是否相同,在不一樣帳號下活躍度是否相同,影響因素是什麼?這是在封閉的數據環境下沒法進行分析的。
數據是企業最重要的資產,並且隨着數據產業的發展,將會變得更有價值。但封閉的數據環境會阻礙數據價值的實現,對企業應用和研究發現來說都是如此,所以咱們須要合理的機制在保護數據安全的狀況下開放數據,使數據獲得充分利用。有效的解決辦法之一是公正的第三方數據分析公司、研究機構做爲中間商收集數據、分析數據,在數據層面打破現實世界的界限,進行多家公司的數據共享而不是一家公司盲人摸象,這才能實現真正意義上的大數據,賦予數據更廣闊全面的分析空間,纔會對產業結構和數據分析自己產生思惟轉變和有意義的變革。
(二)斷裂數據使數據缺少結構化 封閉數據使咱們沒法看到多樣化的數據,斷裂數據則使數據缺少結構化。來自IDC的報告顯示,2012年全球數字信息中90%的數據都是視頻、聲音和圖像文件這樣的非結構化數據[15],缺少結構化自己是能夠經過新技術解決的問題,正由於如此才使這個問題變得棘手。對新技術的過度追逐,一方面會使得數據自己的真實性、完整性遭到破壞,另外一方面會使對數據背後的人和生活意義的分析得不到充分重視。
1.行爲背後看不見人,缺失生活意義。
以淘寶爲例,當淘寶想研究「到底是什麼人」在淘寶上開店的時候,他們發現並不像想象中的那麼容易。
在淘寶公司的實時地圖上,能夠利用GPS系統清晰的知道每一秒全國各地正在發生的交易,可是對於這些人的族羣特徵,實時地圖並不能告訴他們更多。[16]一樣的問題出如今騰訊遊戲部門的用戶研究中,他們並不能從實時的監測中知道是誰在玩他們的遊戲,他們有什麼愛好、是什麼性格、爲何喜歡一款遊戲?他們知道的只是一個ID帳號,這就是斷裂數據帶來的問題:表面上全面,實際上都是片斷式的數據。全數據確實能夠在必定程度上掌握人的行爲,可是沒法知道是什麼樣的人的行爲。明白這一點,就能夠理解爲何谷歌會推出Google+,以獲取具體的用戶信息,包括姓名、愛好、朋友、身份等具體數據。任何一個平臺都有其數據收集方面的優點,也有其短板,表面上擁有海量數據,但其實都只是一個片斷,缺少連續性和可識別性。
巴拉巴西在《爆發》中介紹了一個網站LifeLinear,用戶經過在搜索框中輸入本身的名字就能夠查到本身一天任什麼時候間任何地點的監控錄像,不管在哪兒,你的行蹤都會被網站記錄下來。這是做者虛擬的一個網站,但信覺得真並輸入網站名字進行搜索的人不在少數,由於理論上它是能夠實現的,一是藉助城市中的無線監視系統,反饋數據到單條檢索數據庫中,指示計算機追蹤全部的人。二是,也是最爲關鍵的是每一個人都有固定的生活習慣、行爲規律,系統能夠據此爲每一個人創建行爲模型,而後預測你可能出現的地方,並在那兒等你。[17]
這樣一個系統的創建依靠技術系統,但更主要的是對每個個體的全面瞭解和分析,假設、模型、檢驗缺一不可。在這本書中巴拉巴西介紹的另外一位數據公開者,他把本身的位置數據、財產信息都傳到網上,可是關於這我的你一無所知,由於沒有任何關於他性格、喜愛等個性化信息,是「什麼都有,但什麼都缺」的典型案例。
2.大量的非結構化數據顛覆原來分析的基本範式。
在大數據時代,須要處理的數據再也不是傳統意義上的數據,而是文字、圖片、音頻視頻等種類多樣的數據,大量的非機構化數據對數據分析提出了新的挑戰,由於只有能被定義的數據纔是有價值的信息。
使用人人網的用戶大概不會陌生,在我的主頁上會出現好友推薦,這很簡單,只須要分析用戶的好友,找到朋友之間的關聯,就能夠找到這一點。可是當人人網須要決定在廣告位上投放何種廣告時,則須要對大量的由用戶產生的文字、照片、分享內容與好友的互動進行分析。海量的非結構化、半結構化數據如何加以結構化並從中找出規律,這須要新的算法、新的分析思惟。
4、缺失數據 奧斯卡·王爾德在1894年說,「現在幾乎沒有無用的信息,這真悲哀。」嚴格的說,他一半都沒有說對。只有有價值的數據才稱得上信息,從數據中得到儘可能多的信息並不是易事,隨着數據量的擴大,缺失數據產生的比例也會相應擴大,尤爲當一個樣本中出現多項缺失時,會加大處理的難度,除了構造模型失之準確以外,還有時間複雜度方面的問題。
對全部大數據來說,分析哪一個問題數據量都不夠大,對於全部人來說,數據都是缺失多於正常數。在數據收集和整合過程當中採用新技術手段避免這一問題將使這一問題在分析上帶來的分險變得更突出,好比BI公司爲了不數據的不完整性採用快速修復技術整合分散數據,這將使咱們失去最原始的真實數據,這使得研究者很容易捨棄與假設不符合的數據,也使驗證結論變得再也不可能。
好比雀巢在200個國家出售超過十萬種產品有55萬家供應商,但因爲數據庫一團糟它並未造成強大的採購議價優點。在一次檢查中它發現,在900萬條供應商、客戶和原材料記錄中有差很少一半是過時或重複的,剩下的有三分之一不許確或有缺失。供應商名稱有的簡寫有的不簡寫,產生了重複記錄。[18]這一個案例中就包含了封閉、斷裂、缺失數據的問題。
當然缺失數據能夠嘗試經過模糊數據集理論獲得解決,但許多研究情境對數據的要求是有肯定性的。大數據時代須要的不僅是全數據、海量數據、實時數據,而是真正的開放、更可能接近精確、着眼於人和社會的分析方法和思路。封閉的數據平臺,對斷裂數據、缺失數據在分析上構成的風險的忽視會使咱們仍然停留在小數據時代,更糟糕的是,數據還在小數據時代,方法上卻已經在單純鼓吹各類應對大數據的新技術,這種不匹配形成的混亂比大數據自己帶來的混亂還要危險。
在必定意義上,咱們能夠運用已收集的數據,先來了解如何把事情作得更好。從這個角度上,咱們再來考慮創新和大數據應用。畢竟,大數據產生影響的不僅是經過協同過濾技術來預測你須要什麼產品,也不僅是何時買機票會更划算一些,這只是令人類和商業變得更聰明有趣的一個方面而已,紐約大學商務教授Sinan Aral說:「科學革命以前一般是測量工具的革命」,[19]大數據如此洶涌的發展之勢和席捲一切的雄心勢必將會影響到科學理論研究領域,這也是爲何咱們須要保持一點冷靜和審慎判斷的緣由。此外,大數據在推進信息共享,促進社會進步方面顯示出來的潛力也值得咱們爲更完美的解決方案努力。
誠如格爾茲所說:「熱力學第二原理、天然選擇原理、無心識動機概念,或生產方式的組織並無說明全部的東西,甚至連人的事情都沒有一一說明,但他們畢竟解釋了某些事物;認識到這一點,咱們的注意力也就轉向肯定這些事物究竟是什麼,轉向使咱們擺脫這些觀念在其最盛極一時之際致使的大量僞科學的纏繞。」在文章的最後,借用格爾茲在《文化的解釋》提出的觀點,表達對大數據研究的見解,由於時至今日,大數據這個概念的模糊之處仍多於其所昭示的,可待完善與研究之處仍然不少,咱們的工做纔剛開始。
最後但願你們多多關注,更多精彩的文章帶給你們,有興趣學習大數據的能夠加羣:615997810,羣裏有大數據基礎與項目實戰的學習資料,還有java,java面試資料,Python基礎學習資料,找羣主免費獲取哦