大數據的十大侷限

圖片1

一、數據噪聲:與生俱來的不和諧html

大數據之因此爲大數據,首先是由於其數據體量巨大。然而,在這海量的數據中,並不是全部的數據都是有用的,大多數時候,有用的數據甚至只是其中的很小一部分。隨着數據量的不斷增長,無心義的冗餘、垃圾數據也會愈來愈多,並且其增加的速度比數據信息更快。這樣一來,咱們尋求的重要數據信息或客觀真理每每會被龐大數據所帶來的噪聲所淹沒,甚至被引入歧途和陷阱,得出錯誤的結論。前端

圖片2

二、真實性:不得不接受的虛假安全

引領咱們進入困局的並非咱們不知道的事物,而是咱們知道、但不那麼真實的事物。」真實性是一切數據價值的基礎,然而這同時也是大數據的一大先天性缺陷。網絡

網絡是大數據最重要的來源之一,而網絡自己就充斥着大量的虛假信息。例如,網絡數據中存在着大量的虛假我的註冊信息、假帳號、假粉絲、假交易、灌水貼及虛假的意思表示等。這種失真是由網絡自己的特性決定的,好比說,絕大多數社交網站很難也不會對會員註冊信息的真實性進行全面覈查,電商平臺也沒法控制一人註冊多帳號,或帳號與實際消費個體的非對應關係(想一想你家有沒有共用一個寬帶或電商帳號的狀況)。工具

除了網絡數據,即使是經過原始方法採集的我的信息數據也沒法保障其真實、準確。就拿電信運營商來講,即使推行了實名制,數據質量與指望仍有至關差距。開發工具

能夠預見,在至關長的時間內,即便最優秀的數據科學家、最早進的數據處理方法也沒法消除或修正某些數據固有的錯誤和不足,對大數據真實性的追求無疑是擺在咱們面前的又一挑戰。大數據

圖片3

三、表明性:永不可能的全樣本優化

大數據來源大體能夠分爲兩類,一類來自於物理世界的科學數據,如實驗數據、傳感數據、觀測數據等;另外一類則來自於人類社會活動,主要是互聯網數據,如社交關係、商品交易、行爲軌跡等我的信息。然而,這兩類數據的產生、收集都存在很大的盲區和侷限性。例如:不少人在網上訂餐或消費的時候每每會參考其餘人的推薦和點評,但常常在消費之後發現並不如意。撇開我的口味和刷評的因素,還有一個重要緣由在於,網上點評的人並不具有足夠的表明性。喜歡上網的自己就只是消費人羣中的一部分,上網消費同時又喜歡點評的人更只是其中的一小部分,因此,由帶有明顯傾向的小衆來表明整個羣體明顯是錯誤的。網站

不管科學技術如何發達,來自於物理世界和網絡社會的大數據永遠都不可能覆蓋整個天然界和人類社會;若是再考慮宗教、法律、倫理、道德上的諸多限制,那麼大數據就更不可能成爲「全樣本」了。並且,被遺漏的那部分數據每每並非隨機誤差,而是系統誤差,在統計分析時不能不考慮。也正由於如此,社會學家對大數據的表明性老是保持着一份難得的疑慮和審慎,在許多領域仍然堅持用傳統的抽樣方法而不是大數據來進行社會研究。視頻

圖片4

四、完整性:廣度與深度的缺失

大數據的完整性不足主要是指單個組織所能獲取的數據體量雖然巨大,但所包含的實際信息卻十分有限,以至難以以此爲基礎進行復雜的邏輯運算或全面描述。這種不完整主要包括信息維度(決定信息廣度)的缺失和維度信息(決定信息深度)的缺失。

舉例而言,電信運營商因爲把控着數據管道,從而能夠較全面地掌握用戶的上網信息,有着較好的信息廣度,但其掌握的信息深度卻不夠。運營商能夠清楚地知道用戶在什麼時間、什麼地點、以什麼終端、什麼網絡訪問了京東、亞馬遜、天貓等電商,瀏覽了何種商品,停留了多長時間等(信息廣度充分),但卻不能掌握用戶是否在某電商平臺上購買了商品、購買了何種商品、參與了什麼促銷活動、以什麼方式付款、支付了多少款額等(信息深度不足)。很顯然,京東對用戶在本身商城的瀏覽、消費行爲了如指掌(信息深度充分),但它卻沒法瞭解用戶的其餘互聯網行爲及在其餘電商平臺的消費行爲(信息廣度不足)。

在大多數狀況下,對某種天然、社會現象的深刻研究或者對用戶的超級刻畫,信息廣度和信息深度缺一不可。從這個意義上講,真正的大數據應是創建在共同的標準基礎之上,融合了企業、政府、科學研究等跨領域、跨行業、跨平臺數據的集合,是社會大數據。

然而,當前的大數據依然以獨立孤島的形式存在,沒有任何一個組織可以獲取在廣度和深度上都足夠充分的數據。應該大力推動全社會的數據公開和共享,其中政府數據開放尤爲重要。絕不誇張地講,真正核心的數據絕大部分掌握在政府手中,沒有政府參與,就沒有真正的大數據。

圖片5

五、時效性:秒級價值存在

任何數據都位於一個連續的時間軸上,都有其時間屬性,即數據年齡。不一樣年齡的數據有着不一樣的價值特性,每每老數據具備整體或趨勢分析價值,新數據則更具備個體應用價值。大數據時代,信息更新速度很是快,從應用的角度看,大數據的時效性每每很是短。

用於探測地震和海嘯的傳感器所產生的數據時效每每只有幾秒鐘,在此以後就基本失去意義了。美國國家海洋局的超級計算機可以利用傳感器傳輸的數據,在日本地震後9分鐘內計算出海嘯的可能性及強度。短短的9分鐘,基本反映了當前人類計算的最高水平,但這對於瞬間消失的生命來講仍是太長了。

大數據時效性的要求對數據的實時採集、實時加工、實時分發提出了極高的要求。數據處理上有一個著名的「1秒定律」,即要在秒級的時間範圍內計算出分析結果並分發出去,超過這個時間,數據就失去價值了。這在許多時候還很難作到,從而在至關程度上限制了大數據的應用。

圖片6

六、解釋性:不能沒有因果關係

對於舍恩伯格關於大數據的另外一個核心觀點,「不是因果關係,而是相關關係」,只須要了解是什麼或將來會發生什麼,而不是爲何和事情發生的內在緣由,筆者一樣不敢苟同。

相關關係僅表明着過去和個案,沒有解釋性,有時甚至是錯誤的,並且不能推而廣之。只有掌握了事物之間的因果關係、緣由機制和科學原理,才能觸類旁通,迭代更新,持續推進社會進步。這是很簡單的道理,沒必要贅言。

關於相關性,一直爲人津津樂道的即是啤酒與尿布的故事。然而,沃爾瑪商品品種成千上萬,相關關係數十億之多,我想相似的絕妙組合尚有很多,爲何再也難見?更況且,人們仍然對啤酒與尿布的相關關係進行了合理的因果邏輯解釋。試想,若是首先發現了這樣的因果關係,再經過相關關係予以驗證,是否能夠發現更多的「啤酒和尿布」?

大數據分析須要藉助機器來完成,而機器歷來就只能給出數據間的相關關係,而不能說明因果邏輯。因果關係須要人的思考和判斷,電腦如今沒有、未來也不可能徹底替代人腦。玩笑一下,如此急迫地強調相關關係而不是因果關係,難道咱們真的不須要腦子了嗎?

圖片7

七、預測性:讓過去決定將來

大數據分析不管被賦予多麼絢麗的光環,從根本上講都只是對過去和現實的概括和總結,其自己並不具備趨勢和方向性的特徵。決定趨勢的是事物發展的內在因素及相互做用,在此方面大數據無能爲力,這是大數據的先天性缺陷之一。

舍恩伯格也坦言,與大數據同行是有必定風險的,大數據有可能會把咱們鎖定在以往的錯誤當中,使咱們墮入讓過去決定將來的陷阱。

如今有些基金公司推出大數據指數基金,指望經過大數據對股票行情進行準確的預測。歷史行情走勢只是過去已經發生的影響股票市場的諸多因素共同做用的結果,以此來預測將來的市場根本不靠譜。普林斯頓大學經濟學教授伯頓·麥基爾早在1973年的暢銷做品《漫步華爾街》中就指出,把一隻猴子蒙上雙眼後讓它向報紙的金融版擲飛鏢而選中的投資組合,和那些專家通過大量研究而謹慎選擇的投資組合相比,盈利性可能同樣好。近幾年甚至有研究者提出,麥基爾的這種見解低估了猴子(應該是高估了基金經理吧)。2008年,好事的俄國人更是用實驗證實了這一點。俄羅斯《財經週刊》從馬戲團找來一隻猴子,讓它從表明不一樣股票的牌子中選擇8支進行模擬投資組合,並投入100萬虛擬盧布。一年後,當金融專家再次觀察猴子所選股票的表現時不禁大吃一驚,其市值上漲了近3倍,跑贏了94%的基金。

必須認可,咱們處於一個不肯定的世界裏,有許多事件是沒法預測的。過度依賴大數據和預測模型是危險的,由於有許多決定性的影響因素都不能歸入模型參數的覆蓋範圍以內。從天氣預報、地震預測、足球比賽到金融危機等等,都對這一點作了很好的詮釋。

圖片8

八、誤導性:數據也會說謊

與大數據的表明性、真實性、完整性、解釋性等侷限性相關的,對統計現象只看結果不重解釋,極可能致使錯誤甚至危險的結論。二戰時期英國與德國的空戰中,工程師發現,每次戰鬥機回來機翼上都帶有不少槍眼,所以認爲機翼是最容易受到攻擊的地方,須要進行特別防禦。但是增長防禦以後,飛機的損失率不但沒有下降,反而提升了。問題究竟出在哪呢?原來工程師們被這一統計結果誤導了,從而採起了錯誤地防禦措施。對機翼槍眼的統計只針對成功返航的飛機,而那些不幸的飛機被擊落的緣由並無被統計和發現。相反,機翼受損還能飛回來,說明機翼被攻擊並非飛機被擊落的主要緣由。至於爲何增長防禦後飛機損失率反而提升了,緣由很簡單,由於負荷增長下降了飛機的靈活性和航程。後來,工程師們反其道而行之,在沒有槍眼的部位增強防禦,由於這些部位被擊中的飛機都沒有返航,事實證實效果良好。

圖片9

九、合法性:數據安全與隱私保護

大數據自己及其採集、使用過程都極有可能會涉及我的隱私、商業機密、公衆權益和國家信息安全。所以,安全性和合法性問題構成了大數據價值發揮的限制性因素之一。

商業和技術很重要,但商業和技術背後的價值觀更重要。

Google曾將"不做惡"做爲本身的公司價值觀;百度爲了短時間商業利益售賣多個貼吧,公然踐踏公衆隱私,結果遭千夫所指,萬人唾罵。這些都充分反映了公衆對隱私和信息安全的關注和重視。

白宮曾在2014年發表書面聲明稱,大數據創造的社會價值與經濟價值得以聽從該國提倡的「隱私、公正、平等、自主」。中國政府在此方面雖然還沒有立法,也歷來沒有明確的說法,但民衆的基本權益和訴求理當被審慎考慮。

誠然,安全性、合法性要求限制了大數據的使用和商業價值的充分發揮,但從社會價值的角度來看,是值得的,也是必須的。

圖片10

十、價值性:投入與收益的平衡

價值密度低是被公認的大數據特徵之—,這也在必定程度上限制了大數據的研究和應用。

一方面,由於大數據的低密度價值特徵,那麼要使其價值達到可用的程度,就必須有足夠規模的數據積累和有效的價值提取。以常規的監控視頻爲例,連續24小時的視頻監控中,有用的數據可能僅有數秒。如何優化存儲,並經過強大的機器能力迅速完成數據的加工處理和價值呈現,到目前爲止仍是大數據面臨的一大難題。另外一方面,大數據邊際效用遞增規律的存在,使許多企業、組織的數據沒法達到基本的規模要求,從而也使其數據價值沒法充分顯現。

同時,前面講到的大數據表明性、真實性、完整性、解釋性上的不足及由此引發的結論誤導,不只會下降數據的價值,甚至可能產生負面做用。

除此以外,大數據的採集、存儲、加工和使用所耗費的資金和時間成本都是很是高昂的。做爲大數據投資主體,應該在投入和收益之間進行合理平衡。當前的確存在那麼一種勢力,爲了某種目的極力鼓動企業進行大規模的大數據投資,若是不審慎評估,極可能得不償失。

在此講了這麼多大數據的侷限性,最後再次重申,並不是要以此否認大數據的價值;同時,也要再次強調,大數據表明的只是信息,而非智慧。對世界的改造僅憑有限的信息是遠遠不夠的,更須要人類取之不盡、用之不竭的智慧。只有用好了項上這顆六斤四,才能逐步突破大數據的侷限性,更好地發揮大數據價值。

相關文章
相關標籤/搜索