圖源:unsplash機器學習
有人認爲,數據科學就是建立可用來預測的模型。這句話能夠這樣理解:咱們有了數據,探測發展模式,把這些再應用於預測將來,得到結果。這個邏輯說得通,其背後的理論,咱們稱之爲統計。ide
整個歷史長河中,有關預測的代名詞前後涌現,好比數據挖掘、分析、商業智能、運籌學、新興的數據科學。不過在這裏咱們不必深究統計與數據科學之間是否能劃等號,也大可沒必要對數據信息獲取的無數流行詞吹毛求疵。今天筆者想聊點兒別的。學習
你沒法預測將來,這一點毋庸置疑,但你依然試圖在用圖表樂此不疲地作着預測。你認爲數據中必定存在些信息,有誤差的「地圖」總比沒「地圖」強吧。測試
在NassimTaleb最出名的一本書中,他藉助隱喻說明人類以前對於預測將來的瞭解經不起推敲。多個世紀前,人們不相信這世上有黑天鵝的存在,由於從未有人見過。直到第一批探險隊伍抵達澳大利亞,他們發現原來也會有黑色的羽毛。設計
單一隻黑色家禽讓多年存在的「白天鵝定律」不攻自破。哲學家Karl Popper(1902-1994)認爲科學是完全糾正理論的事業。Popper認爲理論只多是錯的,咱們會須要無數證據驗證理論是否實事求是,但這不太可能。3d
你可能會說「這算個什麼哲學,這也太糟糕了!」讓實踐來講明一切吧!看一下國際貨幣基金組織2020年1月份的GDP增速預測:code
2020年1月IMF的GDP增速預測對象
這裏是8月份的預測數據:blog
2020年8月IMF的GDP增速預測遊戲
他們怎麼作到的短短几個月就能夠迅速改變預測?2019年12月31日,中國報道了武漢「連續幾件不明緣由疫情」,幾周後被稱之爲COVID-19,世界衛生組織將其升級爲全球性流行病。因爲該疾病會人傳人,整個世界的經濟會所以受到了影響。
國際貨幣基金組織是預測經濟的一個前沿機構,它傳達的信息變化很是快,會讓你對任何預測產生懷疑。假如你碰巧是所謂的「數據科學家」,但願你在預測時也持有懷疑的態度。
你也許會認爲IMF歷來沒打算準確預測將來,他們僅僅預測將來可能出現的狀況從而幫助決策制定者。我贊成你的說法,但關鍵是是穩增經濟有過山車式發展的風險並未考慮在內。
圖源:unsplash
IMF「單純預估」會讓決策制定者在將來幾個月中錯過最關鍵的信息。IMF並不是沒有能力預測或故意使壞,而是沒法預測。這正是Taleb 想傳達的:咱們沒法預測最重要的事件,由於沒有消息指向。數據也不難獲取,只是答案根本不在那!
對於黑天鵝事件,就算是數據也幫不了你。
股市幾乎徹底預測了近期的五次衰退。若是你還在臣服於數據科學的魔力,趕忙停下來吧。把時間投資在更容易獲利的領域:股市。
股市對數據科學家來講是一個再好不過的環境了。有無數須要計算的數據,這些不只是公共的資源,格式也正確。實際上,一些機器學習的文字介紹會將股市做爲主要對象,創建最好的模型。
若是你的預測準確,就會贏得一大筆錢。拋售下行股票,買上行股票。很不幸,這不太能實現,我打賭。
圖源:unsplash
根據S&P 的觀點(一家追蹤全世界平均股價的企業),「從以往來看,主動式管理基金在短時間核長期以來不如基準」。主動式管理基金須要工做人員預測市場趨勢,告知你們要賣哪一個或買哪一個股票。即使如此,他們也沒法超越基準,因此只購買每隻股票的一小部分來獲取平均回報的人會更佔優點。
用歷史數據預測股市是貿易中的傳統,這種方法屬於技術分析。這個話題存在爭議,時至今日一些人很是信誓旦旦地認爲這個方法奏效。他們認爲市場中有這樣的趨勢,許多億萬富翁的財富都要歸功於數據信號的利用。
也許這是對的。或許股市中確有趨勢,但80%的公司沒法利用此途徑,哪怕信息是真的,由於舊潮流後會有新的出現。事實證實世界是不斷變化的,萬事萬物變化得飛快,因此任何預測都無濟於事。
數據科學沒法預測股市是真實狀況。將「股市」變爲「公司收益」、「客戶選擇」或其餘老闆讓你預測的利益點,你還會認爲本身預測的數字是好的嗎?咱們沒法預測最重要的事情,哪怕這些事即將發生,小几率事件即便能夠預測也提不出什麼有價值的信息。
將來沒法預測,但能夠被創造。
就像我以前提到的,商業環境下從數據中抽取信息的歷史長達整整兩個世紀。因此咱們就該預測到所謂正常狀況下發生的事情。一我的必須是其領域中是最好的預測者,咱們纔會稱之爲專家。
Philip Tetlock開展了調查,想了解專家是否真的須要預測將來重要的事情。沒有成績的人如何能稱之爲專家呢?我認爲,就算這些人不擅長預測,也是善於編造故事的,只挑選最有用的信息而後另創一個故事,這足以讓不少人信服。
專家們都很謹慎,不會作一些容易被推翻的預測,不會告訴你準確的時間。他們通常會說「將來的路很難走」,怎麼個難法留給大衆去自行解讀。
咱們能夠用數字撒謊。在數據科學家眼中,這不是須要解決的重要問題,而是他們工做的一部分。他們是在講故事,如今用數字說服人也是一種技巧。或者用我最喜歡的TED講者的話說,「再添幾行,我會給你提供更多的數字」。
圖源:unsplash
任一家公司的員工都會被要求作出成績。在特特洛克看來,數據科學家很容易成爲「專家」。在企業政治遊戲中,一些分析師會運用各類編故事的技倆呈現最佳預測,即使是錯誤的關聯、沒有預測的能力,並且比不過測試數據集。
若是你從數據科學家那裏獲得了預測的話,問問你本身:這些數字在告訴我一些重要的事嗎?仍是特定程序給你呈現想要的結果?
事實如此不便多說,學術研究登記以前是有協議的。研究人員須要先提出問題再尋找答案,不然數據提示的信息都有可能成爲答案。至少你要知道這些數字可能什麼也說明不了,哪怕是背後的模型設計得再精密。
錯誤不表明徹底沒有價值,有用的東西蘊含在其中。在天天工做結束的時候,數據科學家給公司創造的價值就是:
· 沒有預測重大事件或意外發生的事件——好比黑天鵝。
· 就算沒有意外發生,數據中必定有一些重要的模式,這些模式可能沒法繼續利用,畢竟世界在變化——好比主動式基金。
· 即便某種方式會不斷受用,預測結果可能只是個美好的謊話——好比「那些專家」。
不是說數據科學家不必存在。咱們會定決策,但得看是基於金錢仍是數據,我傾向於後者。數據科學家越被鼓勵進行實驗,找到錯誤的速度就越快。
圖源:unsplash
但若是你相信了宣傳語投身數據的話,就大錯特錯了。獨角獸企業這麼作沒問題,由於首先,關聯並不表明因果;其次是無需爲那些迷信數據聖經的公司的失敗負責,用Taleb的話來講,這些公司深陷數字教條爬不出來了。
你可能以爲筆者有點兒偏激了,但個人目的在於:把你帶離數據驅動的烏托邦世界。數據科學並不是靈丹妙藥,它也有許多缺點,須要抱有懷疑態度,請跳出迷信理解數據科學。
編譯組:孫夢琪 相關連接: https://towardsdatascience.com/data-science-is-a-lie-d9157b9ed29c 如轉載,請後臺留言,遵照轉載規範
ACL2018論文集50篇解讀 EMNLP2017論文集28篇論文解讀 2018年AI三大頂會中國學術成果全連接 ACL2017論文集:34篇解讀乾貨全在這裏 10篇AAAI2017經典論文回顧