全文共2848字,預計學習時長6分鐘安全
若是你上過統計學導論課,就會知道一個數據點能夠激發靈感或者驗證理論,但不能同時用於兩種用途。這是爲何呢?微信
人類有點過於擅長從萬物中尋找規律。找出的規律多是真實的,也多是虛假的。人類甚至能從薯片上看出流行歌手貓王的臉。若是想要從規律中得到真正的知識,記住區分三種數據規律:機器學習
· 存在於特定數據集中而且能夠推廣的規律/事實學習
· 只存在於特定數據集中的規律/事實測試
· 只存在想象中的規律/事實(過分關聯錯覺)大數據
哪種規律有用?這取決於你的目標。人工智能
靈感3d
若是隻是在尋找靈感,這三種規律都頗有用。甚至是過分關聯(apopheny)——源於術語 apophenia,意指人類錯誤地在無關事物間尋找聯繫和意義的傾向——也能讓靈感涌現。靈感沒有標準答案,因此只需爲所欲爲地觀察和擺弄數據。不過這只是額外的好處,儘可能不要在這方面浪費太多本身或其餘相關人員的時間。orm
事實cdn
政府徵收稅款時只會關心公民本年度財務數據中的規律。它須要分析這些數據,基於事實判斷你應該繳納的稅款。換言之,觀察數據並對其套用公式。這被稱做純粹的描述分析,它只針對手頭的數據。前兩種規律都適用於這一目的。
1. 只針對手頭數據的描述分析,不肯定狀況下的決策
有時發現的規律與預期不相符合。不具有作出決定所需的全部信息時,就須要探索不肯定性來挑選合理的決策。
這就是統計學——一門在不肯定條件下影響決定的科學——所研究的。它關心如何像伊卡洛斯同樣超越已知,同時又不犯錯以至落入水中。
2. 如何排除不重要的數據觀察結論是數據科學的核心問題
開始以前,你最好但願在有限的觀察中發現的規律也適用於觀察範圍外的數據。也就是說,有用的規律必須具備可推廣性。
上述三種規律中只有第一種(可推廣的)規律能夠被用於在不肯定條件下作出決策。不幸的是,數據中也可能發現其餘兩種規律。這就是數據科學的核心問題:如何排除不重要的數據觀察結論。
推廣
並不是只有人類會從數據中提煉出無用的規律。若是不夠當心,機器也可能犯一樣的錯誤。
3. 機器學習/人工智能的用處是針對未知狀況作出正確推論
機器學習能夠在數據中經過計算找到規律並將其應用於新的數據,從而作出許多類似的決策。在機器學習/人工智能術語中,可推廣性指的是模型處理新數據的能力。僅對已有數據奏效的規律性方案有什麼用?一個查詢表就能解決這個問題。機器學習/人工智能的用處在於針對未知狀況作出正確推論。
這就是隻有第一種規律能夠應用於機器學習的緣由。它是信號,而其餘兩種只是噪音(只存在於已知數據中的特殊規律,會阻礙你發現可推廣的模型)
4. 信號:不僅存在於特定數據集中的規律;噪音:只存在於特定數據集中的規律
實際上,找出處理舊數據而非新數據的解決方案在機器學習中被稱爲過擬合。(人們以咒罵的口吻說出這個詞)機器學習領域的幾乎一切努力都是爲了不過擬合。
因此這一規律屬於哪種?
假設你(或機器)發現的規律是真實存在的,它屬於哪種?它存在於但願研究的目標數據集中嗎(信號)?或者只是目前擁有的數據集的特性(噪音)?如何判斷髮現的規律屬於哪種?
觀察全部可用數據沒法得出結論。你將困在其中,無從得知相同的規律是否存在於別處。整個統計假設檢驗都應該創建在未知的意外之上,不要僞裝驚訝地發現存在於數據中的已知規律。(那必然成爲p值黑客。)
有點像看到兔子形狀的雲,而後使用同一朵雲來檢測是否全部的雲都像兔子。但願你能夠意識到,測試理論須要一些新的雲。
5. 任何啓發理論或問題的數據點都不能用於檢測該理論的正確性
若是隻能獲得一張雲的圖片,那麼能夠作些什麼?在掃帚壁櫥裏冥想,沒錯,就是這樣。在觀察數據以前先提出問題。
6. 數學永遠不會違背基本常識
這導出了一個使人不快的結論。若是調用整個數據集來尋找靈感,就不能再用它來嚴格測試獲得的理論(不管採起多少數學技巧,由於數學毫不會違背基本常識) 。
艱難的選擇
這意味着你必須選擇!若是隻有一個數據集,你就不得逼問本身:「是在壁櫥裏冥想,思考全部的統計測試假設,而後仔細採起嚴格的檢驗方法,認真地對待呢?仍是僅僅挖掘數據獲取靈感,但不必定把結論當真,使用「我以爲」或「我不肯定」之類的詞來修飾結論?艱難的選擇!
或者有沒有辦法在擁有一個蛋糕的同時把它吃掉?問題在於只有一個數據集,而你須要多個。若是數據量很大,筆者有辦法解決問題。
一個神奇的技巧
想要在數據科學方面取得成功,只需經過拆分數據將一個數據集轉換爲(至少)兩個。一個用於啓發靈感,另外一個用於嚴格測試。若是激發你靈感的規律也存在於另外一部分數據中,那麼這種模式極可能適用於全體數據。
7. 若是兩個數據集中存在相同的現象,那麼這個現象可能也廣泛存在於它們來源的大數據集中
若是未經檢驗的生活不值得過,那麼請靠着這四個詞活下去:分割你該死的數據(Split Your Damned Data)。
若是每一個人都對數據集進行分割,世界會更美好。人們將獲得更好的答案(經過統計數據)和更好的問題(經過分析)。不強制分割數據集的惟一緣由是,在上個世紀,這是一種難以負擔的奢侈行爲。數據集很是小,若是試圖拆分它們,可能就什麼也不剩了。
將數據拆分爲一個用於啓發靈感的探索性數據集和用於對處在研究階段的發現進行嚴格檢驗的測試數據集。
今天有些項目仍然存在這個問題,特別是在醫學研究中(筆者曾經涉獵神經科學領域,所以很是理解使用小型數據集的難度)。可是現在不少人都擁有大量數據,多到須要聘請工程師來移動它。那麼還有什麼理由不對數據進行分割?!不要吝嗇,分割你的數據吧!
8. 不習慣分割數據的你可能還停留在20世紀
若是你已經得到了大量數據,可是仍然在研究未分割的數據集,那麼你仍然止步於陳舊的觀點。不少人知足於陳舊的思想,忘記與時俱進。
機器學習是數據分割的產物
講到這裏,本文的觀點總結起來很是簡單。使用一個數據集尋找結論,操縱鏡頭,而後像變魔術同樣證實它在一個全新的數據集中一樣成立。
9. 培養更健康的數據文化,數據分割是最簡單快速的解決方案
這就是在安全範圍內應用統計學,以及避免在機器學習/人工智能中因過分擬合而犯錯的方式。事實上,機器學習的歷史就是數據分割的歷史。
如何應用最好的數據科學觀念
要應用這一最好的數據科學觀念,只要確保將一些數據置於分析範圍以外,其他的全權交給分析師來處理。
10. 要在數據科學方面取得成功,只需拆分數據,將一個數據集轉換爲(至少)兩個
若是認爲分析師得出了可推廣的有用發現,使用祕密測試數據來檢查得出的結論。就這麼簡單!
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)