由Markus Reichstein 在 2019 發表於 《Nature》。網絡
這是一篇綜述性文章,介紹了機器學習如何在地學中的應用與挑戰。地球系統科學進入了大數據時代。地球系統數據就是典型的大數據,具有大數據四大特徵:volume, velocity, variety and veracity(體積,速度,多樣性和準確性),例如各類遙感、定點觀測、模式數據。現在面臨挑戰就是如何從這些大數據中提取並解讀信息,由於信息收集速度遠大於咱們所能消化的速度。數據的增多並未帶對系統預測能力的提升,咱們須要對數據進行理解。在這種背景下,機器學習就是咱們很好的機遇。機器學習
文章從以幾方面具體展開論述:學習
(1)地學中最早進的機器學習。諸如神經網絡、隨機森林方法很早就應用於地學中的分類、變化檢測、土壤製圖問題。但這些應用是針對空間,在時間上是相對靜態的,但地球是不斷變化的。機器學習迴歸方法在時間動態上具備優點,好比具備隱含層的人工神經網絡,可預測碳通量在時間與空間上的變化。但這些應用也存在一些問題須要注意,好比外推能力,抽樣或數據偏見,忽視混雜因素,統計關聯與因果關係等。經典的機器學習方法須要一些先驗知識肯定一些時空相關feature,而不能自動探索數據的時空特徵。一些時空動態特徵好比「記憶效應」能夠做爲feature手動加入到傳統機器學習中,但最新的深度學習已經沒有這些限制。大數據
(2)深度學習在地球系統科學中的機遇。深度學習已在其餘領域獲得了衆多應用,但在地學中的應用還處於初級階段。已有一些研究顯示深度學習能夠很好的提取時空特徵,好比極端天氣,而不須要不少人類干預。這也可用於城市變化的遙感自動提取。深度學習方法一般被劃分爲空間學習(例如,用於對象分類的卷積神經網絡)和序列學習(例如,語音識別),但二者逐漸融合,可應用視頻與動做識別問題。這些問題相似於地學中隨時間變化的多維度結構,例若有序降水對流與植被狀態。雖然有很大應用前景,但應用於時空變化的大氣海洋傳輸或植被動態還有待發展。spa
(3)深度學習在地球系統科學中的挑戰。雖然傳統深度學習的應用對象與地學現象有很大類似性,但也存在重要區別。好比高光譜、多波段就比基於三原色RGB的計算機圖像識別複雜不少,此外還有帶噪音、有缺測的衛星數據。另外,波段、時間與空間維度的集合也會帶來計算量的挑戰。計算機圖片中識別可大量「狗」,「貓」現成訓練樣本,而地學中沒有相似被標記的大量訓練樣本,如干旱。對外,做者總結出五大挑戰,分別來自可解釋性、物理一致性、數據的複雜與肯定性、缺乏標記樣本、以及計算需求。若這些挑戰能解決,那麼深度學習將對地學帶來巨大改變。近期最有前景的應用是」臨近預報「(nowcasting),將來是長期預測。做者認爲深度學習將很快成爲地學中分類與時空預測問題的主要方法。視頻
(4) 與物理建模集成。物理建模(理論驅動)與機器學習建模(數據驅動)過去每每被認爲是兩個領域,具備不一樣範式。但其實兩種方法能夠相互補充的,前者外推能力強,後者更靈活可發現新規律。做者提出二種方法可結合的幾個潛在點:改善參數化、用機器學習「替代」物理模型中子模塊、模型與觀測的不匹配分析,約束子模型、代替模型或仿真。對象
(5)推進科學發展。機器學習方法無疑給分類和預測問題帶來大幅提升。機器學習的數據驅動方法還可從數據中挖掘出過去不知道的新信息,從而推進新機制新認識的產生。blog
(6)結語。地球科學大數據時代機器學習頗有用,但也存在應用挑戰,做者對此提出四點建議:識別數據的特殊性、推論的合理性和可解釋性、不肯定性估計、針對複雜物理模式進行驗證。將來過程模型與機器學習將進一步結合。數據驅動的機器學習不會替代物理模型,可是會起到補充和豐富的做用,最終實現混合建模。圖片
第一做者Markus Reichstein是大牛,單位是1 Department of Biogeochemical Integration, Max Planck Institute for Biogeochemistry, Jena, Germany. 2 Michael-Stifel-Center Jena for Data-driven and Simulation Science, Jena, Germany.ci