數據驅動的地理學 Data-driven Geography

數據驅動的地理學 Data-driven Geography算法

引用:Miller H J, Goodchild M F. Data-driven geography[J].GeoJournal, 2015, 80(4): 449-461.數據庫

         這篇文章的兩個做者但是鼎鼎大名,搞地理學的應該不陌生,Miller是俄亥俄州立大學教授,在地理信息科學尤爲是交通地理信息方面頗有名,Goodchild基本上能夠算目前地理信息科學領域第一人了吧,加州大學聖塔巴巴巴拉分校(這但是濤哥心中的聖地啊^-^ )的教授,美國科學院院士,地理信息科學這概念就是他老人家首先提出來的。網絡

       文章的題目很吸引人,「大數據」是近幾年很是火的概念,數據時代已經來臨,大數據開始影響社會各行各業,那麼在地理學的研究領域會引起什麼樣的變化呢,數據如何驅動地理學的研究呢。文章從大數據的概念開始,重點分析了用數據驅動地理學研究所面對的主要挑戰是什麼;在數據驅動的地理學研究中的理論扮演什麼樣的角色;以及大數據技術如何融入到地理學的研究中。機器學習

一、什麼是大數據。工具

大數據的「大」不只是指數量多,它體如今三個維度上,「3V」,volume:採集和存儲的數據數量;velocity:數據獲取的速度;variety:獲取數據的類型。性能

二、大數據與數據驅動的地理學。學習

目前人類獲取數據的能力是史無前例的,可是多了也不必定就好,有個比喻很形象,感受「就像從消防栓裏喝水」,咱們可能已經進入了第四個時期——數據驅動的科學,區別於以前的個體觀察驅動,理論發展驅動、計算模擬驅動的科學研究。不過地理學其實在不少年之前就面臨着「消防栓喝水」的狀況了,70年代Landsat就開始爲咱們帶來超出咱們分析能力的大量數據了,可是今天的大數據不只僅是數量的問題,它的種類變得更加多樣化,包括社交媒體、羣體共創、地基傳感器網絡、監控攝像頭等等,而且其獲取速度很是快。大數據

大數據正在催生一種新的科研方法論,數據已經不只僅用來校訂、驗證和實驗,而是變成整個分析的驅動力,因此,在數據分析師的腦海中,數據變成了從真實世界傳輸過來的具備很寬波譜範圍的高速數據流,咱們可能會進入第四種科研範式:研究方法是根據數據設計的,而不是像以前那樣數據去知足研究方法的需求。優化

三、數據驅動地理學面臨的挑戰。設計

在《大數據:將會改變咱們的生活、工做、思考的革命》這本書中提到了大數據對科學研究的三大挑戰,具體到地理學的研究中是什麼狀況呢?

(1)整體而不是抽樣。以前學者們研究發展抽樣方法用以應對數據和信息超負荷的問題,隨機抽樣的方法不錯,可是很脆弱,它的一個基本前提就是抽的樣必須有表明性,那麼不一樣的研究內容須要的採樣率就不同,爲某一項研究準備的採樣數據用於其它的研究可能就不合適。可是另外一方面,咱們選用整體數據進行研究,也不是就沒有問題,舉個例子,有時候是沒有抽樣,但整體數據自己就存在自選擇的問題。咱們收集的推特數據,其中只有一部分是具備地理位置信息的,咱們對於發信息的這羣人的人口學特徵是不清楚的,所以也很難把一些研究結論推廣到更多的人羣。

還有一個在志願地理信息(volunteer geographic information)研究中的例子,社交媒體好比Facebook可以很好的反映人口分佈特徵,可是並不必定能很好的反應人們的生活,你們在參加音樂會或者聽講座的時候願意曬信息,可是你要是夜裏10點之後在酒吧呢?因此這些信息可能並不能反映人們所有的生活,或者僅僅反映的是人們願意展現到社會環境中的生活。

(2)混亂而不清晰。 新的數據源每每比較散亂,結構混亂沒有質量控制,咱們至少有兩種方法能夠去應對,一個是將數據用於對數據質量不敏感的研究,比較軟的科研領域,初期的研究領域概覽,預約假設條件,定性研究。另外咱們能夠試圖去清理和驗證數據,實際上在傳統的地理信息獲取中,數據是通過數據採集分析人員的綜合的,比原始數據精度更高,可是這種綜合處理通常是沒有表現出來的,可是在大數據時代這種綜合處理將會更加清晰和關鍵。整理和驗證這些混亂的數據主要有三種策略,(a)基於人羣的解決方案,原理就是萊納斯法則,「只要有更多的眼球關注,最終的產品就有更好的精度」,例子就是維基百科,開放的貢獻編輯在自動編輯程序的輔助下就能產生比較準確的結果。(b)基於社會的解決方案,由自願參與的主持人和信息傳遞者組成一種層次結構,根據不一樣個體的行爲記錄和他們貢獻的準確度,把他們任命爲這個層級結構中的不一樣角色,若是產生了爭議和疑問就反映到上一個層級進行處理。我我的感受這好像有點相似於國內的字幕組的狀況。(c)基於知識的解決方案,主要是將獲取的數據和已知的地理世界進行對比,檢驗其一致性,未來這種對比可能變成自動的,接近實時的,好比說入口匝道通常與主路的夾角是小於30度的,利用這個常識就能夠檢驗獲取數據的真實性。這種基於知識的解決方案關鍵的挑戰在於如何將咱們掌握的地理知識公式化。

(3)相關而不是因果。傳統的科研關注事物產生的緣由,單純的相關每每是不夠的,由於存在相關並不代表一個變量的改變就必然引發另外一個變量的改變。長久以來,科學界對單純的研究相關性而沒有研究因果關係,或者沒有給出足夠的解釋是嗤之以鼻的。可是不管如何,相關性在預測方面是有價值的,尤爲是你若是認爲這種相關性在研究數據之外也具備廣泛性。雖然單純的研究相關性並不夠,可是因果和解釋性也並非全部科學研究的必要條件,好比像空間分析領域,地理信息科學領域的文獻中有不少關於發現模式,數據可視化,從數據中發現信息的研究,這些工具在數據驅動的科研中是頗有價值的,而回答「爲何是這樣」可能並不那麼必要。

四、數據驅動地理學中的理論研究

在Wired雜誌上有一篇引發熱議的文章,Anderson認爲數據的洪流已經使咱們的科研方法顯得過期,咱們目前的這種科學模式即將進入尾聲。以生物學和物理學爲例,如今的研究進展已經進入超現實階段,愈來愈難以解釋,在接下來的進程中,解釋可能並非必須的,相關將接替因果,在缺乏一致的模型、理論、機理解釋的狀況下科學也能夠進步

數據驅動的研究可能將產生一種轉變,從普適的通用的研究變爲針對某一特定環境的研究。這種轉變有一些明顯的好處,Batty就曾指出城市規劃和城市研究在數據不豐富的時代,主要關注的都是那些長時間段內,大規模的激進的變化而不是那些着眼於本地的,小區域的一些改變。數據驅動的城市科學可以更加關注城市局部的、平常的變化,進而有可能在改善城市病方面取得進展。

相似於上面提到的,從普適的通用的研究變爲針對某一特定環境的研究,其實地理學早已經在「尋求法則」和「尋求描述」之間經歷了至關漫長的過程。從早期的洪堡、李特爾到區域地理學派、地理學危機、計量革命,到後來Goodchild認爲GIS融合了二者,軟件和算法是基於法則的,具備普適性的;而其數據庫是基於描述的,具備特異性的

在重視數據的地理知識獲取方法中,咱們彷佛回到了地理學早期的基礎,「尋求法則」和「尋求描述」二者都不會是壓倒性的優點,地理學能夠創建統一的法則,可是又跟具體的空間位置有關係。因此,數據驅動的地理學研究理論跟傳統的地理學研究理論並不會產生明顯的斷裂。

五、數據驅動地理學的研究方法

若是咱們接受了上面的這個前提,就是大數據和數據驅動與地理學中長久以來的主題和理論基礎是和諧的,那麼這種數據驅動的研究方法怎樣融入到地理學研究中?用數據驅動的方法去支撐地理知識發現和空間建模所面臨的問題和挑戰有哪些?

(1)數據驅動的地理知識發現。地理知識發現是指研究的初期狀態,提出概念觀點,創建待檢驗的假設條件,開展基礎工做支持知識構建。對於這個階段,數據驅動並非革命性的新方法,應該是對現有處理過程的增強,像是望遠鏡和顯微鏡可以使咱們注意到更多隱藏的事實。

數據驅動的知識發現的哲學基礎,就是「溯因推理」,從用數據描述到最終用一個假設去解釋數據。它是「演繹推理」和「概括推理」的一個弱形式,演繹推理獲得「X確定是真的」的結論,概括推理獲得「X是真的」的結論,溯因推理只能獲得「X多是真的」的結論,即使如此,溯因推理在科學領域也是很重要的,尤爲是在知識構建的初級階段。

咱們要進行數據探索和模式發現,還要面對的一個困難就是大數據的數量和複雜性,咱們能夠用背景知識和興趣度量來應對,背景知識指導咱們發現合理的新奇的模式,興趣度量能夠從簡單性、肯定性、用途等維度過濾那些僞模式,不過這兩個方面的實現一樣依賴於咱們上面提到過的「地理知識的公式化」。

(2)數據驅動的建模。傳統的建模方法是對理論進行「演繹推理」後,獲得一個正式的表達,它能夠對現實世界進行預測,也可以被數據驗證。數據驅動的建模是不同的,它對數據進行「概括推理」從而獲得模型。這也存在很多爭議,由於模型可否對現實進行預測變成了檢驗模型的惟一標準,而模型的解釋性則變得可有可無。在地理學中一樣存在這種爭論,Stan Openshaw很是支持利用計算機直接分析數據,從而構建空間關係模型,好比地理分析機(Geographical Analysis Machine, GAM),它不須要任何理論假設和先驗知識就能夠進行區域彙集和熱點分析。

對於這種忽略理論的建模,一個問題就是在尋找解釋性模型的過程當中效率可能很低。由於理論會告訴咱們去哪尋找解釋,或者至少是不用去哪需找,好比,在一個特定的空間關係建模中,就能經過尺度分析理論提早剔除掉一部分選項。雖然計算機的高性能以及聰明的算法能夠增長咱們成功建模的機會,可是數據的數量、種類和更新速度也在快速增長,在這二者的軍備競賽中誰是勝者還難說。

這種忽略理論的建模的另外一個問題在於並不能保證從不一樣數據中獲得相同的模型,即便是相同的數據集,也可能獲得不一樣的擬合的很好的模型,擬合優度標準的微小變化就會致使獲得差別巨大的最優模型。這其中就會遇到統計中的過分擬合問題,這是數據概括分析技術中的一個廣泛問題,好比人工神經網絡和機器學習,2013年的《經濟學人》提到一些研究代表3/4已發表的機器學習領域的科研論文都是有問題的就是覺得其過分擬合。

忽略理論的建模的第三個問題在於結果模型可能很是複雜。傳統科學研究的一個原則就是,用最簡單的模型解釋儘量多的問題,好比你們熟知的奧卡姆剃刀原則:「兩個一樣效果的模型,簡單的那個更好。」 模型的解釋性是一個沒有正式的要求,可是是對模型很是關鍵的一個檢驗,模型的創建者必須可以從現實解釋模型的結果。可是從數據計算並進一步根據預測結果進行微調獲得的模型對人類的大腦來講已通過於複雜了。例如Openshaw的自動分析系統獲得的空間關係模型就很是複雜(見下圖)。

數據驅動的模型是複雜而且不可壓縮的,只有數據才能解釋它。若是這種解釋是不能被人腦所理解的,那麼咱們還可否有本身的解釋呢?也許是這種解釋也在進化;也許是電腦做爲數據驅動科學的基礎,並不只僅是發現,更是用一種超越了人類理解能力的複雜模式進行了表達;也許是像一些預測說的那樣,這只是在咱們人類可以融會貫通人腦和機器智能以前的一個暫時的狀態。這很難說清楚,不過這讓我想到了Nate Silver的警告,講數據的故事而不是現實世界的故事,這是很是危險的,這會把咱們引向錯誤的信號噪音

最後一個問題是數據驅動的空間建模是去技能化的,會下降咱們進行建模和分析的能力。把世俗繁瑣的任務交給計算機能夠解放人們去進行那些精細複雜的活動,可是有些時候,那些世俗繁瑣的任務是很是關鍵的。例如,如今的飛行員缺乏手動飛行的經驗,使他們在面對自動飛行關閉的緊急狀態下,顯得手足無措。在Openshaw的自動空間關係建模系統的幫助下,分析人員在空間關係建模方面的能力就會降低,可能在組合優化方面的能力會提升。因此這可能就須要在教育和資格認證的時候要求地理從業人員具有這方面的能力,或者經過設計軟件鼓勵或要求分析人員具有這些基本能力。

不過咱們在30年後重讀Jerry Dobson於1983年寫的關於自動化地理學的預言,一個讓人印象深入的內容就是,那些讓人痛苦的麻煩事之後可能只須要按一下按鈕。不少上了年紀的地理學家可能會想起當年地圖製圖的那些基礎課程,今天咱們認爲很關鍵的技能會不會在明天就變得像鋼筆,墨水那樣無人問津,變成了小衆的一些玩意了呢?

六、結論

當地理學研究進入大數據的時代,最大的基礎性變化不是數據的數量,而是數據的種類和更新速度,數據驅動的地理學是因應豐富的包含地理信息的數據流而出現的。伴隨着數據驅動地理學還有不少問題都浮現出來,其中一些是原本就在地理學研究中長期存在的,可是,空間語境仍然會是地理思考的主題,而且也是各類方法背後的主要驅動力。大數據在地理知識發現和空間建模方面有潛力也有挑戰,好比說如何將地理知識公式化用於清理混亂的數據和剔除僞模式,如何創建真實而且能夠理解的數據驅動的模型。

相關文章
相關標籤/搜索