地統計分析筆記——探索數據

來自:http://blog.csdn.net/kikitamoon/article/details/49925147markdown

在執行地統計分析以前,瀏覽、熟悉、檢查本身的數據是相當重要的。繪製和檢查數據是地統計分析過程當中的必要階段,咱們能夠從這些工做中得到一些先驗知識,指導後續的工做。函數

 

Stage 1 繪製數據

經過ArcMap的圖層渲染方案繪製數據,咱們能夠得到對數據的第一印象。工具

例如,使用單一符號渲染瞭解採樣點的疏密分佈,經過分類渲染瞭解採樣點高值低值的分佈,等等。.net

這裏寫圖片描述

 

Stage 2 檢查數據

繪製數據後,使用 探索性空間數據分析 (Exploratory Spatial Data Analysis,ESDA) 工具來執行數據探索的第二階段。這些工具提供了一種比繪製數據更加量化的方式來檢查數據,有助於咱們更深刻地瞭解正在研究的現象,有助於咱們對插值模型的構建方式作出更加正確的決策。orm

ESDA 工具包括:blog

這裏寫圖片描述

 

Ⅰ 是否服從正態分佈?

Histogram/直方圖

這裏寫圖片描述

直方圖用於顯示感興趣數據集的頻率分佈並計算彙總統計數據,如何解讀圖形和統計信息呢?圖片

  • 若是數據服從正態分佈,則平均值(mean)與中值(median)相似,偏度(skewness)應接近零,而且峯度(kurtosis)應接近 3。
    • 平均值即爲數據的算數平均值。平均值提供分佈中心的測量值。 中位數與累積比例 0.5 對應。若是數據以升序排列,50%的值位於中間值之下,50% 的值位於中間值之上。中間值提供了分佈中心的另外一個測量值。 第一和第三分位數分別與累積比例 0.25 和 0.75 對應。若是數據以升序排列,則 25% 的值位於第一分位數之下,25% 的值位於第三分位數之上。第一和第三分位數是分位數的特殊狀況。
    • 偏度係數是分佈對稱度的測量值。對於對稱的分佈,偏度係數爲零。若是分佈具備較長的大值右尾部,則爲正偏分佈;若是分佈具備較長的小值左尾部,則爲負偏分佈。對於正偏分佈,平均值大於中間值;對負偏分佈,平均值小於中間值。
    • 峯度取決於分佈尾部的大小,提供分佈產生異常值可能性的衡量指標。正態分佈的峯度等於三。具備較厚尾部的分佈被稱爲高峯態,其峯度大於三。具備較薄尾部的分佈被稱爲低峯態,其峯度值小於三。
  • 數據的方差,一般對太高值或太低值很敏感。標準差爲方差的平方根,它描述了數據在平均值周圍的分散程度。方差和標準差越小,測量值聚類相對於平均值就越緊密。

 

Normal QQPlots/正態QQ圖

這裏寫圖片描述

正態 QQ 圖上的點可指示數據集的單變量分佈的正態性。若是數據是正態分佈的,點將落在 45 度參考線上。若是數據不是正態分佈的,點將會偏離參考線。get

 

General QQPlots/普通QQ圖

普通 QQ 圖用於評估兩個數據集的分佈的類似程度。這些圖的建立和所述的正態 QQ 圖的過程相似,不一樣之處在於第二個數據集不必定要服從正態分佈,使用任何數據集都可。若是兩個數據集具備相同的分佈,普通 QQ 圖中的點將落在 45 度直線上。數據分析

 

 

### 有關數據變換it

Geostatistical Analyst 中的一些插值方法要求數據呈正態分佈。若是數據偏斜(分佈不均衡),則可能須要將數據變換爲正態分佈。

Box-Cox 變換(又稱冪變換)
若是在某一部分研究區域中計數值很小,這一區域的變異性就小於計數值更大的另外一區域的變異性。在這種狀況下,平方根變換將有助於使整個研究區域內的方差更加恆定,一般還會使數據呈正態分佈。平方根變換是 Box-Cox 變換中 λ = ½ 時的特例。

對數變換
對數變換其實是 Box-Cox 變換中 λ = 0 時的特例。對數變換一般用於呈正偏分佈的數據。其中有些值很是大,若是這些大值位於研究區域中,對數變換有助於使方差更加恆定和歸一化數據。

例如數據以下分佈:
這裏寫圖片描述

變換先後對比:
這裏寫圖片描述

反正弦變換
反正弦變換可用於表示比例或百分比的數據。一般在數據爲比例形式時,方差在接近 0 和 1 時最小,接近 0.5 時最大。反正弦變換有助於使整個研究區域內的方差更加恆定,一般還會使數據呈正態分佈。

 

Ⅱ 是否存在異常值?

全局異常值是相對於數據集中的全部值而言具備很是高值或很是低值的已測量採樣點。
局部異常值是一個已測量採樣點,其值處於整個數據集的正常值域範圍內,但查看周圍點時,其值則顯得異常高或異常低。

若是異常值是現象中的真實異常狀況,那麼這多是研究和理解現象的最重要的位置點。若是異常值是由數據輸入過程當中的錯誤所致使的,那麼在建立表面以前應該對其進行校訂或移除。

Histogram/直方圖

若是在直方圖的最左側(極小值)或最右側(極大值)可以看到一個孤立的條,可能代表這個條所表示的點是異常值。這種條越孤立於直方圖的主條組,點是異常值的機率就越大。

 

Voronoi 圖

Voronoi 圖是由採樣點造成的泰森多邊形地圖。

這裏寫圖片描述

在查看 Voronoi 圖時,檢查附近是否有面符號色彩差異很大的值。

例如,下圖中紅色面明顯異於周圍值。

這裏寫圖片描述

 

Semivariogram/Covariance Cloud / 半變異函數/協方差雲

半變異函數/協方差雲工具能夠用來檢查數據集中空間自相關的局部特徵以及查找局部異常值。

這裏寫圖片描述

雲中的每一個點表示數據集中的一對點,x 軸表示各位置間的距離,y 軸表示這些位置上的值的差值平方。半變異函數中的每一個點都表示一個位置對,而不是地圖上的單個位置。所以雲中點的數量會隨着數據集中點的數量的增長而快速增長。若是數據集中存在 n 個點,則半變異函數/協方差雲中將顯示 n*(n-1)/2 個點。所以,不建議使用點數超過幾千個的數據集。若是數據集包含幾千個點,那麼應使用子集要素工具來隨機選擇點,而後在半變異函數/協方差雲中使用子集。

「半變異函數/協方差雲」工具對檢測局部異常值特別有用。它們顯示爲互相接近的點(x 軸上的低值),但在 y 軸上倒是高值,代表組成點對的兩個點的值有很大差別。這與所指望的結果正相反,即互相接近的點有類似的值。

 

Ⅲ 是否存在趨勢?

Trend Analyst / 趨勢分析

「趨勢分析」工具提供數據的三維透視圖。採樣點的位置繪製在 x,y 平面上,z值表示感興趣的屬性值。趨勢分析工具將散點圖投影到 x,z 平面和 y,z 平面上,經過多項式曲線對每一個投影進行了擬合。

這裏寫圖片描述

瀏覽圖形垂直牆面上的粗線。這些線表示趨勢。一條趨勢線沿 x 軸(一般表示縱向趨勢),另外一條顯示沿 y 軸的趨勢(一般表示緯度趨勢)。若是通過投影點的曲線是平的,則不存在趨勢;若是多項式曲線具備確切的模式(以下圖的藍線和綠線),這代表數據中存在某種趨勢。

另外,檢查趨勢時更改多項式的階很是有用;檢查不一樣於標準 N–S 和 E–W 方向的趨勢很是有幫助,能夠經過旋轉趨勢軸檢查數據。

 

Ⅳ 是否空間自相關?

咱們可經過檢查不一樣的位置的採樣數據對來探索數據的空間自相關,仍然使用前面提到過的ESDA工具半變異函數雲。

 

Semivariogram/Covariance Cloud / 半變異函數/協方差雲

若是存在空間相關性,則距離較近的點對(在 x 軸的最左側)應具備較小的差值(在 y 軸上的值較小)。隨着各個點之間的距離愈來愈大(點在 x 軸上向右移動),一般,差值的平方也應隨之增大(在 y 軸上向上移動)。一般,平方差超過某個距離後就會保持不變。超過這個距離的位置對被視爲不相關。

若是半變異函數中的點對構成一條水平的直線,那麼數據中可能不存在空間自相關,於是對數據進行插值也就失去了意義。

地統計方法的基本假設是,對於任意兩個彼此間的距離和方向都相近的位置,其差值的平方也應相近。這種關係稱爲平穩性。空間自相關可能僅依賴於兩個位置之間的距離,這被稱爲各向同性。若是事物在某些方向上比在其餘方向上更類似,也就是半變異函數和協方差中都存在這種方向性影響,它被稱爲各向異性

這裏寫圖片描述

 

交叉協方差雲

「交叉協方差雲」工具可用於研究兩個數據集之間的交叉相關。交叉協方差雲顯示了兩個數據集間的全部位置對的經驗交叉協方差,而且將其做爲兩位置間距離的函數對其進行繪製,與上面的工具相似,該工具也提供具備搜索方向功能的協方差表面。

這裏寫圖片描述

 

對數據有了第一印象,而且用 ESDA 工具對數據作了檢查,咱們已經對待研究的數據有了一些先驗知識,那麼下面就能夠選擇插值方法來建立表面了,下一篇繼續。

相關文章
相關標籤/搜索