資源整理。python
1.Rstudio2019年會,Tidyverse中的數據科學材料,兩天的研討會。git
data science in tidyversegithub
2.推薦系統示例與實踐。面試
3.R語言包fsttable,用於以fst格式存儲的快速磁盤數據表的接口。express
fsttableubuntu
4.Point Cloud Library(PCL)是一個獨立的大型開放項目,用於2D/3D圖像和點雲處理。網絡
pclapp
5.120個數據科學麪試問題的答案。框架
120 Data Science Interview Questions
6.cesm,通用地球系統模型,目前比較流行的一種陸面系統模型。
7.美國開放的citygml數據。
8.R語言包xgboostExplainer,使xgboost模型徹底可解釋。
9.數據可視化課程。
10.R語言包landscapetools,用於執行一些景觀分析的操做(主要是轉換格式類)。
11.基於CFFI的Python的cairo橋接。
12.Julia庫DynamicalSystems,用於探索混沌和非線性動力學。
13.Shiny工程,鄰里多樣性。
14.R語言包tidycensus,容許用戶使用美國人口普查局的十年期人口普查和五年美國社區API接口,並返回整齊的data.frame,可選擇包括簡單的地理要素。
15.R語言包dapr,無依賴性的相似purrr的apply/map/iterate函數。
16.Pentaho數據集成(ETL)
17.R語言中空間數據的學習課程,主要是swirl包。
18.研討會網頁模板渲染。
19.圖神經網絡論文。
20.自動區分C++的工具。
21.Julia庫RecurrenceAnalysis,供了計算遞歸圖並在遞歸量化分析框架內進行探索的工具。
22.建立具備GPU啓用節點的小型slurm集羣的步驟。
23.城市增加模型。
24.Python庫PySimpleGUI,用於構建GUI界面的庫。
25.簡單易用用於標註fast-cnn訓練所需圖片的Python程序。
26.Tidyverse訓練研討會的材料。
27.R語言包geospark,經過geospark scala包將sf帶入spark。
28.有用的函數、教程以及其餘Python相關材料。
29.Python庫numexpr,用於Python,NumPy,PyTables,pandas,bcolz等的快速數值求解。
30.R語言包opencage,Opencage API的R語言接口。
目的:肯定登革熱病例的高風險時空聚類,探討相關的危險因素。方法:2005-2017年每個月土着登革熱病例在縣一級彙總。使用SaTScan9.4.4和Arcgis10.3.0,使用時空聚類分析來探索登革熱分佈特徵。此外,使用Maxent 3.3.1軟件中的生態位模型分析了登革熱暴發的影響因素和潛在高風險區域。結果:咱們發現了登革熱病例的異質性時空分佈模式。肯定的初級集羣高風險區域覆蓋廣東省13個縣,次要集羣包括雲南省14個縣。此外,氣象和環境因素與登革熱爆發之間存在非線性關聯,年平均最低氣溫,土地覆蓋和年平均降水量分別爲8.5%~57.1%,6.7%~38.3%和3.2%~40.4%。結論:登革熱暴發的高危地區主要分佈在廣東和雲南省,這些地區受溫度,降水和土地覆蓋等環境和睦象因素的影響很大。健康地理的一篇文章,主要分析登革熱的影響因素,因爲登革熱受蚊蟲傳播,所以在溼熱的環境下容易爆發,與天然因子有很好的關聯。這篇應該用的依舊是時空掃描統計方法以及最大熵模型。
2.Air pollution lowers Chinese urbanites’expressed happiness on social media/空氣污染下降了中國城市居民在社交媒體上的幸福感
中國較重的空氣污染可能致使城市人口表達出較低的幸福感。爲了測試這一說法,咱們根據中國最大的微博平臺新浪微博上2.1億條帶有地理標記的微博內容的情緒構建了每日城市級幸福感指標,並研究了其相對於天天本地空氣的動態質量指數和PM2.5濃度(直徑等於或小於2.5μm的細顆粒物質,中國城市中最突出的空氣污染物)。利用2014年144箇中國城市的天天數據,咱們的結果代表,PM2.5濃度(或空氣質量指數)增長一個標準差會致使幸福指數的0.043(或0.046)標準差減小。人們在週末,假日和極端天氣條件下遭受更多的痛苦。女性羣體的幸福感相對於普通城市(不管是空氣清淨或者是污染嚴重的)居民對空氣污染更爲敏感。社交媒體數據爲中國政府提供了關於生活質量提升的實時反饋意見。發表於Nature Human Behavior的文章,來自於清華大學鄭思齊老師、地理所王江浩老師的成果,社交媒體地理學的一篇應用案例,很是有意思的研究。三個關鍵信息,一是這種方法在大數據時代的可能性,二是空氣污染對於居民的影響,三是女性能夠作爲一個脆弱性人羣的分析。固然我以爲關於新浪微博數據的表明性問題也是能夠討論的。
城市綠地被認爲是緩解城市熱島(UHI)的生態措施。然而,不多有研究調查城市公園相鄰區域的降溫效果;做爲從綠色空間到硬化表面的過渡區域,發生更復雜的熱交換,值得更多關注。本文考察了北京奧林匹克森林公園城市綠化模式與周邊地區降溫效應的關係。結果代表,林地和水體分別能夠下降6.51%和12.82%的不透水錶面溫度。綠地率每增長10%,地表溫度降低0.4°C,距森林公園距離每千米增長,地表溫度上升0.15°C。綠色空間圖案的彙集指數(AI)和最大斑塊指數(LPI)與表面溫度呈現強烈的負相關。這項研究證明了城市公園相鄰區域的降溫效果,並突出了它們對城市綠化模式的依賴。所以,咱們不只要開發更多的綠地,還要在有限的城市土地上科學規劃其空間結構,以提升降溫效果。關注在公園這種大型綠地對於LST的影響。
咱們未來自多個來源(MODIS,Landsat-5,7,8)的圖像與土地覆蓋數據相結合,以測試溫帶高山地區Ecrins國家公園的植被長期(1984-2015)綠化或褐變趨勢。近期氣候變化和國內放牧實踐的背景。咱們發現,在過去16年(2000-2015),Ecrins國家公園中超過一半(56%)的峯值歸一化植被指數(NDVI max)顯着增長。重要的是,NDVI max的最大比例增長髮生在高海拔(> 2500 m)的岩石棲息地。雖然MODIS和Landsat檢測到的NDVI最大變化方向的空間一致性很高(76%重疊),但對數響應比值之間的相關性具備中等強度(約0.3)。在上述樹線棲息地的背景下,咱們發現1984年至2000年間NDVI max的比例增長高於2000年至2015年,代表近十年來綠化動態減緩。 2000年以前加速綠化的時機恰逢1980年代和1990年代發生的無雪增加度日數明顯增長。在草原和低灌木棲息地的狀況下,咱們沒有發現放牧對綠化趨勢的負面影響的證據,多是因爲研究區域一般發現的低放牧強度。咱們提出,更長和更溫暖的生長季節的出現使得高海拔植物羣落可以產生更多的生物量,而且還容許植物定居之前以長期積雪爲特徵的棲息地。在高山環境中提升植物生產力對生物多樣性軌跡和山地景觀中的生態系統服務具備潛在影響。歐洲阿爾卑斯山區表明性地區長期綠化趨勢的證據爲進一步研究高山景觀綠化機制奠基了基礎。利用多源遙感影像來分析長時間的greening,這類研究前段時間傅伯傑院士團隊也發過一篇。事實上應該仍是因爲氣候變化致使的一些冰雪融化產生的環境效應。
因爲生長迅速和收穫輪伐期短,竹林在碳循環和地方經濟發展中發揮着重要做用。在過去二十年中,準確估算竹林地上生物量(AGB)已引發愈來愈多的關注。然而,因爲對竹林生長特徵與遙感數據之間機制的認識不足,基於遙感的竹林AGB估算具備挑戰性。本研究的目的是檢查不一樣日期的年度和年度竹林的遙感特徵及其AGB估算性能。本研究利用多個Sentinel-2數據,考慮了中國和中國竹林生長特徵的獨特特徵,探討了中國浙江省竹林的AGB估算。結合野外調查數據和Sentinel-2光譜響應(光譜帶和植被指數)和紋理圖像,隨機森林被用於識別AGB估計的關鍵變量。結果代表:(1)年際和年年竹林的光譜特徵差異很大,特別是在紅邊2和近紅外波長(NIR2)(740-865 nm)之間的波長,使得分開的年度和年度竹林; (2)同年竹林具備類似的光譜特徵,儘管AGB從40 Mgha-1增長到高達90 Mgha-1,這意味着光學傳感器數據不能有效模擬年際竹AGB; (3)年度竹AGB與4月圖像中的紅色和短波紅外(SWIR)光譜帶有顯着關係,7月圖像中紅色邊緣2,但AGB飽和度問題的估計精度差; (4)分層顯着改善了年度竹AGB估算,但不是同比,建議使用4月圖像進行非分層; (5)當AGB大於70 Mgha-1時,Sentinel-2數據沒法解決竹AGB數據飽和問題,相似於其餘光學傳感器數據,如Landsat。將來應該進行更多的研究,以將多個源 - 遙感數據(例如,激光雷達,光學傳感器數據)和輔助數據(例如,土壤,地形) - 集成到AGB建模中以改進估計。使用能夠有效提取樹密度信息的很是高的空間分辨率圖像能夠改善竹子AGB估計併產生新的看法。基於哨兵衛星的竹林AGB估計,有不少卓有成效的地面調查工做結合了遙感估算,從遙感光譜上分析也較爲深刻,提出的展望和將來研究方向值得關注。
高空間分辨率圖像的全球可用性使得樹種分佈成爲可能,以便更好地管理森林資源。之前的研究主要集中在繪製單一樹種,但每每須要有關各類樹木,尤爲是人工林的空間分佈的信息。該研究旨在肯定適用於土地覆蓋,森林和樹種分類的變量和算法。使用雙時間資源3號多光譜和立體圖像。經過對包括最大似然分類器(MLC),k-的六種分類算法的比較分析,檢查來自多光譜圖像的光譜響應和紋理,來自雙時間立體圖像的冠層高度特徵以及來自立體衍生的數字表面模型數據的斜率和高度。最近鄰(kNN),決策樹(DT),隨機森林(RF),人工神經網絡(ANN)和支持向量機(SVM)。結果代表,與單獨的光譜帶相比,使用多個源數據 - 光譜帶,植被指數,紋理和地形因子 - 顯着提升了土地覆蓋和森林分類準確度,土地覆蓋等級的最高整體準確度爲84.5%。來自SVM,以及89.2%的森林類,來自MLC。與單季光譜圖像相比,葉片和葉片季節性圖像的組合進一步提升了土地覆蓋類別的分類準確度7.8%至15.0%,森林類別的分類準確度提升了6.0%至11.8%。與單獨的光譜圖像相比,多個源數據的組合還將土地覆蓋分類提升了3.7%至15.5%,森林分類提升了1.0%至12.7%。當僅使用光譜數據時,MLC提供了比機器學習算法更好的土地覆蓋和森林分類準確度。可是,當使用多個數據源時,一些機器學習方法(如RF和SVM)提供了比MLC更好的性能。在多個源數據中進一步增長冠層高度特徵對改善土地覆蓋或森林分類沒有影響或影響有限,但提升了一些樹種如樺樹和蒙古蘇格蘭鬆的分類準確度。考慮到樹種分類,中國鬆,蒙古蘇格蘭鬆,紅松,白楊和榆樹等闊葉樹的分類精度超過92%,落葉松和樺樹的準確度相對較低,分別爲87.3%和84.5%。然而,這些高分類精度來自不一樣的數據源和分類算法,而且沒有一種分類算法爲全部樹種類提供最佳準確度。該研究代表相同的數據源和分類算法沒法爲不一樣的土地覆蓋類別提供最佳分類結果。有必要使用基於專家的方法或基於分層的分類方法開發綜合分類程序,該方法能夠爲每一個樹種類使用特定的數據變量和算法。基於國產資源3號衛星的土地覆蓋、森林和樹種分類研究,尤爲是自己資源三號屬於測繪衛星,能夠提供多角度立體像對,不只僅是遙感影像也能提供DEM的數據,對國產衛星數據的挖掘。
地表溫度(LST)是區域和全球範圍內的基本地球表層參數。在1996年,2004年和2016年的春季和夏季,咱們使用7張Landsat圖像在蘇州市得到LST,並檢查了影響LST模式的空間因素。候選空間因素包括(1)土地覆蓋指數,如歸一化差別創建指數(NDBI),歸一化差別植被指數(NDVI)和歸一化差別水指數(NDWI),(2)鄰近因子如到市中心,市中心和主要道路的距離,以及(3)LST位置。咱們的研究結果代表,隨着時間的推移,表面城市熱島(SUHI)的強度不斷增長,SUHI的空間分佈在兩個季節之間是不一樣的。蘇州的SUHI主要分佈在市中心,1996年,但在2004年和2016年擴展到近郊區,並在SUHI的最高水平上大幅擴張。咱們基於緩衝區的梯度分析代表,隨着到蘇州市中心的距離,LST以對數方式衰減或線性衰減。由廣義加性模型(GAMs)推斷,LST與候選因子之間存在強關係,其中主導因子是NDBI,其次是NDWI和NDVI。雖然土地覆蓋指數是LST的主導因素,但空間接近度和位置也對LST和SUHI產生了實質性影響。這項工做提升了咱們對SUHI及其在蘇州的影響的理解,並有助於政策制定者制定減輕SUHI影響的對策。城市熱島與相關因子的分析,其實諸如此類的文章這幾年熱島研究不斷,可是對這些研究也有值得討論的點。
基於遙感數據解釋的結果,本文旨在模擬和預測祁連山區20世紀90年代至2040年代受年平均氣溫(MDAT)影響的山地多年凍土分佈變化。基於遙感影像,可視化地解釋基準地圖以從20世紀90年代得到山地永久凍土分佈。經過比較和估計,使用基準地圖,地形和土地覆蓋因子以及20世紀90年代的MDAT數據構建邏輯迴歸模型(LRM)。根據氣象站的調查數據預測2010年至2040年代的MDAT數據。利用LRM,MDAT數據和因子,模擬和預測了20世紀90年代至2040年代的十年山地永久凍土分佈的機率(p)。根據p值,永久凍土分佈狀態被分類爲「永久凍土可能」(p> 0.7),「永久凍土可能」(0.7≥p≥0.3)和「永久凍土不可能」(p <0.3)。從20世紀90年代到2040年代,「永久凍土可能」類型主要降級爲「永久凍土可能」類型,總面積從73.5×103 km2變爲66.5×103 km2。 「永久凍土可能」類型主要降級爲「不可能永久凍土」,退化面積爲6.5×103 km2,佔總面積的21.3%。同時,模擬結果的準確性能夠達到約90%,這是經過基於遙感數據解釋結果的20世紀90年代,2000年代和2010年的模擬結果的驗證來肯定的。本研究爲了解長期以來氣溫上升所影響的山地多年凍土分佈變化提供了一種方法,可用於研究其餘具備類似地形和睦候條件的山區。利用遙感數據和迴歸模型解譯和模擬凍土長時間序列空間分佈。