Coding and Paper Letter(七十一)

這個系列有點久沒更新,最近事情比較多。後面會繼續堅持資源整理。python

1 Coding:

1.R語言包ggcorrplot2,ggplot2的拓展包,相似於corrplot包的功能,用於繪製相關係數圖。在這個系列的第十七篇裏有另外一個相關的包,有興趣的同窗能夠作下比較。git

ggcorrplot2github

2.R代碼的分析,可重現研究與審查。算法

CodeDependsspring

3.簡化你的ONNX模型,ONNX在本系列的六十二篇裏有提到相關的平臺。ONNX是指Open Neural Network Exchange(ONNX,開放神經網絡交換)格式,是一個用於表示深度學習模型的標準,可以使模型在不一樣框架之間進行轉移。docker

onnx simplifier編程

4.R語言包quizlite,目標是生成輕量級測驗。後端

quizliteapi

5.開放研究網絡(OTN)是一個全球性的,分散的研究人員和機構團體,歡迎任何致力於標準化和整合全部生物特徵數據的人員。 咱們以開放科學的原則爲指導,特別是開放方法,開放源代碼和開放數據。數組

open traits network.github.io

6.其目的是記錄之前在OzUnconf事件中建立的數據集,以及其餘有趣且獨特的澳大利亞數據集和資源。

OZdatasets

7.構建一個模型用於識別衛星影像中的做物損失。Python代碼。

crop loss EPAR

8.機器學習用於全球發展。Radiant Earth Foundation是一個非營利組織,其使命是改善開放地理空間資源的發現,訪問,交付和應用,以支持全球開發社區(GDC)。 經過與開發社區,商業和學術專家合做,Radiant Earth Foundation經過集成和利用最新的Earth Observation(EO)和Machine Learning(ML)技術來實現這些目標。

ml4gd

9.regl經過刪除儘量多的共享狀態來簡化WebGL編程。 爲此,它將WebGL API替換爲兩個基本抽象,資源和命令。

regl

10.R語言包Metrics,用於評估機器學習算法精度的各種指標計算。

Metrics

11.R語言包cgraph,容許在R中建立,評估和區分計算圖。計算圖是經過其(基本)運算分解的多元函數的圖形表示。 圖中的節點表示數組,而邊表示數組之間的依存關係。 將功能表示爲計算圖的優勢在於,這能夠經過自動微分來區分功能。 「 cgraph」軟件包支持各類功能,包括基本算術,三角函數和線性代數函數。 它經過反向自動微分來區分計算圖。 該軟件包的靈活體系結構使其可用於解決各類問題,包括局部靈敏度分析,基於梯度的優化和機器學習。

cgraph

12.能夠在git提交信息中心插入表情。

gitmoji

13.R語言包cubelyr,數據立方體dplyr後端。

cubelyr

14.一個實現數據和ML管道軟件工程最佳實踐的Python庫。

kedro

15.使用樸素貝葉斯,SVM,CNN,LSTM等對推文進行情感分析。

twitter sentiment analysis

16.pygeoapi提供了地理空間數據的API。

pygeoapi

17.pkuseg:一個多領域中文分詞工具包。

pkuseg python

18.R語言包d3.format,R的d3格式接口。

d3.format

19.斯坦福地震數據集(STEAD):用於AI的地震信號全球數據集。

STEAD

20.AGU 2019秋季會議的研討會材料「Best Practices for Developing and Sustaining Your Open-Source Research Software」。

2019 agu oss

21.這些課程材料涵蓋了2019年秋季在哥本哈根大學下半年IT課程。

introdatasci

22.R語言包agroenv,使用各類數據源從地理座標中反演土壤和睦候數據。

agroenv

23.PyTorch Elastic(torchelastic)是一個框架,使分佈式培訓做業可以以容錯和彈性的方式執行。 它提供了原語和接口供您編寫分佈式PyTorch做業,以即可以彈性地在多臺機器上運行; 也就是說,只要存在最小數量的工做人員,您的分佈式工做就能夠啓動,而且能夠增加到最大數量的工做人員而無需中止或從新啓動。

elastic

24.R語言包tvthemes,基於您喜歡的電視節目的ggplot2主題和調色板。

tvthemes

25.Colby R用戶組午飯會演講。

rug 2019 12

26.包含NeurIPS 2019論文《使用貝葉斯原理的實踐深度學習》的代碼。

dl with bayes

27.R語言包hdme,包含針對高維測量偏差問題(變量偏差)的懲罰迴歸方法。

hdme

28.R語言包Polymer,目標是提供靈活且直觀的overlay方法(熟悉GIS工做流),但具備任意數量的輸入層。

polymer

29.用於深度學習的AutoML工具包。

autogluon

30.R語言包writexl,便攜式,輕量級的數據框,用於xlsx導出器以用於R

writexl

31.OpenGL教程。

ogl

32.R語言包networkdata,該軟件包包含各類不一樣的網絡數據集(所有爲igraph格式)。

networkdata

33.帶有Runcharter for Performance信號項目的Shiny App。

RunCharter Shiny

34.二維碼生成器。

qrcode

35.本項目用於存放論文:基於遠程監督的人物屬性抽取研究 的實驗數據。

Distant Supervision for Person Attribute Extraction

36.R語言包googlesheet4,Google Spreadsheets R API(從新啓動googlesheets程序包)。

googlesheets4

37.可視化工具箱,用於精美且發表的圖片。

see

38.柵格數據工具,包括地球物理應用程序和數字高程模型。

gridfour

39.PySAL項目的Docker容器。

docker

40.爲Leaflet提供漂亮的動畫標記聚類功能,Leaflet是用於交互式地圖的JS庫。

Leaflet.markercluster

41.用於Intake的Geopandas插件。

intake geopandas

42.libpysal的網絡測試數據集。

newHaven

43.pysal-mgwr的測試數據集。

clearwater

44.R語言包causalTree,causalTree函數可創建迴歸模型並返回一個rpart對象,該對象是rpart包派生的對象,在由Breiman,Friedman,Olshen和Stone編寫的CART(分類和迴歸樹)中實現了許多想法。 像rpart同樣,causalTree分兩個階段構建二進制迴歸樹模型,但着重於估計異構因果效應。

causalTree

45.「 Python機器學習(第3版)」書代碼存儲庫。

python machine learning book 3rd edition

46.EPFL碩士課程「數據科學網絡之旅」的材料,2019年版。

ntds 2019

47.R語言包ggfittext,ggfittext提供了一個ggplot2 geom,用於將文本放入框中。

ggfittext

48.「使用R學習統計信息」的源文件。

rbook

49.Beamer風格的幻燈片模板集。包含了PowerPoint和Keynote兩套格式。

BeamerStyleSlides

50.使用句法依存分析抽取事實三元組。

fact triple extraction

51.這實現了用於NLU任務的聯合意圖檢測和空缺填充的循環模型。

multiLSTM

52.基於法律裁判文書的事件抽取及其應用。

Event Extraction

2 Paper:

1.Land Use Regression models for 60 volatile organic compounds: Comparing Google Point of Interest (POI) and city permit data/60種揮發性有機物的土地利用迴歸模型:比較Google Point of Interest(POI)和城市許可數據

揮發性有機化合物(VOC)的土地使用迴歸(LUR)模型一般關注土地使用(例如工業區)或運輸設施(例如道路);在這裏,咱們結合了城市許可數據和Google Point of Interest(POI)數據中的區域來源(例如加油站),以比較模型的效果。咱們使用了來自美國明尼蘇達州明尼阿波利斯市的50個基於社區的採樣地點(2013-2015年)的測量結果,爲60個VOC創建了LUR模型。咱們使用了三組自變量:(1)具備土地利用和運輸變量的基本案例模型;(2)從本地營業許可數據中添加區域源變量的模型;(3)使用Google POI數據做爲區域源的模型。帶有Google POI數據的模型效果最好;例如,與許可數據模型(0.42; 0.37)相比,總VOC(TVOC)模型具備更好的擬合優度和基本模型。在小規模緩衝區大小(例如25 m–500 m)的60個VOC中,在超過三分之二的模型中選擇了區域源變量。咱們的工做代表,可使用基於社區的抽樣來開發VOC LUR模型,而且能夠經過添加根據業務許可和Google POI數據衡量的區域來源來改進模型。分析VOC的LUR模型,VOC事實上是很難進行遙感反演和站點監測,可是同時VOC又是各種空氣污染的來源之一,這篇文章基於當前的地圖大數據結合城市許可(這裏沒有詳細看具體數據,猜想可能相似國內的規劃許可)進行LUR建模。對於將來的空氣污染製圖研究頗有意義。

2.A Novel Framework to Automatically Fuse Multiplatform LiDAR Data in Forest Environments Based on Tree Locations/基於樹位置的森林環境中自動融合多平臺LiDAR數據的新框架

新興的近地光探測和測距(LiDAR)平臺[例如,地面,揹包,移動和無人機(UAV)]已顯示出巨大的森林資源潛力。可是,不一樣的LiDAR平臺在數據覆蓋範圍或捕獲樹冠下信息方面都有侷限性。多平臺LiDAR數據的融合是該問題的潛在解決方案。因爲森林的複雜性和不規則性以及森林林冠下的定位信息不許確,當前的多平臺數據融合仍須要大量的人工工做。在本文中,咱們基於每一個森林都有惟一的樹分佈模式的假設,提出了一個自動的多平臺LiDAR數據校訂框架。提議的框架包括五個步驟,即,單個樹分割,不規則三角網(TIN)生成,TIN匹配,粗校訂和精校訂。 TIN匹配是從多平臺LiDAR數據中找到相應樹對的必要步驟,它使用基於由單個樹位置組成的三角形類似度的投票策略。經過融合揹包和無人機LiDAR數據以及融合針葉林中的多掃描陸地LiDAR數據來驗證所提出的框架。結果代表,兩種配準實驗都可以達到使人滿意的數據配準精度。此外,當單個樹的分割精度高於80%時,提出的框架對單個樹的分割錯誤不敏感。咱們認爲,提出的框架有可能提升在森林環境中準確註冊多平臺LiDAR數據的效率。索引-森林,多平臺光檢測和測距(LiDAR),校訂,樹木位置。植物所郭慶華老師團隊的成果,關於新的多平臺LiDAR數據融合校訂。LiDAR數據將在將來發揮更多做用。

3.Spatial association between outdoor air pollution and lung cancer incidence in China/中國室外空氣污染與肺癌發病率的空間聯繫

背景:肺癌是中國最多見的癌症。先前的研究代表,肺癌的發病率表現出顯着的空間異質性,而且肺癌與室外空氣污染有關。然而,中國室外空氣污染與肺癌發病率之間的非線性空間聯繫仍不清楚。方法:本研究分析了2013年中國207個縣市男性和女性肺癌發病率與每一年PM2.5,PM10,SO2,NO2,CO和O3濃度之間的關係。 GeoDetector q統計量用於檢查室外空氣污染與肺癌發生率之間的非線性空間關聯。結果:在室外空氣污染與肺癌發病率之間的空間關聯中發現了明顯的空間和人口性別異質性。在六種選定的污染物中,二氧化硫對華北地區的肺癌影響最大(女性爲q = 0.154)。在南部,每種污染物對男性或女性的影響均顯着,南部的平均q值爲0.181,大於北部的平均q值(q = 0.154)。此外,污染物對肺癌有明顯的非線性相互做用。在華北地區,SO2和PM2.5之間的相互做用是主要的相互做用,男性的q值爲0.207,女性的q值爲0.334。在南部,主要的交互做用因子在男性的SO2和O3之間以及在女性的SO2和CO之間,q值分別爲0.4五、0.232。在華南或華北地區,吸菸是致使男性肺癌的重要因素,其q值分別爲0.143和0.129,吸菸與空氣污染物之間的相互做用增長了這種風險。結論:這項研究代表,在中國北方應該關注SO2和PM2.5對肺癌的影響,而在南方,應該更加關注O3和CO的影響以及它們與SO2的相互做用。在華北和華南地區,吸菸(尤爲是男性)仍然是肺癌的重要危險因素。地理所王勁峯老師團隊的成果,分析了空氣污染與肺癌發病率的研究。交互因子以及性別對於肺癌的影響有明顯的異質性。

4.The lag effect of water pollution on the mortality rate for esophageal cancer in a rapidly industrialized region in China/水污染對中國快速工業化地區食管癌死亡率的滯後效應

淮河流域(位於中國東部)擁有1.8億人口,是中國食道癌(EC)死亡的最高風險。一些研究發現,飲用水中的污染物是消化系統癌症的主要危險因素。可是,歷史時期的水污染對當前歐共體死亡率的影響尚不清楚。收集了2004年淮河流域11個縣的EC死亡率數據,並使用了1987年至2004年該地區的地表水質量數據。分別從線性和非線性角度,採用Pearson相關性和GeoDetector q統計量來探討不一樣滯後時段水污染與EC死亡率之間的關係。該研究代表該地區EC死亡率的空間異質性。下游的EC死亡率顯着高於其餘地區。在中游,主流以北地區的平均死亡率低於該地區以南地區。在上游,主流以北地區的死亡率高於南部地區。歷史格局是在水污染的影響下造成的。 1996年,1997年和1998年對EC死亡率具備最強的線性或非線性影響,其中Pearson相關係數和q統計量最高,分別爲0.79和0.89。在過去的20年中,快速的工業化已經引發了環境問題,並帶來了相關的健康風險。研究代表,目前的EC死亡率主要是由前8年的水污染引發的。這些發現提供了關於污染對EC死亡率形成影響的滯後時間的知識,而且能夠有助於控制和預防食道癌。地理所王勁峯老師團隊的成果,分析了污染對健康和死亡率的滯後效應,是一個很是有意思的研究。

5.Spatial Lifecourse Epidemiology Reporting Standards (ISLE-ReSt) statement/空間生命過程流行病學報告標準(ISLE-ReSt)聲明

空間生命過程流行病學是一個跨學科領域,它利用先進的空間,基於位置的人工智能技術來研究環境,行爲,社會心理和生物學因素對健康相關狀態和事件及其潛在機制的長期影響。隨着愈來愈多的研究報告來自該領域的研究結果,以及迫切須要基於最強科學的公共衛生和政策決策,在空間生命週期流行病學研究報告中的透明度和清晰度相當重要。由國際空間生命歷程流行病學倡議(ISLE)支持的工做隊肯定了在這一領域的指導需求,並制定了《空間生命歷程流行病學報告標準》(ISLE-ReSt)聲明。目的是提供一份建議清單,以改善和更一致地報告空間生命歷程流行病學研究。增強針對隊列研究的流行病學觀察研究報告(STROBE)聲明被肯定爲提供考慮歸入的初始項目的適當起點。而後整合了空間數據和方法的報告標準,以造成報告建議的單個綜合清單。咱們的方法的優點在於,咱們的國際和跨學科團隊由內容專家和貢獻者組成,他們表明各類相關的科學慣例,而且咱們遵照制定報告準則的國際準則。隨着在空間生命過程流行病學中使用的基於空間,基於位置的人工智能技術的迅速發展,從發佈之日起至少每隔2至3年就要從新審視和適應ISLE-ReSt。團隊的成果,關於ISLE的標準聲明。

6.Global urban expansion offsets climate-driven increases in terrestrial net primary productivity/全球城市擴張抵消了氣候驅動的陸地淨初級生產力的增加

全球城市化速度正在加快; 然而,數據限制遠遠不能對全球城市擴張或其對地面淨初級生產力(NPP)的影響作出可靠的估計。 在此,咱們使用高分辨率的全球土地利用/覆蓋數據集(GlobeLand30),顯示了2000年至2010年期間,全球城市區域平均每一年以5694 km2的速度增加。過去十年中,城市的快速擴張反過來又減小了全球 陸地NPP,每一年淨損失22.4 Tg碳(Tg C year-1)。 儘管與全球陸地NPP和化石燃料碳的總排放量相比很小,但城市化致使的NPP減小抵消了同期氣候驅動的增長(73.6 Tg C year-1)的30%。 咱們的發現突出代表,迫切須要制定全球戰略來應對城市擴張,增長天然碳匯和提升農業生產率。中山大學劉小平教授團隊成果,分析了城市化對於NPP影響的分析,這一塊也是全球變化生態學的重點研究對象。發表在NC上的牛文。後期有機會將詳細介紹。

7.Introduction to the Water‐Soil‐Air‐Plant‐Human Nexus: Modeling and Observing Complex Land Surface Systems at River Basin Scale/水,土壤,空氣,植物,人的聯繫簡介:流域尺度上覆雜的地表系統的建模和觀測

複雜的人類-天然系統的雙向耦合能夠稱爲水-土壤-空氣-植物-人類的聯繫,而且這種聯繫的綜合研究已經在世界許多流域中進行。 本期專刊報道了在流域尺度上對水,土壤,空氣,植物,人的關係的建模,觀察和理解的貢獻,特別是來自「黑河流域生態水文過程綜合研究」計劃的貢獻。 本文重點介紹了主要結果,做爲對本期特刊的介紹。西北院、青藏所李新老師團隊的成果,分析多要素耦合的流域尺度地表系統建模分析。是一個很不錯的樣例研究。

8.Combining Measurements of Built-up Area, Nighttime Light, and Travel Time Distance for Detecting Changes in Urban Boundaries: Introducing the BUNTUS Algorithm/結合建築面積,夜間光和出行時間距離的測量值,以檢測城市邊界的變化:BUNTUS算法的引入

本文介紹了一種新的算法(BUNTUS-累積,夜間照明和城市規模出行時間),該算法使用遙感技術來劃定城市邊界。該論文是對城市化在改變化石燃料排放中的做用的更大研究的一部分。該方法結合了土地覆蓋,夜間照明和行進時間的估計,以對連續的城市區域進行分類。該方法是自動的,全局的,並使用具備足夠持續時間的數據集來創建趨勢。使用來自Landsat-8 OLI圖像的地面真實場進行的驗證顯示,整體準確度爲60%至95%。所以,這種方法可以描述空間分佈並給出城市範圍的詳細信息。咱們以澳大利亞布里斯班,澳大利亞墨爾本和中國北京爲例演示了該方法。新方法符合研究城市排放整體趨勢的標準。ASU的Gurney團隊的研究,利用工農多源遙感數據來進行城市分類,以支撐後續的碳排放研究。

9.The Vulcan Version 3.0 High-Resolution Fossil Fuel CO2Emissions for the United States/美國的Vulcan版本3.0高分辨率化石燃料CO2排放

在考慮到減小溫室氣體排放的機會時,除了向決策者提供相關信息外,在精細的空間和時間尺度上量化的溫室氣體排放估算已經成爲新的多約束通量信息系統的重要組成部分。 Vulcan項目致力於估算整個美國景觀在空間和時間尺度上自下而上的化石燃料排放量和水泥生產中的CO2排放量(FFCO2)同時知足科學和政策需求。在這裏,咱們報告了Vulcan排放的3.0版,該版本量化了美國在FFCO2的排放量,其空間分辨率爲1 km×1 km,每小時的時間分辨率爲2010-2015年。咱們提供了更新方法,數據源,結果以及與全局網格化FFCO2數據產品的比較的完整描述。咱們估計2011年的FFCO2排放爲1589.3 TgC,95%的置信區間爲1299/1917 TgC(+18.3%/ − 20.6%),這意味着~~ 10的單西格瑪不肯定性%。咱們發現,在以電力生產和工業爲主的州,人均FFCO2排放較大,而在以道路和住宅/商業建築爲主的州,人均FFCO2排放較小。美國FFCO2排放的質心(CoM)位於密蘇里州,其平均季節性沿NE / SW近橢圓路徑移動。與ODIAC相比,全球有網格的FFCO2排放量估算值顯示出總排放量(2011年爲100.1 TgC)和空間格局都有很大差別。兩個數據乘積之間的空間相關性爲0.38,單個網格單元規模的平均絕對差爲80.04%。 Vulcan v3.0 FFCO2排放數據產品可當即對美國每一個城市的排放進行高分辨率估算,爲計劃開發自我報告的城市節省了大量時間和精力城市清單。能夠從Oak Ridge國家實驗室的數據存儲庫下載Vulcan v3.0年度網格化排放數據產品(https://doi.org/10.3334/ORNLDAAC/1741,Gurney等,2019)。ASU的Gurney團隊的研究,知名碳排放產品Vulcan的3.0版本,並進行了大量分析。數據是開放的,同時這套數據質量很是高,之後有機會來介紹。

10.Construction of the Scale-Specific Resilience Index to Facilitate Multiscale Decision Making in Disaster Management: A Case Study of the 2015 Nepal Earthquake/特定尺度恢復力指數的構建,以促進災害管理中的多尺度決策:以2015年尼泊爾地震爲例

許多學者主張使用經驗證據來評估跨尺度和隨時間變化的恢復力。所以,咱們使用2015年尼泊爾地震發生後不久從2015年8月至2015年12月每個月收集的有關我的對救災觀念的調查數據進行案例研究。咱們基於一組變量構建了特定尺度的恢復力指數(SSRI),這些變量在不一樣的空間規模上以及隨時間推移針對調查數據進行了單獨驗證。迴歸結果代表,與家庭結構,產業多樣性,社區資本,可及性和緊急服務相關的變量均已經過地區和街道兩級的調查數據,與種族多樣性和應急能力相關的變量進行了驗證。營地僅在地區級別獲得驗證,地震經歷變量僅在分區級別獲得驗證。所以,爲了得到最佳模型,咱們使用六個通過驗證的變量在地區一級構建SSRI,並使用七個變量(包括與家庭財產的脆弱性和平均海拔高度相關的變量)在分區一級構建SSRI。經過2015年尼泊爾地震後調查的救濟分數,經過多級迴歸模型驗證了SSRI分數。結果代表,基於已驗證變量的SSRI得分與地區和分區級別的調查數據具備良好的相關性和預期關係,而且賽過綜合應變能力指數,後者考慮了全部變量,不管其單獨的驗證結果如何。用於構造SSRI的方法有助於在實際案例中識別跨空間尺度和隨時間變化的多維彈性指標的貢獻,還提供易於理解並適用於多尺度決策過程的特定尺度的彈性的指標得分。恢復力是近些年來生態學和災害學方面一個重要的理念,能夠理解爲從受破壞狀態恢復到常規狀態所須要的時間或者相關指標。這是一個典型的案例研究,對這個恢復力的測算,有相關的研究能夠進行參考。

11.Towards feasibility of photovoltaic road for urban traffic-solar energy estimation using street view image/利用街景圖像估算光伏道路在城市交通太陽能中的可行性

一個可持續發展的城市依賴可再生能源,從而促進了電動汽車的發展。爲了支持電動車輛,提出了在行駛時對車輛充電的概念。在這種狀況下,在城市道路上建造太陽能電池板是一項具備巨大益處的創新選擇,而準確計算道路光伏發電量是前提。在本文中,咱們提出了一種新穎的框架,用於預測和計算可從道路收集的太陽輻射和電能。收集Google街景圖像以測量道路的天空障礙,並將其與太陽輻射模型集成在一塊兒以估計輻射接收能力。除天空障礙外,咱們在計算中還考慮了交通情況和天氣狀況的影響。根據咱們的工做,能夠得出一年中不一樣時間的輻射圖,以分析道路的光伏分佈。爲了測試咱們框架的可行性,咱們以波士頓爲例。結果代表,波士頓的道路能夠爲城市中全部將來的電動汽車產生大量的電力。並且,穿過波士頓的主要道路具備更好的發電潛力,而且交通情況的影響是有限的。咱們的計算框架證明,將太陽能電池板用做路面是城市電力的巨大補充,並具備爲行駛中的汽車充電的獨特功能。街景圖像分析的一個應用,估算光伏道路的可行性。很是有意思的研究。

相關文章
相關標籤/搜索