GitHub 啓動代碼永久保存計劃,爲人類文明留「火種」?

clipboard.png

2019 年 11月 13-14 日,GitHub 舉辦了年度開發者大會 GitHub Universe 2019。git

今年的 GitHub 大會,除了在會前發佈的年度報告(點擊藍字回顧:GitHub 年度報告解讀),還公佈了一個 GitHub 的 App 版本,讓廣大開發者喜大普奔。github

但最讓我感興趣的,是他們在峯會現場發佈的 —— GitHub Archive Program 代碼永久保存計劃。安全

在會上,GitHub 官方說明了這個計劃啓動的緣由:測試

世界由開源軟件提供動力。它是現代文明的隱藏基石,也是全人類的共同遺產。GitHub Archive Program 的任務是爲後代保留開源軟件。

咱們還打算將 GitHub Archive Program 用做證實開源社區重要性的證實。咱們但願它如今和未來都將進一步宣傳全球開源運動。促進在全球範圍內普遍採用開源和開放數據政策;並鼓勵長期思考。編碼

這個項目由 GitHub 和不少頂級的機構、企業合做,計劃經過多種形式並行的存儲形式,可以長期保存世界上的開源軟件和項目,至少上千年。spa

1、啓動多形式存儲計劃的緣由

clipboard.png

名詞解析:亞歷山大圖書館

亞歷山大圖書館,又稱古亞歷山大圖書館,曾是世界上最大的圖書館。後來慘遭火災被摧毀,從而丟失了成千上萬本包含大量經典文學,科學和文化的文本。3d

1.爲何使用多種形式的存儲?blog

儘管發生全球災難的可能性很小,但咱們可能會在幾代後失去全部存儲在現代媒體上的東西。繼承

跨多個組織和存儲形式的歸檔軟件將有助於確保其長期保存,在線歸檔員將其稱爲「LOCKSS」,經過大量副原本確保信息的安全。遞歸

名詞解析:LOCKSS

LOCKSS 是通用數字保存技術和解決方案提供商,也是斯坦福圖書館數字圖書館產品組合的支柱。LOCKSS 目前是數字保存領域中普遍接受的最佳實踐,而且更普遍地用於確保數字信息的持久性。

目前,大部分的數字信息都存儲在只能短時間儲存信息的介質上,如:硬盤,SSD。硬盤可使用幾十年,磁帶名義上能夠有 30 年的使用壽命,但須要嚴格控制熱量和溼度。

GitHub 存檔計劃想經過多形式的存儲組合,來解決隨着時間的流逝數據丟失的風險。

2.將來社會如何使用咱們的代碼?

GItHub 已經與斯坦福圖書館合做,幫助整理相關資料庫以及其所處的文化和背景,做爲普遍的歷史和社會研究與分析的關鍵要素。經過代碼永久保存計劃,將來的歷史學家將可以從開源項目和元數據中瞭解咱們。

因爲硬件的壽命比當今大多數存儲介質(尤爲是較舊的和/或具備掩碼ROM的存儲介質)的壽命長得多,所以存在運行現代計算機的一系列可能的將來,可是它們的軟件已大失所望。存檔程序將保留該軟件。

還有一點,由於如今某些國家和地區由於政策緣由限制訪問了 GitHub 的部分功能,隨着這一計劃的展開,受影響的開發人員可使用 Internet Archive 和 Software Heritage Foundation 訪問其項目的公共代碼。

能夠預見一個將來,在這個將來中,當今的軟件將被視爲古樸而又被人們遺忘的可有可無的事物,直到對它的意外需求出現。

2、靈活持久的「步調分層」策略

clipboard.png

名詞解析:步調分層

步調分層在整個系統中提供了多級的校訂,穩定反饋。正是在這些層次之間的矛盾中,文明才找到最可靠的健康。我建議在一個健壯且適應性強的文明中,六個重要的步調和規模。

這個項目將採用「步調分層」策略來歸檔代碼,經過提供從實時到長期存儲的一系列存儲解決方案,該方法旨在最大程度地提升靈活性和耐用性。

存檔程序分爲三層:熱,熱和冷。

  • 熱:接近實時更新
  • 暖:每個月至每一年更新
  • 寒冷:每5年以上更新

如下各存儲方案按由熱到冷的順序排列:

1.GitHub

每次訪問 GitHub 時,GitHub 都會將 Git 數據複製到世界各地的多個數據中心。此外,在 Git 的多個位置存儲 Git 數據、問題、拉取請求以及進行全部的數據備份,這些均可經過 GitHub API 實時得到。

2.GH 種子文件(GHTORRENT)

GHTorrent 監視 GitHub 公共項目的時間線,並歸檔這些事件,遞歸爬取和歸檔它們的內容和依賴性。這些存檔將在天天或每個月供下載。

3.GH 檔案(GH ARCHIVE)

GH 檔案監視 GitHub 公共事件時間軸,將這些事件歸檔,並使用 BigQuery 使它們可查詢。開發者能夠按小時、天或月下載快照。

4.互聯網檔案館(INTERNET ARCHIVE)

互聯網檔案館將抓取 GitHub 的公共資料庫(包括新的資料庫、問題、拉取請求、Wiki 等),並將副本存儲在舊金山和其餘位置的硬盤上,這些檔案將經過 git 和 https 公開提供。

5.軟件遺產基金會(Software Heritage Foundation)

軟件遺產基金會將按期抓取 GitHub,並將其公共存儲庫添加到存檔中,並向其提供公共 API 訪問權限。

6.Bodleian 圖書館(BODLEIAN LIBRARY)

牛津大學的 Bodleian 圖書館將 GitHub 的 10,000 個最受關注和最依賴的存儲庫保留爲 Piql 膠片格式,從而爲 Arctic Code Vault 提供冗餘。

7.北極世界檔案(ARCTIC WORLD ARCHIVE)

2020 年 2 月 2 日,GitHub 將捕獲每一個活動公共存儲庫的快照,並將其保存在 GitHub Arctic Code Vault 中。這些數據將存儲在 3500 英尺的膠片卷軸上,該膠片卷軸由一家專門從事長期數據存儲的挪威公司 Piql 提供並編碼。薄膜技術依賴於聚酯上的鹵化銀。根據 ISO 的標準,這種介質的使用壽命爲 500 年;模擬的老化測試代表,Piql 的膠片會使用兩倍的時間。

8.微軟研究院的 SILICA 項目(PROJECT SILICA FROM MICROSOFT RESEARCH)

GitHub 存檔計劃與 Microsoft 的 Silica 合做,經過使用飛秒激光將全部活動的公共存儲庫寫入石英玻璃片中,最終將其保存超過 10,000 年。

名詞解析:飛秒激光

飛秒激光是指時域脈衝寬度在飛秒(毫微微秒,10的負15次方秒)量級的激光。能夠用在聚合物加工、醫學成像及外科醫療上。飛秒激光現已經是目前21世紀最早進的眼科手術。激光視力矯正(LASIK)能夠利用飛秒激光製做角膜瓣。除此以外,也可被應用在固態物理上,以此分析晶體結構,分析其衍射或者螢光光譜圖。在基礎科學研究領域,飛秒激光可用於超快現象的研究。

3、GitHub 北極代碼庫

clipboard.png

GitHub Arctic Code Vault 是一個數據存儲庫,存儲在北極世界檔案館(AWA)中,這是一個長期的檔案設施,位於北極山永久凍土層深250米。該檔案館位於斯瓦爾巴羣島的一個退役煤礦中,比北極圈更靠近北極。

GitHub 將在 2020 年 2 月 2 日捕獲每一個活動公共存儲庫的快照,並將這些數據保存在 Arctic Code Vault 中。此外還包括由星號、依賴項和諮詢小組肯定的大量休眠存儲庫。快照將由每一個存儲庫的默認分支的 HEAD 減去任何大於 100KB 的二進制文件組成,每一個存儲庫將打包爲一個 TAR 文件。

斯瓦爾巴羣島受國際《斯瓦爾巴羣島條約》的管制,屬於非軍事區。它是世界上最北端的城鎮的所在地,是地球上最偏遠和地緣政治穩定的人類居住地之一。

AWA 是挪威國有采礦公司 Store Norske Spitsbergen Kulkompani(SNSK)與長期數字存儲提供商 Piql AS 的一項聯合計劃,AWA致力於永久保存檔案。膠片卷軸將被存儲在位於斯瓦爾巴羣島偏遠羣島的一座退役煤礦內的密封室內的鋼壁容器中。

至今爲止,AWA 已經保存了來自意大利,巴西,挪威,梵蒂岡和許多其餘國家的歷史和文化數據。儘管斯瓦爾巴羣島受到氣候變化的影響,但在可預見的未來,它可能僅影響最外面幾米的永久凍土。礦山距著名的全球種子庫僅一英里之遙,這進一步加強了斯瓦爾巴羣島做爲人類集體知識的穩定且長期的穩定檔案館的地位。

名詞解析:斯瓦爾巴全球種子庫(Global Seed Vault)

斯瓦爾巴全球種子庫是挪威政府在北冰洋的斯瓦爾巴羣島建造的,一個保存全世界農做物種子的貯藏庫。種子庫是爲了在大規模的區域性或全球性危機期間防止其餘基因庫中種子的丟失。這個工程獲得了聯合國糧農組織的支持,被稱爲是全球農業的「諾亞方舟」。

4、如何確保將來可使用咱們的軟件?

clipboard.png

GitHub 正在召集一個 GitHub Archive Program 諮詢小組,其中包括人類學,考古學,歷史學,語言學,檔案科學,將來主義等方面的專家,以就應該在歸檔中包含哪些內容以及如何與繼承者進行最佳溝通提供建議。

一千年是很長的時間。一千多年前還沒有建成吳哥窟,大津巴布韋和馬丘比丘等古代遺址。可是,咱們能夠考慮並計劃在將來 1000 年內實現各類可能性。

該計劃以咱們今天擁有的最佳思路爲基礎,存檔的簡介將包括 QR 解碼,文件格式,字符編碼和其餘關鍵元數據的技術指南,以即可以將原始數據轉換回源代碼,以供未來其餘人使用。

該歸檔文件還將包括技術樹-路線圖和 Rosetta Stone,以供未來好奇的人繼承該歸檔文件的數據。

關於存檔及其使用方式的概述,「技術樹」將做爲軟件開發和計算的快速入門手冊,並與該存檔的用戶指南捆綁在一塊兒。它將描述如何從原始數據向後處理到源代碼,以及如何提取項目,目錄,文件和數據格式。

受《長期文明手冊》啓發(幷包括其內容),該檔案還將包括應用開源的信息和指南,以及咱們今天使用它的背景狀況,以防未來讀者須要從頭開始重建技術。

在人類擁有能夠運行的現代計算機但沒有可在其上運行的軟件的將來範圍內,檔案及其技術樹可能會很是有價值。可是,該價值頗有多是歷史性的,也許能夠確保今天的技術不會因一個漫不經心地認爲可有可無的明天而喪失,直到發現咱們的軟件被意外使用。

項目官網: https://archiveprogram.github...

代碼恆久遠,一行永流傳。

地球有 46 億年的歷史,咱們應該不是出如今這個星球上的第一代智慧生物,那麼問題來了:上一代「地球人」的痕跡在哪裏?他們的文化和文明是什麼?

這些咱們暫時都不得而知,但但願咱們的歷史和文化,在千萬年以後能被下一代「地球接班人」發現,估計挺有意思的~

clipboard.png

相關文章
相關標籤/搜索