區塊鏈與分佈式存儲構建數據要素市場基礎設施

在這裏插入圖片描述

什麼是分佈式存儲(IPFS)?

分佈式存儲就像分佈式應用一樣有兩種技術解釋,一種是將數據分散存儲在多臺獨立的設備上,總體上實現了技術架構上的分佈式,但所屬權仍然是集中式的,而在區塊鏈應用領域則表示的是以IPFS 爲代表的新一代分佈式存儲技術,與傳統的存儲技術不同,新一代的分佈式存儲不光改變了存儲的方式,還改變了系統架構與網絡傳輸協議,讓分佈式存儲真正實現了可以分佈存儲在不同所有方之間,同時還實現了對於數據的隱私保護與安全。

那麼,什麼是IPFS?

IPFS,全稱 Inter Planetary File System,中文名爲星際文件系統,IPFS 希望通過點對點傳輸網絡構建一個完全分佈式的互聯網,類似於 BitTorrent,但是又有所發展和不同。在目前的互聯中,如果你想從網上下載一張照片,你需要告訴電腦去哪裏找這張照片,也就是照片所在的 IP 地址或域名——這就叫 " 地址尋址 "。但如果這個地址不存在了,也就是說服務器關閉了,你就無法獲取那張照片了。不過很可能有人之前已經下載過那張照片,並且在他的電腦中仍然保存着備份,可你的電腦卻無法從那個人那裏獲得該備份。爲了解決這個問題,IPFS 把「地址尋址」改爲「內容尋址」。這樣一來,你不用再告訴電腦去哪裏尋找資源,而只需告訴它你想要什麼資源。從「地址尋址」到「內容尋址」是 IPFS 與現有存儲技術與互聯網協議最重要的區別。除此之外,IPFS 也是一種複合的技術,其中比較重要的有4種:BitTorrent、DHT、Git 和 SFS。

(1)DHT,全稱爲分佈式哈希表(Distributed Hash Table),是一種分佈式存儲方法。DHT的原理是在不需要服務器的情況下,每一個客戶端存儲一小部分數據,並負責一定區域的檢索,進而實現整個DHT網絡的尋址和檢索。同時所有信息均以哈希表條目的形式加以存儲在Kademlia 網絡(點對點協議中的一種算法,當我們在網絡中搜索某些值,即通常搜索存儲文件散列或關鍵詞的節點的時候,Kademlia算法需要知道與這些值相關的鍵,然後分步在網絡中開始搜索。)這些信息被分散地存儲在各個節點上,從而以全網構成一張巨大的分佈式哈希表。可以形象地把這張哈希大表看成一本字典:只要知道了信息索引的key,便可以通過 Kademlia 協議來查詢與其對應的 value 信息,而不管這個 value 信息究竟是存儲在哪一個節點之上。正是這一特性確保了IPFS成爲沒有中心調度節點的分佈式系統。

(2)BitTorrent, ipfs借鑑的首先是消極上傳者的懲罰措施,在 BitTorrent 的客戶端上傳數據會獎勵積分,而長期不上傳的消極節點會被扣分,如果分數低於一定限度,那麼網絡會拒絕再爲他們提供服務;其次是文件可用性檢查,BitTorrent優先把稀缺的文件分享出去,各個客戶端之間相互補充,這樣種子不容易失效,傳輸效率也提高了。

(3)Git,在進行大文件傳輸或修改的時候總會遇到存儲或傳輸壓力大的問題,而Git在版本迭代方面非常出色。Git存儲時會把文件拆成若干個部分,並計算各個部分的哈希值,利用這些構建起與文件對應的有向無環圖(DAG),DAG的根節點也就是該文件的哈希值。這樣的好處十分明顯:如果需要修改文件,那麼只需要修改少數圖中節點即可;需要分享文件,等價於分享這個圖;需要傳輸全部的文件,按照圖中的哈希值下載合併即可。

(4)Self-certifying FileSystem(SFS),它將所有的文件保存在同一個目錄下,所有的文件都可以在相對路徑中找到,其SFS路徑名是其原路徑與公鑰的哈希。這樣的設計包含身份的隱式驗證功能,因此SFS被稱爲自驗證文件系統。

分佈式存儲如何與區塊鏈相結合?

區塊鏈的誕生本是爲了做到去中心化,在沒有中心機構的情況下達成共識,共同維護一個賬本。它的設計動機並不是爲了高效、低能耗,抑或是擁有無限的可擴展性(如果追求高效、低能耗和擴展性,中心化程序可能是更好的選擇),分佈式存儲與區塊鏈協同工作,能夠補充區塊鏈的兩大缺陷:

(1)區塊鏈存儲效率低,成本高。

區塊鏈網絡要求全部的礦工維護同一個賬本,需要每一個礦工留有一個賬本的備份在本地。那麼在區塊鏈中存放的信息,爲了保證其不可篡改,也需要在各個礦工手中留有一份備份,這樣是非常不經濟的。如果有1萬個礦工,即便在網絡保存1MB信息,全網消耗的存儲資源將是10GB。可以使用IPFS存儲文件數據,並將唯一永久可用的IPFS地址放置到區塊鏈事務中,而不必將數據本身放在區塊鏈中,因爲IPFS的自驗證文件系統技術可以保證其內容的不可篡改的特性。也就是區塊鏈用於共識重要的數據,如數字資產、交易記錄等,分佈式存儲作爲存儲層替代現有的中心化數據庫,用於分佈式的存儲大量的附加信息,避免了鏈下數據集中被某個中心控制,而是由網絡參與者一起參與存儲,避免把所有信息放到鏈上,極大拓寬了區塊鏈的應用範圍。

(2)跨鏈需要各個鏈之間協同配合,難以協調。

IPFS能協助各個不同的區塊鏈網絡傳遞信息和文件。IPFS本身就具有保證其內容的不可篡改的特性,能夠作爲可信信息源。同時IPFS可將不同鏈的區塊信息獲取成可讀內容,可協助鏈之間獲取區塊信息。

分佈式存儲與區塊鏈如何爲數據要素市場構建基礎設施

數據被納入生產要素的基礎現狀

相關試點:

2018年5月,爲貫徹落實黨中央、國務院關於推進公共信息資源開放的有關工作部署,中央網信辦、發展改革委、工業和信息化部聯合印發《公共信息資源開放試點工作方案》,確定在北京、上海、福建、貴州開展公共信息資源開放試點,要求針對當前開放工作中平臺缺乏統一、數據缺乏應用、管理缺乏規範、安全缺乏保障等主要難點,在建立統一開放平臺、明確開放範圍、提高數據質量、促進數據利用、建立完善制度規範和加強安全保障6方面開展試點,探索形成可複製的經驗,逐步在全國範圍加以推廣。方案要求,試點地區要結合實際抓緊制定具體實施方案,明確試點範圍,細化任務措施,積極認真有序開展相關工作,着力提高開放數據質量、促進社會化利用,探索建立制度規範,於2018年底前完成試點各項任務。

數據要素市場面臨的問題及挑戰

數據所有權界定不明確、不清晰

數據共享後難以追蹤溯源;數據易泄露或被未授權使用

相關領域數據資源向社會開發的進展緩慢

缺乏公平、透明的數據利益分配機制和手段

未形成完善的產業鏈條,交易規模有效;缺少成熟案例

通過區塊鏈和智能合約對數據分類目錄以及數據確權、授權、使用、加工、權利轉移等操作記錄進行存證和全程追溯,形成不可篡改的數據履歷,提高數字資產交易市場的透明度和可信度。區塊鏈提供了全程過程的可追溯性與不可篡改性。在下圖的架構中解決的數據要素市場全週期的記錄與管理,而數據本身需要存儲在數據庫中,利用分佈式存儲技術,可以做到數據的加密存儲,授權訪問模式,同時分佈式存儲對比傳統中心化數據庫更加安全。

區塊鏈爲數據要素確權、交易提供基礎設施與底層系統

在下圖的架構中解決的數據要素市場全週期的記錄與管理,而數據本身需要存儲在數據庫中,利用分佈式存儲技術,可以做到數據的加密存儲,授權訪問模式,同時分佈式存儲對比傳統中心化數據庫更加安全,無法單方面掌握整體數據,同時數據是加密存儲,只有在區塊鏈上完成了相應的授權才能獲取完整數據,進而使用數據。從整體上保證數據被合法合規的利用。