alluxio2.0特性-預覽

項目地址

https://github.com/Alluxio/alluxio/tree/branch-2.0-previewgit

2.0版本-構思和設計

支持超大規模數據工做負載

Alluxio做爲計算和存儲之間的數據編排層,使數據移動而且能夠跨多個不一樣的存儲系統訪問:HDFS,對象存儲,網絡附加存儲,隨着時間的推移,Alluxio須要的元數據支持規模 提供能夠輕鬆超過最大的Hadoop部署。 特別是元數據管理被認爲是Hadoop的弱點,但Alluxio應該將元數據管理變成一種優點。github

更友好的數據工程界面

Alluxio的建立重點是基於Hadoop的計算工做負載。 可是多年來,數據密集型計算工做負載的數量和類型已經爆炸式增加,而且在現有數據或新數據存儲系統上實現這些工做負載的數據編排和工程設計很是重要。 特別是,在機器學習和深度學習培訓以前,須要許多數據工程,包括手動數據移動。 Alluxio應該經過爲數據科學家提供本地已知API同時減小所需的數據工程來大大簡化這一過程。算法

使存儲和計算更加分離

整個企業中的數據孤島只會隨着跨多個Hadoop集羣的數據而增長,愈來愈多地存在於許多不一樣的對象存儲中,而且在一些狀況下存儲在內部或公共雲中。 這使得計算與數據分解變得更加困難,由於數據處理被移動到與存儲數據的位置不一樣的位置時,數據位置和訪問受到嚴重影響。 Alluxio應該經過抽象存儲同時使數據更易於訪問,繼續實現計算和存儲的分離。網絡

2.0版本-進步和功能

Alluxio 2.0包含許多加強功能,以支持項目的設計目標,全部開源都將包含在Community Edition中!框架

支持超大規模數據工做負載

  • 支持超過10億個文件 - 2.0引入了分層元數據管理的新選項,以支持具備超過10億個文件的單個羣集部署。咱們使用RocksDB進行非堆存儲,如今是默認的。熱數據的元數據繼續存儲在堆上的進程內存中,而其他元數據由進程內存外的Alluxio管理。 alluxio.master.metastore能夠配置爲僅更改成堆。
  • 高度分佈式數據服務 - 2.0引入了Alluxio做業服務,這是一種分佈式集羣服務,如今可使用複製,持久性,交叉存儲移動和分佈式負載等數據操做,從而實現高性能和大規模擴展。看一下Alluxio支持的全部文件系統API。
  • 加強數據局部性的自適應複製 - 爲自動管理的Alluxio中存儲的數據副本配置範圍的新功能。 alluxio.user.file.replication.max和alluxio.user.file.replication.min可用於指定範圍。可在此處找到全部用戶配置的完整列表
  • 嵌入式日誌的高可用性 - 文件和對象元數據的新容錯和高可用性模式稱爲嵌入式日誌,它使用RAFT一致性算法,獨立於任何其餘外部存儲系統。這對於抽象對象存儲特別有用。瞭解如何在此配置嵌入式日記

在任何存儲上啓用機器學習和深度學習工做負載

機器學習和深度學習框架須要從Hadoop和對象存儲中提取數據,這一般是一個很是手動且耗時的過程。機器學習

  • Alluxio POSIX API Alluxio的FUSE功能支持POSIX兼容API,所以TensorFlow,Caffe和其餘基於Python的模型等框架可使用傳統的文件系統訪問經過Alluxio直接訪問任何存儲系統中的數據。瞭解有關POSIX API的更多信息。

更好的存儲抽象,實現徹底獨立和彈性的計算

  • 支持不一樣版本的HDFS集羣 - 數據的爆炸性增加致使企業擁有許多數據孤島,包括跨多個不一樣版本的多個Hadoop集羣。目前,跨這些集羣的統一訪問很是困難。使用Alluxio 2.0,用戶可使用Alluxio的任何版本鏈接到多個HDFS集羣,並統一數據訪問。在此處查找支持的HDFS版本列表。
  • 與Hadoop主動同步 - 新功能與HDFS iNotify集成,可更新存儲在Hadoop中的文件所發生的任何數據和元數據更改,容許應用程序經過Alluxio訪問數據,以主動接收最新更新。

原文地址:https://www.alluxio.com/blog/announcing-alluxio-20-preview-enabling-hyper-scale-data-workloads-in-the-cloud分佈式

相關文章
相關標籤/搜索