Tachyon 是一個高容錯的分佈式文件系統,容許文件之內存的速度在集羣框架中進行可靠的共享,相似Spark和 MapReduce。經過利用lineage信息,積極地使用內存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在內存中處理緩 存文件,而且讓不一樣的 Jobs/Queries以及框架都能內存的速度來訪問緩存文件。緩存
特性:網絡
類 Java 的文件 API架構
兼容性:實現 Hadoop 文件系統接口框架
可插入式的底層文件系統機器學習
內建 Raw 原生表的支持分佈式
基於 Web 的 UI
工具
提供命令行接口oop
Tachyon 架構:
學習
與 HDFS 的比較:大數據
Hadoop足夠快嗎?美國加州大學伯克利分校的AMPLab基於Hadoop的核心組件開發出一個更快的版本Tachyon。AMPLab從底層重建了Hadoop平臺,「沒有最快,只有更快」。
AMPLab在大數據領域最知名的產品是Spark, 它是一個內存中並行處理的框架,Spark的創造者聲稱:使用Shark運行並行處理Job速度要比MapReduce快100倍。又由於Spark是在 內存運行,因此Shark可與Druid或者SAP's HANA系統一較高下。Spark也爲ClearStory下一代分析和可視化服務提供處理引擎。若是你喜歡用Hive做爲Hadoop的數據倉庫,那麼 你必定會喜歡Shark,由於它表明了「Hive on Spark」。
AMPLab的最新目標就是Hadoop分佈式文件系統(HDFS),不過HDFS在可用性和速度方面一直受人詬病,因此AMPLab建立了Tachyon( 在High Scalability上很是奪目,引發了Derrick Harris的注意)。
固然,AMPLab並非第一個對HDFS提出質疑的組織,同時也有不少商業版本可供選擇,像Quantcast就本身開發了開源文件系統,聲稱其在運行大規模文件系統時速度更快、更高效。
誠 然,AMPLab所作的工做就是打破現有商業軟件的瓶頸限制。若是碰巧破壞了現狀,那麼就順其天然吧!不過,對於用戶來講,AMPLab只是爲那些尋找合 適工具的人員提供了一種新的選擇,AMPLab的合做夥伴和贊助商包括谷歌,Facebook,微軟和亞馬遜網絡服務,它們固然很是樂意看到這些新技術, 若是頗有必要的話。
AMPLab的其餘項目包括PIQL,相似於一種基於鍵/值存儲的SQL查詢語言;MLBase,基於分佈式系統的機器學習系統;Akaros,一個多核和大型SMP系統的操做系統;Sparrow,一個低延遲計算集羣調度系統。