ViewFS Guidehtml
1 介紹node
2. The Old World(Prior to Federation)web
2.1單個Namenode Clustersapache
2.2 路徑使用api
2.3 路徑名的最佳實踐tcp
3 New World – Federation and ViewFSide
3.2 使用ViewFs的每一個cluster的Namespaceui
3.3 路徑使用spa
View File System(ViewFS)提供一個方法來管理hadoop文件系統namespaces。對於多個namnode的集羣頗有用。在HDFS Federation,ViewFS和client上面的Linux的mount table 相似。ViewFS能夠用來建立我的的namespace。
Hadoop系統有多個clusters,每一個cluster可能被聯合到多個namespaces。也描述瞭如何在HDFS聯合上使用ViewFS,可讓應用可使用類似的方法,操做每一個聯合。
在之前HDFS聯合,一個cluster有一個namenode提供了一個文件系統namespace。假設有多個cluster,每一個cluster的文件系統namespace都是獨立的。此外集羣的存儲也是相互不共享的。(datanode集羣間是不共享的)。
Core-site.xml的每一個配置屬性設置namenode 的默認文件系統集羣:
<property>
<name>fs.default.name</name>
<value>hdfs://namenodeOfClusterX:port</value>
</property>
好比這個配置容許使用相對路徑來訪問cluster namenode。好比使用上面的/foo/bar配置表示hdfs://namenodeOfClusterX:port/foo/bar。
這個配置屬性須要配置在集羣的每一個gateway,也須要設置在關鍵的服務上,好比JobTracker和Oozie。
配置了以上設置,一般的路徑名:
1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar
2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑,使用相對路徑會更好,由於能夠根據cluster的變化而變化。
3. hdfs://namenodeOfClusterY:port/foo/bar
指向另一個集羣的路徑,可使用如下命令複製:
distcp hdfs://namenodeClusterY:port/pathSrc hdfs://namenodeClusterZ:port/pathDest
4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。注意WebHDFS使用HTTP端口namenode,而不是使用PRC端口。
5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
經過WebHDFS RESET API和HDFS代理,HTTP URLs訪問這些文件。
推薦使用上面類型1而不是類型2的。絕對URI相似於地址而且不容許應用程序轉化數據。
假設有多個集羣。每一個集羣有一個或者多個namenode。每一個namenode都有本身的namespace。一個namenode只屬於一個集羣。同一個集羣的namenode共享集羣中的物理存儲。Namespace關聯的集羣是獨立的。
爲了提供和以前的兼容,ViewFS文件系統用來爲每一個集羣建立獨立的集羣namespace view。和老的namespace相似。如下圖片顯示了mount table mount了4個namespace:
ViewFS實現了Hadoop file system結構和HDFS和本地文件系統相似。感受就是一個細微的文件系統用來鏈接到其餘文件系統。由於ViewFs實現了hadoop文件系統的藉口,對hadoop tool透明。好比ViewFs的命令和hdfs和本地文件系統同樣。
在hadoop配置文件能夠配置mount表的mount點。在每一個集羣的配置,默認的文件系統被設置到mount table:
<property>
<name>fs.defaultFS</name>
<value>viewfs://clusterX</value>
</property>
頭上在viewfs://以後是mount table名,推薦使用cluster name。而後hadoop系統查看在配置文件中的clusterx的mount table。操做覆蓋全部gateway和服務來包含全部集羣的mount table。對於每一個cluster,默認文件系統會被建立爲ViewFs mount table和上面描述的同樣。
Mount table 的掛載點在hadoop 配置文件中設置。全部mount table使用fs.viewfs.mounttable配置。Mount point是使用link標籤來連接其餘文件系統。推薦mount point的名字和掛載目標的同樣。對於全部的namespace沒有配置在mount table中,咱們可使用linkFallback,fallback到默認文件系統。
在如下mount table配置,namespace /data連接到文件系統hdfs://nn1-clusterx.example.com:8020/data,/project連接到hdfs://nn2-clusterx.example.com:8020/project。全部的namespace沒有被配置在mount table的好比/logs都會被連接到hdfs://nn5-clusterx.example.com:8020/home下。
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./data</name>
<value>hdfs://nn1-clusterx.example.com:8020/data</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./project</name>
<value>hdfs://nn2-clusterx.example.com:8020/project</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./user</name>
<value>hdfs://nn3-clusterx.example.com:8020/user</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>
<value>hdfs://nn4-clusterx.example.com:8020/tmp</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.linkFallback</name>
<value>hdfs://nn5-clusterx.example.com:8020/home</value>
</property>
</configuration>
替代方案,能夠經過linkMergeSlash來合併mount table的root。在mount table配置,ClusterY的root使用hdfs://nn1-clustery.example.com:8020合併。
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterY.linkMergeSlash</name>
<value>hdfs://nn1-clustery.example.com:8020/</value>
</property>
</configuration>
配置了以上設置,一般的路徑名:
1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar
2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑,使用相對路徑會更好,由於能夠根據cluster的變化而變化。
3. hdfs://namenodeOfClusterY:port/foo/bar
指向另一個集羣的路徑,可使用如下命令複製:
distcp hdfs://namenodeClusterY:port/pathSrc hdfs://namenodeClusterZ:port/pathDest
4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。注意WebHDFS使用HTTP端口namenode,而不是使用PRC端口。
5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
經過WebHDFS RESET API和HDFS代理,HTTP URLs訪問這些文件。
推薦使用上面類型1而不是類型2的。絕對URI相似於地址而且不容許應用程序轉化數據。
在新的方式下,若是/user和/data在不一樣的namenode上,那麼就不能夠運行。
rename /user/joe/myStuff /data/foo/bar
略
一般,用戶不須要鄧毅表或者core-site.xml來使用mount table。
Mount table能夠在core-site.xml中描述,可是最好不要直接在core-site.xml上使用,而是經過一個獨立的文件,好比mountTable.xml,在core-site.xml增長如下配置:
<configuration xmlns:xi="http://www.w3.org/2001/XInclude">
<xi:include href="mountTable.xml" />
</configuration>
在mountTable.xml文件,定義了ClusterX的mount table,ClusterX是三個namespace:
1.nn1-clusterx.example.com:8020,
2.nn2-clusterx.example.com:8020,
3.nn3-clusterx.example.com:8020.
這裏/home和/tmp由nn1-clusterx.example.com:8020 namenode管理,/foo和/bar在聯合集羣的其餘namenode。Home的base目錄被設置在/home,這樣每一個用戶能夠經過getHomeDirectory()訪問各自的home目錄,getHomeDirectory()定義能夠查看FileSystem/FileContext.
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterX.homedir</name>
<value>/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./home</name>
<value>hdfs://nn1-clusterx.example.com:8020/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>
<value>hdfs://nn1-clusterx.example.com:8020/tmp</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/foo</name>
<value>hdfs://nn2-clusterx.example.com:8020/projects/foo</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/bar</name>
<value>hdfs://nn3-clusterx.example.com:8020/projects/bar</value>
</property>
</configuration>