面試題包括Java、大數據開發、大數據運維、大數據分析、大數據架構等等
node
咱們的集羣也是用的 Cloudera 公司的,咱們付了費用, Cloudera 沒有保障說 CM 可以納管 1000 節點以上的集羣,再加上咱們的機房有容量限制,因此咱們是建了多套集羣,最大集羣有 800+節點,最小集羣也有 300+節點;800+datanode 下, namenode 是能夠支撐的,像一些互聯網大廠,字節跳動、京東等他們的單集羣規模有上萬節點,此時就須要對 hdfs 進行深度定製了,他們改了不少源碼,並且有 200+高級技術維護人員;面試
多集羣建設要考慮業務狀況,好比咱們公司有 10 個以上業務, 5 大核心集羣,按業務相關狀況劃分集羣,不過也不免有跨集羣的做業,目前公司內部自研發了大數據採集交換平臺,你也可使用 distcp 進行數據對拷,目前咱們也正在準備自研發多集羣並行混算平臺。shell
課堂所示兼顧了小白同窗,因此是手把手純人肉搭建,產線環境擴容數量少則幾十多則上百,人肉確定不行,咱們公司的運維分爲 IAAS 運維、大數據運維、應用運維,大數據運維工程師在擴容集羣時,須要向 IAAS 運維工程師以工單的方式申請服務器並提出本身的需求, IAAS 運維工程師在提供服務器時不論是新採購服務器仍是其餘集羣退役的服務器都須要重裝系統,重裝系統的鏡像是針對大數據定製的,鏡像包含了大數據運維工程師的通用需求以及安裝操做系統後的網絡、磁盤以及其餘設置,好比關閉防火牆、時鐘同步、同構磁盤掛載、關閉大透明頁、關閉 SWAP、公用 YUM 源、禁用 SELinux 等模式化操做,大數據運維工程師收到服務器後準備工做基本準備完畢了,進行少許準備工做就能夠直接進入了 CM 可視化批量安裝模式,好比腳本批量設置hostname、腳本同步/etc/hosts 文件等; 固然如上所說的 IAAS 操做,如關閉防火牆、時鐘同步、同構磁盤掛載、關閉大透明頁、關閉 SWAP、公用YUM 源、禁用 SELinux 均可以腳本化,無非就是使用 SSH 通信方式設置,這就須要大數據運維同窗熟練使用 shell 了。服務器
1.查看文件數使用 count 命令,以下查看/ops 目錄,目錄數爲 9606,文件數爲 1353 萬+,總文件大小爲 9.7P
2.2.查看/ops/test 目錄下的文件存儲的位置hdfs fsck /ops/test -files -blocks -locations -racks網絡
從咱們內部實踐來講沒有發現三者之間的規律,由於大數據業務每一個公司都不同,有的計算是 CPU 密集型的,有的計算是內存密集型的、有的計算是IO 密集型的;咱們的服務器都是中高配置,每一個服務器的磁盤是 4Tx十、 CPU24core、128G 內存架構
咱們產線環境用了 gz 和 snappy 壓縮格式, gz 用於不經常使用的冷數據,snappy 用於熱數據;冷熱數據是跟業務相關的,後續集羣治理的課程中也有冷熱數據的區分。app
你應該是理解錯了, HBase 不能跟 YARN 在一塊兒部署; HBase 須要跟HDFS 部署在一塊兒的,這樣能夠利用數據本地性提高 IO 性能,而且能夠下降網絡延遲,下降帶寬負載。運維
這個劃分隊列沒法解決根本問題,建議將業務劃分優先級,錯開時間執行。tcp
HDFS 有個參數 dfs.datanode.failed.volumes.tolerated,值爲 0 的時候表示當有任何盤損壞後 datanode 則中止服務,若是 4 快盤同時損壞了,此時datanode 進程已經中止了,你能夠修改 hdfs-site.xml 配置文件將損壞的磁盤路徑去掉,重啓 datanode 便可,而後進入磁盤報修流程,待磁盤更換後,中止 datanode,在 hdfs-site.xml 配置文件中假如新的磁盤,啓動 datanode 便可。ide
是的, beeline 使用 JDBC 協議來鏈接 HIVESERVER2
須要找到 datanode 的具體緣由, datanode 相對來講仍是比較穩定的,須要看下是不是 GC 問題,若是是的話適當調大內存,再看下最大的打開文件數或進程數的限制是否過小
在內存佔用較低的節點上啓動 balancer 腳本,將 HDFS 中全部節點的存儲值中的最低值和平均值的差值設置爲 5%。命令: ./start-balancer.sh -threshold 5
目前咱們產線環境仍是以 CDH 監控爲主, CDH 的指標仍是挺多的,只不過保留的週期不長,對於排障來講基本夠用了,固然咱們會推動一些監控工具,不過在課堂不會展開細講,後續有 Flink 監控方面的實戰。
CM 解決不了大量小文件的監控,須要額外作其餘工做,這塊在集羣治理裏面咱們會詳細講;對於怎麼衡量小文件的標準,你能夠簡單認爲小於 blocksize 的文件就是小文件,可是在企業真實狀況下小文件問題可能更加嚴重,好比大量 10M、幾十 M 如下的文件,單純技術沒法解決問題,須要組織協同,這個在集羣治理裏面咱們會詳細講。
這個會講解的,也會講解咱們產線環境是如何劃分隊列的。
HDFS 可經過 ACL 精細控制目標權限,除了 ACL 後續咱們也會講sentry;目前咱們產線環境沒有作容量配額限制,怕影響生產,咱們經過集羣治理來解決容量問題,集羣治理是咱們的課程內容之一,後續會講解
這個是會的,咱們會講組件的運維、巡檢、監控、參數配置、故障排查等課程內容。
大數據組件監控主要在 CM 上進行監控,後續有集羣治理案例實戰,實戰代碼能夠給學員的。未完待續………