大數據---Ranger-1

時間 2019-12-05

標籤數據 ranger 简体版

原文原文鏈接

背景：從軟通出來，告別華爲外包，離開H區，進入了一家搞大數據的創業公司，感受周圍都好陌生，記錄下本身大數據的career！shell

2019-03-4新的征程-入職第一天：數據庫

1、辦理入職手續編程

公司人比較少，沒有入職培訓等操做；用了企業微信和企業郵箱，填下我的信息，而後開搞；安全

2、搭建Java開發環境和虛擬機、Linux、Xshell等服務器

Windows下使用Xshell時出現丟失msvcr110.dll等dll，可使用該連接解決https://blog.csdn.net/franck_lou/article/details/78438268 微信

3、學習編譯Ranger工程，熟悉相關部署和使用網絡

剛開始接觸公司本身搭建的Ranger工程，感受好難受；Ranger是開源的，公司下載了源碼並在原有結構上在增長新功能；Ranger裏面好多組件都沒用過，感受很陌生，難受馬非，因而感受今天先弄明白這些東西時什麼，以後再仔細研究它們時怎麼存儲數據、讀/寫文件和使用等。框架

一、Ranger 簡介分佈式

Apache Ranger提供一個集中式安全管理框架，它能夠對Hadoop生態的組件如Hive、Hbase進行細粒度的數據訪問控制；經過操做Ranger控制檯，管理員能夠輕鬆的經過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、數據庫、表和字段權限，這些策略能夠爲不一樣的用戶和組來設置，同時權限可與hadoop無縫對接；而且提供了Web UI方便管理員進行操做。工具

二、什麼是Hbase

HBase是一種Hadoop數據庫，常常被描述爲一種稀疏的、分佈式的、可持續化的、多維有序映射，它是基於行鍵、列鍵和時間戳創建索引的，是一個能夠隨機訪問的存儲和檢索數據的平臺；HBase不限制存儲的數據種類，容許動態的、靈活的數據模型，不用SQL語言，也不強調數據之間的關係；HBase被設計成在一個服務器集羣上運行，能夠相應地橫向擴展。

三、什麼是Hive

a. Hive由Facebook實現並開源；
b. 是基於Hadoop的一個數據倉庫工具；
c. 能夠將結構化的數據映射爲一張數據庫表，並提供HQL(Hive SQL)查詢功能；
d. 底層數據是存儲在HDFS上的；
e. Hive的本質是將SQL 語句轉換爲MapReduce 任務執行，使不熟悉MapReduce的用戶很方便的利用HQL處理和計算HDFS上的結構化的數據，適用於離線的批量數據計算；
f. MapReduce是一種編程模型，用於大規模數據集(大於1TB)的並行運算。

四、什麼是YARN

Apache Hadoop YARN(Yet Another Resource Negotiator，另外一種資源協調者)是一種新的Hadoop資源管理器，它是一個通用資源管理系統，可爲上層應用提供統一的資源管理和調度；它將資源管理和處理組件分開，它的引入爲集羣在利用率、資源統一管理和數據共享等方面帶來了巨大的好處。

五、什麼是Hadoop

Hadoop是一個開源框架，它容許在整個集羣使用簡單編程模型計算機的分佈式環境存儲並處理大數據；它的目的是從單一的服務器到上千臺機器的擴展，每個臺機均可以提供本地計算和存儲。

六、什麼是KNOX

Knox是Apache Hadoop生態中REST API和應用的網關，Apache Knox是一個經過REST API和UI與Apache Hadoop部署交互的應用網關；Knox網關爲全部與Hadoop集羣的REST和HTTP交互提供
了一個單獨的訪問點。(REST描述的是在網絡中client和server的一種交互形式)

七、什麼是HDFS

HDFS(Hadoop Distributed File System)是Hadoop項目的核心子項目，是分佈式計算中數據存儲管理的基礎，是基於流數據模式訪問和處理超大文件的需求而開發的，能夠運行於廉價的商用服務器上；它所具備的高容錯性、高可靠性、高擴展性、高得到性和高吞吐率特徵爲海量數據提供了不怕故障的存儲，爲超大數據集(Large Data Set)的應用處理帶來了不少便利。

4、吐槽

一、今天上班用的是win10系統，win10須要以管理員身份打開dos窗口，才能夠修改執行某些特殊命令；

二、上班第一天沒有把Ranger工程本身編譯出來，難受；

三、第一天晚上就加班了，還被嫌棄了，要講究工做效率，在上班時間完成任務，該加班的時候再加班，難受；

四、建議你們有事沒事都下個虛擬機玩玩，Linux和Xshell等操做熟悉下吧，又被嫌棄了，難受馬非。