大數據工程師技能圖譜(轉)

大數據工程師技能圖譜算法

大數據通用處理平臺shell

   Spark編程

   Flink數組

   Hadoop安全


分佈式存儲網絡

   HDFS數據結構


資源調度架構

   Yarnapp

   Mesosdom


數據分析/數據倉庫(SQL類)

   Pig

   Hive

   kylin

   Spark SQL,

   Spark DataFrame

   Impala

   Phoenix

   ELK

       ElasticSearch

       Logstash

       Kibana


消息隊列

   Kafka(純日誌類,大吞吐量)

   RocketMQ

   ZeroMQ

   ActiveMQ

   RabbitMQ


流式計算

   Storm/JStorm

   Spark Streaming


日誌收集

   Scribe

   Flume


編程語言

   Java

   Python

   R

   Ruby


數據分析挖掘

   MATLAB

   SPSS

   SAS


數據可視化

   R

   D3.js

   ECharts

   Excle


機器學習

機器學習基礎

   聚類

   時間序列

   推薦系統

   迴歸分析

   文本挖掘

   決策樹

   支持向量機

   貝葉斯分類

   神經網絡


機器學習工具

   Mahout

   Spark Mlib

   TensorFlow (Google 系)

   Amazon Machine Learning

   DMTK (微軟分佈式機器學習工具)


算法

數據結構

   棧,隊列,鏈表

   散列表

   二叉樹,紅黑樹,B樹

   圖


經常使用算法

   排序

       插入排序

       桶排序

       堆排序

       快速排序

   最大子數組

   最長公共子序列

   最小生成樹

   最短路徑

   矩陣的存儲和運算

分佈式一致性

   paxos

   raft

   gossip


雲計算

   雲服務

       SaaS

       PaaS

       IaaS

   Openstack

   Docker


Hadoop 家族技能圖譜

    Hadoop

    Zookeeper

    Avro

    Chukwa

    Ambari

    Whirr

    Bigtop

    HCatalog

    Hue

    HBase

    Pig

    Sqoop

    Cassandra

    Hama

    Flume

    Giraph

    Oozie

    Crunch

    Hive

    Mahout


Hive 技能圖譜

Hive介紹

Hive系統架構

   MetaStore

       Derby

       MySQL

   HDFS

       /user/hive/warehouse

   MapReduce


Hive配置文件

   hive-env.sh

   hive-site.xml

   hive-log4j.properties


Hive命令行

   hive-config

   hive shell

       quit,exit

       reset

       set

       add,list,delete FILES

       ! <命令>

       dfs <命令>

       HQL

       source FILES

   hive service

       hive-service cli

       hive-service hiveserver

       hive-service metastore

       hive-service hwi

       hive-service jar


HiveQL

   語法關鍵字

       show databases

       show PARTITIONS

       show tables

       create table

       load data(local) inpath

       Select*from

       desc,alert,drop

       limit,as,case when then,union

       like,group by,having

       order by,sort by

       cluster by


   數據類型

       簡單類型

           tinyint,smallint,int,bigint

           float,double

           boolean

           string

           timestamp

           binary


       複雜類型

           arry

           map

           struct


   表

       內部表

       外部表

           HDFS

           HBase

           Cassandra

           DynamoDB


   表查詢

       單表查詢

       lnner joins

       Outer joins

       Semi joins

       Map joins

       子查詢

       視圖


數據表設計

   每日一表

   每日一表分區

   按桶分散數據


Hive優化

   表分區Partitions

   表存儲桶buckets

   表壓縮

   索引

       bitmap indexes

   執行計劃

   控制Mapper.Reduce數量


訪問方式

   Hive Shell

   Java JDBC API

   Thrift Client

   RHive


自定義函數

   自定義函數UDF

   自定義聚合函數UADF


Hive安全

   認證

       hive.files.umask.value

       hive.metastore.authorization.storage.checks

       hive.metastore.execute.setugi


   受權

       hive.security.authorization.enabled

       hive.security.authorization.createtable.owner.grants

       hive.security.authorization.createtable.user.grants


   權限模型

       User

       Group

       Role


Web控制檯

   hwi:9999


軟件集成

   Zookeeper

   Thrift

   Ooize

   HCatalog

   AWS


Hive案例

Mahout 技能圖譜

Mahou介紹

推薦

   協同過濾

       基於用戶協同過濾

       基於物品協同過濾


   類似度矩陣

       歐氏距離

       Pearson距離

       餘弦距離cosine

       Spearman’s rank correlation coefficient

       Tanimoto coefficient

       log-likelihood


   近鄰算法

       按值取近鄰

       按比例取近鄰


   推薦算法

       UserBasedRecommender

       ItemBasedRecommender

       SlopeOneRecommender

       SVDRecommender

       KnnltemBasedRecommender

       TreeClusteringRecommender


   算法檢驗

       全查率Recall

       準查率Precision


   數據模型

       UserID,ltemID,PreferenceValue

       UserID,ItemID


   Hadoop集羣部署


聚類

   數據模型

       DenseVector

       RandomAccessSparseVector

       SequentialAccessSpareVector


   距離算法

       歐式距離

       歐式平方距離

       馬氏距離

       餘弦距離

       Tanimoto距離

       帶權重距離


   標準化距離

       normalization


   聚類算法

       k-means

       Canopy

       Fuzzy k-means

       Dirichlet

       Topic moseling on LDA


   Hadoop集羣部署


分類

   系統模塊

       訓練營

       測試營

       分類算法

       訓練過程

       創建分類器

       驗證模塊

       真實數據

       調整參數

       執行分類過程

       預測結果

       檢驗結果

       自動構建


   工做流

       訓練模型

           定義目標變量

           歷史數據

           定義預測變量

           分類算法

           經過學習算法訓練分類器

       驗證模型

           運行測試集

           參數調優

       生產環境

           啓動模型對真實數據計算

       分類模型

       分類算法

           Stochastic gradient descent(SGD)

               Online_ogisticRession

               CrossFoldLearner

               Adaptivel_ogisticRegression

           Support vector machine(SVM)

           Naive Bayes

           Complemetary naive Bayes

           Random forests

相關文章
相關標籤/搜索