大數據架構師技能圖譜

大數據通用處理平臺

  1. Spark
  2. Flink
  3. Hadoop

分佈式存儲python

HDFS算法

資源調度編程

Yarn數組

Mesos網絡

機器學習工具數據結構

Mahout機器學習

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微軟分佈式機器學習工具)

 

數據分析/數據倉庫(SQL類)編程語言

  1. Pig
  2. Hive
  3. kylin
  4. Spark SQL,
  5. Spark DataFrame
  6. Impala
  7. Phoenix
  8. ELK

8.1 ElasticSearch分佈式

8.2Logstash工具

8.3Kibana

消息隊列

  1. Kafka(純日誌類,大吞吐量)
  2. RocketMQ
  3. ZeroMQ
  4. ActiveMQ
  5. RabbitMQ

流式計算

  1. Storm/JStorm
  2. Spark Streaming
  3. Flink

日誌收集

Scribe

Flume

編程語言

  1. Java
  2. Python
  3. R
  4. Ruby
  5. Scala

數據分析挖掘

MATLAB

SPSS

SAS

數據可視化

  1. R
  2. D3.js
  3. ECharts
  4. Excle
  5. Python

機器學習

機器學習基礎

  1. 聚類
  2. 時間序列
  3. 推薦系統
  4. 迴歸分析
  5. 文本挖掘
  6. 決策樹
  7. 支持向量機
  8. 貝葉斯分類
  9. 神經網絡

機器學習工具

  1. Mahout
  2. Spark Mlib
  3. TensorFlow (Google 系)
  4. Amazon Machine Learning
  5. DMTK (微軟分佈式機器學習工具)

算法

一致性

  1. paxos
  2. raft
  3. gossip

數據結構

  1. 棧,隊列,鏈表
  2. 散列表
  3. 二叉樹,紅黑樹,B樹

經常使用算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,最大子數組

4.最長公共子序列

5.最小生成樹

最短路徑

6.矩陣的存儲和運算

雲計算

雲服務

  1. SaaS
  2. PaaS
  3. IaaS
  4. Openstack
  5. Docker

End.

相關文章
相關標籤/搜索