大數據架構師技能圖譜
大數據通用處理平臺
- Spark
- Flink
- Hadoop
分佈式存儲python
HDFS算法
資源調度編程
Yarn數組
Mesos網絡
機器學習工具數據結構
Mahout機器學習
- Spark Mlib
- TensorFlow (Google 系)
- Amazon Machine Learning
- DMTK (微軟分佈式機器學習工具)
數據分析/數據倉庫(SQL類)編程語言
- Pig
- Hive
- kylin
- Spark SQL,
- Spark DataFrame
- Impala
- Phoenix
- ELK
8.1 ElasticSearch分佈式
8.2Logstash工具
8.3Kibana
消息隊列
- Kafka(純日誌類,大吞吐量)
- RocketMQ
- ZeroMQ
- ActiveMQ
- RabbitMQ
流式計算
- Storm/JStorm
- Spark Streaming
- Flink
日誌收集
Scribe
Flume
編程語言
- Java
- Python
- R
- Ruby
- Scala
數據分析挖掘
MATLAB
SPSS
SAS
數據可視化
- R
- D3.js
- ECharts
- Excle
- Python
機器學習
機器學習基礎
- 聚類
- 時間序列
- 推薦系統
- 迴歸分析
- 文本挖掘
- 決策樹
- 支持向量機
- 貝葉斯分類
- 神經網絡
機器學習工具
- Mahout
- Spark Mlib
- TensorFlow (Google 系)
- Amazon Machine Learning
- DMTK (微軟分佈式機器學習工具)
算法
一致性
- paxos
- raft
- gossip
數據結構
- 棧,隊列,鏈表
- 散列表
- 二叉樹,紅黑樹,B樹
- 圖
經常使用算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子數組
4.最長公共子序列
5.最小生成樹
最短路徑
6.矩陣的存儲和運算
雲計算
雲服務
- SaaS
- PaaS
- IaaS
- Openstack
- Docker
End.
歡迎關注本站公眾號,獲取更多信息