大數據處理框架html
Spark(Spark學習腦圖)算法
- RDD數據庫
- Spark SQL編程
- Spark Streaming數組
- MLLib網絡
Hadoop數據結構
- HDFS (分佈式文件系統)app
- Mapreduce(計算框架)框架
- Yarn(資源管理平臺)機器學習
- Pig(piglatin 語句到 mapreduce 的映射)
- Hive(數據倉庫,提供 SQL)
- Mahout(機器學習算法的 mapreduce 實現庫)
Kafka
分佈式消息隊列(Message Queue)
高吞吐、可擴展
Kafka經過Zookeeper管理集羣配置,選舉leader
LinkedIn開發,開發語言Scala
Kafka Monitor:http://www.oschina.net/p/kafka-monitor(LinkedIn在2016年4月開源了其測試框架)
Storm(實時計算簡介)
Twitter已經用Heron替換了Storm
ELK
ElasticSearch
Logstash
Kibana
數據庫
SQL
MySQL
MongoDB (文檔型)
Cassandra
Redis (KV型)
SQLite
bsddb
HBase
Neo4j (圖型)
編程語言
Python
R
Ruby
數據分析挖掘
MATLAB
SPSS
SAS
數據可視化
R
D3.js
ECharts
Excle
人工智能
聚類
時間序列
推薦系統
迴歸分析
文本挖掘
決策樹
支持向量機
貝葉斯分類
神經網絡
算法
一致性
paxos
raft
gossip
數據結構
棧,隊列,鏈表
散列表
二叉樹,紅黑樹,B樹
圖
經常使用算法
排序(插入排序、桶排序、堆排序、快速排序)
最大子數組
最長公共子序列
最小生成樹
最短路徑
矩陣的存儲和運算
雲計算
雲服務(SaaS、PaaS、IaaS)
Openstack
Docker
refer:
一、大數據技能圖譜(在此基礎上有所補充)