大數據技能圖譜

大數據處理框架html

Spark(Spark學習腦圖算法

    - RDD數據庫

    - Spark SQL編程

    - Spark Streaming數組

    - MLLib網絡

 

Hadoop數據結構

    - HDFS (分佈式文件系統)app

    - Mapreduce(計算框架)框架

    - Yarn(資源管理平臺)機器學習

    - Pig(piglatin 語句到 mapreduce 的映射)

    - Hive(數據倉庫,提供 SQL)

    - Mahout(機器學習算法的 mapreduce 實現庫)

 

Kafka

  • Kafka簡介

  • 分佈式消息隊列(Message Queue)

  • 高吞吐、可擴展

  • Kafka經過Zookeeper管理集羣配置,選舉leader

  • LinkedIn開發,開發語言Scala

  • Kafka Monitor:http://www.oschina.net/p/kafka-monitor(LinkedIn在2016年4月開源了其測試框架)

 

Storm(實時計算簡介

  • Twitter已經用Heron替換了Storm

 

ELK

  • ElasticSearch

  • Logstash

  • Kibana

 

數據庫

  • SQL

  • MySQL

  • MongoDB (文檔型)

  • Cassandra

  • Redis (KV型)

  • SQLite

  • bsddb

  • HBase

  • Neo4j (圖型)

 

編程語言

  • Python

  • R

  • Ruby

 

數據分析挖掘

  • MATLAB

  • SPSS

  • SAS

 

數據可視化

  • R

  • D3.js

  • ECharts

  • Excle

 

人工智能

  • 聚類

  • 時間序列

  • 推薦系統

  • 迴歸分析

  • 文本挖掘

  • 決策樹

  • 支持向量機

  • 貝葉斯分類

  • 神經網絡

 

算法

  •   一致性

    • paxos

    • raft

    • gossip

  •   數據結構

    • 棧,隊列,鏈表

    • 散列表

    • 二叉樹,紅黑樹,B樹

  •  經常使用算法

    • 排序(插入排序、桶排序、堆排序、快速排序)

    • 最大子數組

    • 最長公共子序列

    • 最小生成樹

    • 最短路徑

    • 矩陣的存儲和運算

 

雲計算

  • 雲服務(SaaS、PaaS、IaaS)

  • Openstack

  • Docker

 

refer:

一、大數據技能圖譜(在此基礎上有所補充)

相關文章
相關標籤/搜索