大數據技術棧,主要有哪些

往大數據方向發展須要學哪些技術?網上一搜真是指不勝屈。對於小白來講,實在是一頭霧水,到底哪些是當下流行的?哪些是必需要先學會的?流行?主次搞不清。爲了解決這些疑惑,羚羊專門花了些時間,  挨個技術去研究對比歸類,大概總結出如下的技術點:html

文件存儲: Hadoop HDFS、GFS、KFS、Tachyon
離線計算: Hadoop MapReduce、Spark
流式、實時計算:flink、Storm、JStorm、Spark Structured Streaming、Heron、Spark Streaming
存儲格式:kudu、ORC、Apache Parquet、CarbonData
數據庫: HBase、Redis、MongoDB、Couchbase、LevelDB、Apache Cassandra、Ignite、TiDB
資源管理: YARN、Mesos
日誌收集: Flume、Scribe、Logstash、FileBeat
消息系統: Kafka、StormMQ、ZeroMQ、RabbitMQ、Confluent Platform
在線、離線查詢搜索分析: Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid、ClickHouse、Elasticsearch
數據可視化查詢分析工具:Apache Zeppelin、Kibana
分佈式協調服務:Zookeeper
集羣管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
數據同步: Sqoop、DataX、Cannal、Maxwell、Debezium、DataBus
任務調度: Azkaban、Oozie
數據安全:Apache Eagle
機器學習、數據挖掘:Spark MLLib、Mahoutios

 下圖是羚羊根據當下流行的大數據技術點,結合以前的項目經驗,基於HDFS文件系統搭建了一個基本的、通用的完整大數據平臺技術架構。一切的技術都是來源於不一樣的需求場景,因此根據不一樣的產品需求搭建出來的技術架構也會有差別。數據庫

大數據架構

【版權聲明】安全

本文版權歸做者(深圳伊人網網絡有限公司)和博客園共有,歡迎轉載,但未經做者贊成必須在文章頁面給出原文連接,不然保留追究法律責任的權利。如您有任何商業合做或者受權方面的協商,請給我留言:siqing0822@163.com網絡

相關文章
相關標籤/搜索