大數據正在爆炸式增加,天天都有來自世界各地的公司涌現出新的項目。安全
好消息是,全部技術都是開源的,可供您今天開始採用。服務器
Hadoop架構
穩固,企業實力和其餘一切的基礎。您須要YARN和HDFS以及Hadoop的基礎架構做爲主要數據存儲並運行關鍵的大數據服務器和應用程序框架
Spark機器學習
易於使用,支持全部重要的大數據語言(Scala,Python,Java,R),一個龐大的生態系統,快速增加,易於微縮/批處理/ SQL支持。這是另外一個明智的選擇。異步
在這裏仍是要推薦下我本身建的大數據學習交流羣:529867072,羣裏都是學大數據開發的,若是你正在學習大數據 ,小編歡迎你加入,你們都是軟件開發黨,不按期分享乾貨(只有大數據軟件開發相關的),包括我本身整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深刻大數據的小夥伴加入。分佈式
NiFiide
Apache Hive 2.1工具
Apache Hive一直是Hadoop上的SQL解決方案。經過最新版本,性能和功能加強,Hive成爲大數據SQL的解決方案。oop
Kafka
Phoenix
HBase -開源的BigTable,大量公司致力於HBase並使其規模龐大。NoSQL由HDFS支持,並與全部工具完美集成。在HBase上添加鳳凰城的建設正在使其成爲NoSQL的首選。這爲HBase添加了SQL,JDBC,OLTP和操做分析。
Zeppelin
H2O
H2O填補了Spark的機器學習的空白,而且正常工做。它能夠完成您所需的全部機器學習。
Apache Beam
Java中數據處理管道開發的統一框架。這容許您也支持Spark和Flink。其餘框架將上線,您沒必要學習太多框架。
Stanford CoreNLP
天然語言處理是巨大的,只是增加更多。斯坦福大學正在繼續改進他們的框架。
顯然,有大量的大數據項目,所以您最好的選擇是從基礎分發開始,該分佈包含並測試項目的各個版本,並確保它們與安全性和管理平穩地協同工做。我建議使用Hortonworks Connected Data Platforms做爲您的基礎。若是咱們進入前20名,我會添加更多項目,特別是Storm, SOLR,Apache Oozie和Apache HAWQ。下面有不少很棒的技術,在大多數狀況下,你沒有看到或知道像Apache Tez(雖然你須要在運行Hive時配置它),Apache Calcite,Apache Slider,Apache Zookeeper和 Livy。這些項目對於運行大數據基礎架構相當重要。