今天開始採用的十大大數據技術

大數據正在爆炸式增加,天天都有來自世界各地的公司涌現出新的項目。安全

好消息是,全部技術都是開源的,可供您今天開始採用。服務器

Hadoop架構

穩固,企業實力和其餘一切的基礎。您須要YARN和HDFS以及Hadoop的基礎架構做爲主要數據存儲並運行關鍵的大數據服務器和應用程序框架

圖片描述
Spark機器學習

易於使用,支持全部重要的大數據語言(Scala,Python,Java,R),一個龐大的生態系統,快速增加,易於微縮/批處理/ SQL支持。這是另外一個明智的選擇。異步

在這裏仍是要推薦下我本身建的大數據學習交流羣:529867072,羣裏都是學大數據開發的,若是你正在學習大數據 ,小編歡迎你加入,你們都是軟件開發黨,不按期分享乾貨(只有大數據軟件開發相關的),包括我本身整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深刻大數據的小夥伴加入。分佈式

NiFiide

  • NSA的工具,容許從這麼多來源輕鬆地進行數據攝取,存儲和處理,只需極少的編碼和靈活的用戶界面。來自社交媒體,JMS,NoSQL,SQL,Rest / JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等的數十種來源。若是沒有您須要的源或接收器,那麼爲您編寫本身的處理器是直接的Java代碼。您工具箱中的另外一個偉大的Apache項目。這是瑞士軍刀大數據工具。

Apache Hive 2.1工具

Apache Hive一直是Hadoop上的SQL解決方案。經過最新版本,性能和功能加強,Hive成爲大數據SQL的解決方案。oop

Kafka

  • 大數據系統之間異步分佈式消息傳遞的選擇。它融入了大多數堆棧。從Spark到NiFi再到第三方工具,從Java到Scala,它是系統之間的一個很好的粘合劑。這須要在你的堆棧中。

Phoenix

HBase -開源的BigTable,大量公司致力於HBase並使其規模龐大。NoSQL由HDFS支持,並與全部工具完美集成。在HBase上添加鳳凰城的建設正在使其成爲NoSQL的首選。這爲HBase添加了SQL,JDBC,OLTP和操做分析。

Zeppelin

  • 易於集成的筆記本工具,用於處理Hive,Spark,SQL,Shell,Scala,Python以及大量其餘數據探索和機器學習工具。它很是容易使用,也是探索和查詢數據的好方法。該工具正在得到支持和功能。他們只須要提高他們的圖表和繪圖。

H2O

H2O填補了Spark的機器學習的空白,而且正常工做。它能夠完成您所需的全部機器學習。

Apache Beam

Java中數據處理管道開發的統一框架。這容許您也支持Spark和Flink。其餘框架將上線,您沒必要學習太多框架。

Stanford CoreNLP

天然語言處理是巨大的,只是增加更多。斯坦福大學正在繼續改進他們的框架。

顯然,有大量的大數據項目,所以您最好的選擇是從基礎分發開始,該分佈包含並測試項目的各個版本,並確保它們與安全性和管理平穩地協同工做。我建議使用Hortonworks Connected Data Platforms做爲您的基礎。若是咱們進入前20名,我會添加更多項目,特別是Storm, SOLR,Apache Oozie和Apache HAWQ。下面有不少很棒的技術,在大多數狀況下,你沒有看到或知道像Apache Tez(雖然你須要在運行Hive時配置它),Apache Calcite,Apache Slider,Apache Zookeeper和 Livy。這些項目對於運行大數據基礎架構相當重要。

相關文章
相關標籤/搜索