轉自:https://www.yidianzixun.com/article/0Ff4gqZQ?s=9&appid=yidian&ver=3.8.4&utk=6n9c2z37java
目前,編程人員面對的最大挑戰就是複雜性,硬件愈來愈複雜,OS愈來愈複雜,編程語言和API愈來愈複雜,咱們構建的應用也愈來愈複雜。根據外媒的一項調查報告,如下列出了Java程序員在過去12個月內一直使用的一些工具或框架,或許會對你有意義。程序員
先來看看大數據的概念。根據維基百科,大數據是龐大或複雜的數據集的廣義術語,所以傳統的數據處理程序不足以支持如此龐大的體量。web
在許多狀況下,使用SQL數據庫存儲/檢索數據都是很好的選擇。而現現在的不少狀況下,它都再也不能知足咱們的目的,這一切都取決於用例的變化。sql
如今來討論一些不一樣的非SQL存儲/處理數據工具,例如,NoSQL數據庫,全文搜索引擎,實時流式處理,圖形數據庫等。數據庫
一、MongoDB--最受歡迎的,跨平臺的,面向文檔的數據庫。apache
MongoDB是一個基於分佈式文件存儲的數據庫,使用C++語言編寫。旨在爲Web應用提供可擴展的高性能數據存儲解決方案。應用性能高低依賴於數據庫性能,MongoDB則是非關係數據庫中功能最豐富,最像關係數據庫的,隨着MongDB 3.4版本發佈,其應用場景適用能力獲得了進一步拓展。編程
MongoDB的核心優點就是靈活的文檔模型、高可用複製集、可擴展分片集羣。你能夠試着從幾大方面瞭解MongoDB,如實時監控MongoDB工具、內存使用量和頁面錯誤、鏈接數、數據庫操做、複製集等。緩存
二、Elasticsearch --爲雲構建的分佈式RESTful搜索引擎。服務器
ElasticSearch是基於Lucene的搜索服務器。它提供了分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並做爲Apache許可條款下的開放源碼發佈,是比較流行的企業級搜索引擎。網絡
ElasticSearch不只是一個全文本搜索引擎,仍是一個分佈式實時文檔存儲,其中每一個field均是被索引的數據且可被搜索;也是一個帶實時分析功能的分佈式搜索引擎,而且可以擴展至數以百計的服務器存儲及處理PB級的數據。ElasticSearch在底層利用Lucene完成其索引功能,所以其許多基本概念源於Lucene。
三、Cassandra--開源分佈式數據庫管理系統,最初是由Facebook開發的,旨在處理許多商品服務器上的大量數據,提供高可用性,沒有單點故障。
Apache Cassandra是一套開源分佈式NoSQL數據庫系統。集Google BigTable的數據模型與Amazon Dynamo的徹底分佈式架構於一身。於2008開源,此後,因爲Cassandra良好的可擴展性,被Digg、Twitter等Web 2.0網站所採納,成爲了一種流行的分佈式結構化數據存儲方案。
因Cassandra是用Java編寫的,因此理論上在具備JDK6及以上版本的機器中均可以運行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操做命令,相似於咱們平時操做的關係數據庫,對於熟悉MySQL的朋友來講,操做會很容易上手。
四、Redis --開源(BSD許可)內存數據結構存儲,用做數據庫,緩存和消息代理。
Redis是一個開源的使用ANSI C語言編寫的、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫,並提供多種語言的API。Redis 有三個主要使其有別於其它不少競爭對手的特色:Redis是徹底在內存中保存數據的數據庫,使用磁盤只是爲了持久性目的; Redis相比許多鍵值數據存儲系統有相對豐富的數據類型; Redis能夠將數據複製到任意數量的從服務器中。
五、Hazelcast --基於Java的開源內存數據網格。
Hazelcast 是一種內存數據網格 in-memory data grid,提供Java程序員關鍵任務交易和萬億級內存應用。雖然Hazelcast沒有所謂的‘Master’,可是仍然有一個Leader節點(the oldest member),這個概念與ZooKeeper中的Leader相似,可是實現原理卻徹底不一樣。同時,Hazelcast中的數據是分佈式的,每個member持有部分數據和相應的backup數據,這點也與ZooKeeper不一樣。
Hazelcast的應用便捷性深受開發者喜歡,但若是要投入使用,還須要慎重考慮。
六、EHCache--普遍使用的開源Java分佈式緩存。主要面向通用緩存、Java EE和輕量級容器。
EhCache 是一個純Java的進程內緩存框架,具備快速、精幹等特色,是Hibernate中默認的CacheProvider。主要特性有:快速簡單,具備多種緩存策略;緩存數據有兩級,內存和磁盤,所以無需擔憂容量問題;緩存數據會在虛擬機重啓的過程當中寫入磁盤;能夠經過RMI、可插入API等方式進行分佈式緩存;具備緩存和緩存管理器的偵聽接口;支持多緩存管理器實例,以及一個實例的多個緩存區域;提供Hibernate的緩存實現。
七、Hadoop --用Java編寫的開源軟件框架,用於分佈式存儲,並對很是大的數據集進行分佈式處理。
用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣進行高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,MapReduce則爲海量的數據提供了計算。
八、Solr --開源企業搜索平臺,用Java編寫,來自Apache Lucene項目。
Solr是一個獨立的企業級搜索應用服務器,它對外提供相似於Web-service的API接口。用戶能夠經過http請求,向搜索引擎服務器提交必定格式的XML文件,生成索引;也能夠經過Http Get操做提出查找請求,並獲得XML格式的返回結果。
與ElasticSearch同樣,一樣是基於Lucene,但它對其進行了擴展,提供了比Lucene更爲豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化。
九、Spark --Apache Software Foundation中最活躍的項目,是一個開源集羣計算框架。
Spark 是一種與 Hadoop 類似的開源集羣計算環境,可是二者之間還存在一些不一樣之處,這些不一樣之處使 Spark 在某些工做負載方面表現得更加優越,換句話說,Spark 啓用了內存分佈數據集,除了可以提供交互式查詢外,它還能夠優化迭代工做負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用做其應用程序框架。與 Hadoop 不一樣,Spark 和 Scala 可以緊密集成,其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。
十、Memcached --通用分佈式內存緩存系統。
Memcached是一套分佈式快取系統,當初是Danga Interactive爲了LiveJournal所發展的,但被許多軟件(如MediaWiki)所使用。Memcached做爲高速運行的分佈式緩存服務器,具備如下的特色:協議簡單,基於libevent的事件處理,內置內存存儲方式。
十一、Apache Hive --在Hadoop之上提供相似SQL的層。
Hive是一個基於Hadoop的數據倉庫平臺。經過hive,能夠方便地進行ETL工做。hive定義了一個相似於SQL的查詢語言,可以將用戶編寫的SQL轉化爲相應的Mapreduce程序基於Hadoop執行。目前,已經發布了Apache Hive 2.1.1 版本。
十二、Apache Kafka --最初是由LinkedIn開發的高吞吐量,分佈式訂閱消息系統。
Apache Kafka是一個開源消息系統項目,由Scala寫成。該項目的目標是爲處理實時數據提供一個統1、高通量、低等待的平臺。Kafka維護按類區分的消息,稱爲主題(topic)。生產者(producer)向kafka的主題發佈消息,消費者(consumer)向主題註冊,而且接收發布到這些主題的消息。kafka以一個擁有一臺或多臺服務器的集羣運行着,每一臺服務器稱爲broker。
1三、Akka --用於在JVM上構建高併發,分佈式和彈性消息驅動應用程序的工具包。
Akka 是一個用 Scala 編寫的庫,用於簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應用。它已經成功運用在電信行業,系統幾乎不會宕機。
1四、HBase --開放源代碼,非關係型,分佈式數據庫,採用Google的BigTable建模,用Java編寫,並在HDFS上運行。
與FUJITSU Cliq等商用大數據產品不一樣,HBase是Google Bigtable的開源實現,相似Google Bigtable利用GFS做爲其文件存儲系統,HBase利用Hadoop HDFS做爲其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據,HBase一樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby做爲協同服務,HBase利用Zookeeper做爲對應。
1五、Neo4j --在Java中實現的開源圖形數據庫。
Neo4j是一個高性能的NOSQL圖形數據庫,它將結構化數據存儲在網絡上而不是表中。它是一個嵌入式的、基於磁盤的、具有徹底事務特性的Java持久化引擎。
1六、CouchBase --開源分佈式的NoSQL面向文檔數據庫,針對交互式應用程序進行了優化。
若是之前沒有NoSQL的使用經驗,那麼理解couchbase的時候關鍵有兩點:延後寫入和鬆散存儲。該產品基於Apache CouchDB,並整合了GeoCouch(一個基於Erlang、緊密集成的地理空間索引系統,可支持LBS應用)。
1七、Apache Storm--開源分佈式實時計算系統。
Apache Storm 是一個能近實時地在數據之上運行用戶代碼片斷的流式數據處理框架。它其實是一系列連在一塊兒的管道。一般用於簡單的分析任務 ,諸如計算,以及清洗,使其常規化,而且準備攝入用於長期存儲的數據。
1八、CouchDB--開源的面向文檔的NoSQL數據庫,使用JSON存儲數據。
CouchDB 是一個開源的面向文檔的數據庫管理系統,能夠經過 RESTful JavaScript Object Notation (JSON) API 訪問。CouchDB落實到最底層的數據結構就是兩類B+Tree 。
1九、Oracle Coherence--內存數據網格解決方案,經過提供對經常使用數據的快速訪問,使企業可以可預測地擴展關鍵任務應用程序。
簡單來講,Coherence僅支持Java,.NET和C++ API三個版本,這三個都是面向對象的語言,這也說明Coherence和應用開發的親和性。
20、Titan--可擴展的圖形數據庫,優化用於存儲和查詢包含分佈在多機集羣上的數百億個頂點和邊的圖形。
支持不一樣的分佈式存儲層:Cassandra 1.1和HBase 0.92。原生實現 Blueprints graph API,Gremlin graph traversal language,Frames graph-to-object mapper,Rexster graph server。
2一、Amazon DynamoDB--快速,靈活的全面管理NoSQL的數據庫服務,適用於任何規模的要求一致性,單位毫秒延遲的應用程序。
Amazon DynamoDB 是一種徹底託管的 NoSQL 數據庫服務,提供快速而可預測的性能,可以實現無縫擴展。
2二、Amazon Kinesis--AWS上的實時流式傳輸數據平臺。
Web 應用程序、移動設備、可穿戴設備、行業傳感器和許多軟件應用程序和服務均可能生成大量的流數據(有時達到每小時數 TB),須要對其進行連續地收集、存儲和處理。Amazon Kinesis 就是針對這種需求產生的。
2三、Datomic--徹底事務,雲就緒,分佈式數據庫,用Clojure編寫。
Datomic 是一個靈活的、基於時間因子的數據庫,支持聯合查詢,具備彈性的可擴展性以及支持ACID事務性。Datomic 提供高可用的、分佈式存儲服務。
。
學習Java的同窗注意了!!!
學習過程當中遇到什麼問題或者想獲取學習資源的話,歡迎加入Java學習交流羣,羣號碼:392216227咱們一塊兒學Java!