大數據data開發有哪些好的輔助工具?

做爲一個程序員開發工具比如是人的手和腳,只有把這些開發工具用好,才能作好一個產品的需求。大多使用SQL數據庫存儲/檢索數據,現在不少狀況下,它都再也不能知足咱們的需求。下面小編就介紹一些大數據data開發經常使用的輔助工具。程序員

開源企業搜索平臺:Solrweb

用Java編寫,來自Apache Lucene項目。Solr是一個獨立的企業級搜索應用服務器,它對外提供相似於Web-service的API接口。用戶能夠經過http請求,向搜索引擎服務器提交必定格式的XML文件,生成索引;也能夠經過Http Get操做提出查找請求,並獲得XML格式的返回結果。數據庫

在這裏仍是要推薦下我本身建的大數據學習交流羣:529867072,羣裏都是學大數據開發的,若是你正在學習大數據 ,小編歡迎你加入,你們都是軟件開發黨,不按期分享乾貨(只有大數據軟件開發相關的),包括我本身整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深刻大數據的小夥伴加入。圖片描述緩存

與ElasticSearch同樣,一樣是基於Lucene,但它對其進行了擴展,提供了比Lucene更爲豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化。服務器

雲構建的分佈式RESTful搜索引擎:Elasticsearch網絡

ElasticSearch是基於Lucene的搜索服務器。它提供了分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並做爲Apache許可條款下的開放源碼發佈,是比較流行的企業級搜索引擎。數據結構

ElasticSearch不只是一個全文本搜索引擎,仍是一個分佈式實時文檔存儲,其中每一個field均是被索引的數據且可被搜索;也是一個帶實時分析功能的分佈式搜索引擎,而且可以擴展至數以百計的服務器存儲及處理PB級的數據。ElasticSearch在底層利用Lucene完成其索引功能,所以其許多基本概念源於Lucene。架構

開源分佈式數據庫管理系統:Cassandra—框架

最初是由Facebook開發的,旨在處理許多商品服務器上的大量數據,提供高可用性,沒有單點故障。分佈式

開源分佈式NoSQL數據庫系統:Apache Cassandra

集Google BigTable的數據模型與Amazon Dynamo的徹底分佈式架構於一身。於2008開源,此後,因爲Cassandra良好的可擴展性,被Digg、Twitter等Web 2.0網站所採納,成爲了一種流行的分佈式結構化數據存儲方案。

因Cassandra是用Java編寫的,因此理論上在具備JDK6及以上版本的機器中均可以運行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操做命令,相似於咱們平時操做的關係數據庫,對於熟悉MySQL的朋友來講,操做會很容易上手。

跨平臺的,面向文檔的數據庫:MongoDB

MongoDB是一個基於分佈式文件存儲的數據庫,使用C++語言編寫。旨在爲Web應用提供可擴展的高性能數據存儲解決方案。應用性能高低依賴於數據庫性能,MongoDB則是非關係數據庫中功能最豐富,最像關係數據庫的,隨着MongDB 3.4版本發佈,其應用場景適用能力獲得了進一步拓展。

MongoDB的核心優點就是靈活的文檔模型、高可用複製集、可擴展分片集羣。你能夠試着從幾大方面瞭解MongoDB,如實時監控MongoDB工具、內存使用量和頁面錯誤、鏈接數、數據庫操做、複製集等。

開源(BSD許可)內存數據結構存儲:Redis 用做數據庫,緩存和消息代理。

Redis是一個開源的使用ANSI C語言編寫的、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫,並提供多種語言的API。Redis 有三個主要使其有別於其它不少競爭對手的特色:Redis是徹底在內存中保存數據的數據庫,使用磁盤只是爲了持久性目的; Redis相比許多鍵值數據存儲系統有相對豐富的數據類型; Redis能夠將數據複製到任意數量的從服務器中。

基於Java的開源內存數據網格:Hazelcast

Hazelcast 是一種內存數據網格 in-memory data grid,提供Java程序員關鍵任務交易和萬億級內存應用。雖然Hazelcast沒有所謂的‘Master’,可是仍然有一個Leader節點(the oldest member),這個概念與ZooKeeper中的Leader相似,可是實現原理卻徹底不一樣。同時,Hazelcast中的數據是分佈式的,每個member持有部分數據和相應的backup數據,這點也與ZooKeeper不一樣。

Hazelcast的應用便捷性深受開發者喜歡,但若是要投入使用,還須要慎重考慮。

普遍使用的開源Java分佈式緩存:EHCache主要面向通用緩存、Java EE和輕量級容器。

EhCache 是一個純Java的進程內緩存框架,具備快速、精幹等特色,是Hibernate中默認的CacheProvider。主要特性有:快速簡單,具備多種緩存策略;緩存數據有兩級,內存和磁盤,所以無需擔憂容量問題;緩存數據會在虛擬機重啓的過程當中寫入磁盤;能夠經過RMI、可插入API等方式進行分佈式緩存;具備緩存和緩存管理器的偵聽接口;支持多緩存管理器實例,以及一個實例的多個緩存區域;提供Hibernate的緩存實現。

用Java編寫的開源軟件框架,用於分佈式存儲,並對很是大的數據集進行分佈式處理:Hadoop

用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣進行高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,MapReduce則爲海量的數據提供了計算。

相關文章
相關標籤/搜索