6個用於大數據分析的最好工具（轉）

時間 2019-11-21

原文原文鏈接

原文地址：http://blog.csdn.net/hguisu/article/details/9210385算法

大數據是一個含義普遍的術語，是指數據集，如此龐大而複雜的，他們須要專門設計的硬件和軟件工具進行處理。該數據集一般是萬億或EB的大小。這些數據集收集自各類各樣的來源：傳感器，氣候信息，公開的信息，如雜誌，報紙，文章。大數據產生的其餘例子包括購買交易記錄，網絡日誌，病歷，軍事監控，視頻和圖像檔案，及大型電子商務。

在大數據和大數據分析，他們對企業的影響有一個興趣高漲。大數據分析是研究大量的數據的過程當中尋找模式，相關性和其餘有用的信息，能夠幫助企業更好地適應變化，並作出更明智的決策。數據庫

1、Hadoop

Hadoop 是一個可以對大量數據進行分佈式處理的軟件框架。可是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，由於它假設計算元素和存儲會失敗，所以它維護多個工做數據副本，確保可以針對失敗的節點從新分佈處理。Hadoop 是高效的，由於它以並行的方式工做，經過並行處理加快處理速度。Hadoop 仍是可伸縮的，可以處理 PB 級數據。此外，Hadoop 依賴於社區服務器，所以它的成本比較低，任何人均可以使用。apache

Hadoop是一個可以讓用戶輕鬆架構和使用的分佈式計算平臺。用戶能夠輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有如下幾個優勢：

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇能夠方便地擴展到數以千計的節點中。

⒊高效性。Hadoop可以在節點之間動態地移動數據，並保證各個節點的動態平衡，所以處理速度很是快。

⒋高容錯性。Hadoop可以自動保存數據的多個副本，而且可以自動將失敗的任務從新分配。

Hadoop帶有用 Java 語言編寫的框架，所以運行在 Linux 生產平臺上是很是理想的。Hadoop 上的應用程序也可使用其餘語言編寫，好比 C++。

2、HPCC

HPCC，High Performance Computing and Communications（高性能計算與通訊）的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目：高性能計算與通訊」的報告，也就是被稱爲HPCC計劃的報告，即美國總統科學戰略項目，其目的是經過增強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃，該計劃的實施將耗資百億美圓，其主要目標要達到：開發可擴展的計算系統及相關軟件，以支持太位級網絡傳輸性能，開發千兆比特網絡技術，擴展研究和教育機構及網絡鏈接能力。

該項目主要由五部分組成：

一、高性能計算機系統（HPCS），內容包括從此幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等；

二、先進軟件技術與算法（ASTA），內容有巨大挑戰問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等；

三、國家科研與教育網格（NREN），內容有中接站及10億位級傳輸的研究與開發；

四、基本研究與人類資源（BRHR），內容有基礎研究、培訓、教育及課程教材，被設計經過獎勵調查者-開始的，長期的調查在可升級的高性能計算中來增長創新意識流，經過提升教育和高性能的計算訓練和通訊來加大熟練的和訓練有素的人員的聯營，和來提供必需的基礎架構來支持這些調查和研究活動；

五、信息基礎結構技術和應用（IITA ），目的在於保證美國在先進信息技術開發方面的領先地位。

3、Storm

Storm是自由的開源軟件，一個分佈式的、容錯的實時計算系統。Storm能夠很是可靠的處理龐大的數據流，用於處理Hadoop的批量數據。Storm很簡單，支持許多種編程語言，使用起來很是有趣。Storm由Twitter開源而來，其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域：實時分析、在線機器學習、不停頓的計算、分佈式RPC（遠過程調用協議，一種經過網絡從遠程計算機程序上請求服務）、 ETL（Extraction-Transformation-Loading的縮寫，即數據抽取、轉換和加載）等等。Storm的處理速度驚人：經測試，每一個節點每秒鐘能夠處理100萬個數據元組。Storm是可擴展、容錯，很容易設置和操做。

4、Apache Drill

爲了幫助企業用戶尋找更爲有效、加快Hadoop數據查詢的方法，Apache軟件基金會近日發起了一項名爲「Drill」的開源項目。Apache Drill 實現了 Google's Dremel.編程

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹，「Drill」已經做爲Apache孵化器項目來運做，將面向全球軟件工程師持續推廣。api

該項目將會建立出開源版本的谷歌Dremel Hadoop工具（谷歌使用該工具來爲Hadoop數據分析工具的互聯網應用提速）。而「Drill」將有助於Hadoop用戶實現更快查詢海量數據集的目的。安全

「Drill」項目其實也是從谷歌的Dremel項目中得到靈感：該項目幫助谷歌實現海量數據集的分析處理，包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分佈式構建系統上的測試結果等等。服務器

經過開發「Drill」Apache開源項目，組織機構將有望創建Drill所屬的API接口和靈活強大的體系架構，從而幫助支持普遍的數據源、數據格式和查詢語言。網絡

5、RapidMiner

RapidMiner是世界領先的數據挖掘解決方案，在一個很是大的程度上有着先進技術。它數據挖掘任務涉及範圍普遍，包括各類數據藝術，能簡化數據挖掘過程的設計和評價。架構

功能和特色
免費提供數據挖掘技術和庫
100%用Java代碼（可運行在操做系統）
數據挖掘過程簡單，強大和直觀
內部XML保證了標準化的格式來表示交換數據挖掘過程
能夠用簡單腳本語言自動進行大規模進程
多層次的數據視圖，確保有效和透明的數據
圖形用戶界面的互動原型
命令行（批處理模式）自動大規模應用
Java API（應用編程接口）
簡單的插件和推廣機制
強大的可視化引擎，許多尖端的高維數據的可視化建模
400多個數據挖掘運營商支持
耶魯大學已成功地應用在許多不一樣的應用領域，包括文本挖掘，多媒體挖掘，功能設計，數據流挖掘，集成開發的方法和分佈式數據挖掘。框架

6、 Pentaho BI

Pentaho BI 平臺不一樣於傳統的BI 產品，它是一個以流程爲中心的，面向解決方案（Solution）的框架。其目的在於將一系列企業級BI產品、開源軟件、API等等組件集成起來，方便商務智能應用的開發。它的出現，使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等，可以集成在一塊兒，構成一項項複雜的、完整的商務智能解決方案。 Pentaho BI 平臺，Pentaho Open BI 套件的核心架構和基礎，是以流程爲中心的，由於其中樞控制器是一個工做流引擎。工做流引擎使用流程定義來定義在BI 平臺上執行的商業智能流程。流程能夠很容易的被定製，也能夠添加新的流程。BI 平臺包含組件和報表，用以分析這些流程的性能。目前，Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工做流管理等等。這些組件經過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。 Pentaho的發行，主要以Pentaho SDK的形式進行。 Pentaho SDK共包含五個部分：Pentaho平臺、Pentaho示例數據庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配製好的 Pentaho網絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分，囊括了Pentaho平臺源代碼的主體；Pentaho數據庫爲 Pentaho平臺的正常運行提供的數據服務，包括配置信息、Solution相關的信息等等，對於Pentaho平臺來講它不是必須的，經過配置是能夠用其它數據庫服務取代的；可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例，它演示瞭如何使Pentaho平臺在沒有應用服務器支持的狀況下獨立運行；Pentaho解決方案示例是一個Eclipse工程，用來演示如何爲Pentaho平臺開發相關的商業智能解決方案。 Pentaho BI 平臺構建於服務器，引擎和組件的基礎之上。這些提供了系統的J2EE 服務器，安全，portal，工做流，規則引擎，圖表，協做，內容管理，數據集成，分析和建模功能。這些組件的大部分是基於標準的，可以使用其餘產品替換之。