大數據指的是海量數據的分析處理,多是EB級的數量處理,咱們以前也提到過大數據擁有4V特性,Volume(大量)、Velocity(高 速)、Variety(多樣)、Value(價值),對於大數據的分析處理,須要有專門設計的硬件和軟件工具進行專業化處理,大數據通過收集再到清洗計算 挖掘再到展示和利用,每一步可用的工具都不一樣,下面咱們就來扒一扒大數據領域一些實用工具吧。免費好用的像八爪魚採集相似的工具也會推薦哦,借用當下的某 名言,你如有用,我便免費到底! html
一、 收集工具 mysql
因爲大數據數據集的體量很是巨大高達EB級,而數據源來來自於各類公開信息、傳感器、氣候等各類渠道,以互聯網渠道舉例,網站公開信息、交易記錄、 評價信息、網絡日誌、視頻、事監控、大型電子商務、門戶信息或垂直媒體等各類渠道。像八爪魚採集器也是新一代採集技術的大數據收集工具,除此之外,數據源 收集這塊目前比較常見的工具備: git
scraperWIKI(可從多種數據源獲取數據,生成自定義視圖) github
needlebase(可編寫代碼自動化抓取公開網站) sql
bazhuayu(可抓取超過98%的網頁數據及60%的移動端數據) mongodb
二、 數據處理 數據庫
Hadoop (可以對大量數據進行分佈式處理的軟件框架,具備高可靠性、高擴展性、高效性和高容錯性) apache
Storm(分佈式實時計算系統,開源系統,支持多種編程語言,可處理Hadoop的批量數據) 編程
Apache Drill(有助於Hadoop用戶實現更快查詢海量數據集) canvas
RapidMiner(分佈式數據挖掘,免費提供數據挖掘技術和庫,支持JAVA代碼)
三、 數據存儲(計算)
NoSql 數據庫 – MongoDB, Cassandra, Hbase
SQL 數據庫 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB
四、 數據清洗
DataWrangler(基於網絡服務的可視化組數據清洗和重排工具,文本編輯簡單,但不適合商業或敏感信息處理)
Google Refine(支持多種格式數據的聚類分析,無電子表格計算功能)
OpenRefine (交互數據轉換工具,可對新的行數據進行編碼)
五、 數據分析
Jaspersoft(報告和分析服務器)
Pentaho(數據集成和業務分析)
Splunk(IT分析平臺)
Talend(大數據集成,數據管理和應用集成)
六、展示工具
可視化展示工具
EXCEL/ CSV/JSON(很對企業人員均會用到的數據分析工具)
Google Chart API(動態圖標工具,須支持JavaScript的設備上使用)
Flot(線框圖表庫,支持全部支持canvas的瀏覽器)
D3(支持SVG渲染的另外一種JavaScript庫,提供大量線性圖和條形圖以外的複雜圖表樣式)
Processing(數據可視化的招牌工具,編寫簡單的代碼便可編譯成JAVA)
FUSION TABLES(可根據地理位置可視化數據)
Gephi(進行社交圖譜數據可視化分析的經常使用工具)
R(大數據預測分析工具)
Modest Maps(自己的地圖庫較小,可是配合WAX等擴展庫很強大)
OpenLayers(可靠性高的地圖庫)
除了上述介紹的一些工具外,每一個類別還有不少其餘的工具可實現,有興趣的朋友能夠進一步去了解。