大數據技術

大數據指的是海量數據的分析處理,多是EB級的數量處理,咱們以前也提到過大數據擁有4V特性,Volume(大量)、Velocity(高 速)、Variety(多樣)、Value(價值),對於大數據的分析處理,須要有專門設計的硬件和軟件工具進行專業化處理,大數據通過收集再到清洗計算 挖掘再到展示和利用,每一步可用的工具都不一樣,下面咱們就來扒一扒大數據領域一些實用工具吧。免費好用的像八爪魚採集相似的工具也會推薦哦,借用當下的某 名言,你如有用,我便免費到底! html

一、  收集工具 mysql

因爲大數據數據集的體量很是巨大高達EB級,而數據源來來自於各類公開信息、傳感器、氣候等各類渠道,以互聯網渠道舉例,網站公開信息、交易記錄、 評價信息、網絡日誌、視頻、事監控、大型電子商務、門戶信息或垂直媒體等各類渠道。像八爪魚採集器也是新一代採集技術的大數據收集工具,除此之外,數據源 收集這塊目前比較常見的工具備: git

scraperWIKI(可從多種數據源獲取數據,生成自定義視圖) github

needlebase(可編寫代碼自動化抓取公開網站) sql

bazhuayu(可抓取超過98%的網頁數據及60%的移動端數據) mongodb

二、  數據處理 數據庫

Hadoop (可以對大量數據進行分佈式處理的軟件框架,具備高可靠性、高擴展性、高效性和高容錯性) apache

Storm(分佈式實時計算系統,開源系統,支持多種編程語言,可處理Hadoop的批量數據) 編程

Apache Drill(有助於Hadoop用戶實現更快查詢海量數據集) canvas

RapidMiner(分佈式數據挖掘,免費提供數據挖掘技術和庫,支持JAVA代碼)

三、  數據存儲(計算)

Apache Hadoop

NoSql 數據庫 – MongoDB, Cassandra, Hbase

SQL 數據庫 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB

四、  數據清洗

DataWrangler(基於網絡服務的可視化組數據清洗和重排工具,文本編輯簡單,但不適合商業或敏感信息處理)

Google Refine(支持多種格式數據的聚類分析,無電子表格計算功能)

OpenRefine (交互數據轉換工具,可對新的行數據進行編碼)

 

五、  數據分析

Jaspersoft(報告和分析服務器)

Pentaho(數據集成和業務分析)

Splunk(IT分析平臺)

Talend(大數據集成,數據管理和應用集成)

六、展示工具

可視化展示工具

EXCEL/ CSV/JSON(很對企業人員均會用到的數據分析工具)

Google Chart API(動態圖標工具,須支持JavaScript的設備上使用)

Flot(線框圖表庫,支持全部支持canvas的瀏覽器

D3(支持SVG渲染的另外一種JavaScript庫,提供大量線性圖和條形圖以外的複雜圖表樣式)

Processing(數據可視化的招牌工具,編寫簡單的代碼便可編譯成JAVA)

FUSION TABLES(可根據地理位置可視化數據)

Gephi(進行社交圖譜數據可視化分析的經常使用工具)

SPSSSAS

R(大數據預測分析工具)

Modest Maps(自己的地圖庫較小,可是配合WAX等擴展庫很強大)

OpenLayers(可靠性高的地圖庫)

除了上述介紹的一些工具外,每一個類別還有不少其餘的工具可實現,有興趣的朋友能夠進一步去了解。

相關文章
相關標籤/搜索