JS
python
大數據時代須要大數據挖掘,我習慣把大數據分紅四個領域:數據科學、網絡科學、空間地理科學和可視化技術。程序員
最近的主要興趣在空間地理領域,學習如何獲取POI,Polygon,經緯度,空間匹配算法和可視化,一個全新領域有帶來諸多大數據分析工具的思考和整合。web
恰巧看到一篇國外博客列舉了大數據領域的分析工具,今天就接着把數據分析主要是大數據挖掘的工具集寫下來,順勢俺再總結一下。正則表達式
我瞭解和喜歡的大數據挖掘工具主要分紅:提取,存儲,清洗,挖掘,可視化,分析和集成語言領域。算法
Part 1spring
數據存儲和管理數據庫
若是你要使用大數據,你須要考慮如何存儲它。大數據我的通常玩起來經常是幾百兆、或G;固然企業級就可能不是這個側面了,T或P級,一個好的數據存儲提供商應該爲您提供一個基礎架構,在其上運行全部其餘分析工具以及存儲和查詢數據的地方。編程
Hadoopjson
Hadoop已經成爲大數據的代名詞。它是一個用於在計算機集羣上分佈式存儲大型數據集的開源軟件框架。這意味着能夠上下擴展數據,而無需擔憂硬件問題。Hadoop爲任何類型的數據提供大量的存儲,巨大的數據處理能力和處理虛擬無限併發任務或做業的能力。Hadoop不適合數據初學者。要真正利用它,真的須要知道Java編程。api
Cloudera
Cloudera本質上是一個Hadoop的品牌名稱。它們能夠幫助企業構建企業數據中心,以便您組織中的人員更好地訪問您存儲的數據。
雖然它是開源,Cloudera主要仍是企業解決方案,幫助企業管理他們的Hadoop生態系統。基本上,利用它管理Hadoop不少艱苦的工做。還可提供必定量的數據安全性,若是您存儲任何敏感或我的數據,這是很是重要的。
MongoDB
MongoDB的是現代,流行的非結構化數據庫,但又可視爲關係數據庫的替代品。它適用於管理常常更改的數據或非結構化或半結構化的數據。
常見應用包括存儲移動應用程序的數據,產品目錄,實時個性化,內容管理和跨多個系統提供單個視圖的應用程序。MongoDB也不適合數據新手,與任何數據庫同樣,您須要知道如何使用編程語言進行查詢。
Talend
Talend是另外一個偉大的開源數據庫,提供了大量的數據產品。這裏咱們專一於他們的主數據管理(MDM-元數據管理)產品,它將實時數據,應用程序和過程集成與嵌入式數據質量和管理相結合。
它是開源的,Talend是徹底免費的,Talend都是一個很好的選擇。它能夠節省您構建和維護本身的數據管理系統 ——這是一個很是複雜和困難的任務。
若是你是大數據的新手,數據庫可能不是最好的開始。它們相對複雜,而且須要必定量的編碼知識來操做(與下面提到的許多其餘工具不一樣)。
然而,若是你真的想在大數據中工做,那麼知道數據庫的基礎知識而且可以智能地談論它們是必須的。咱們須要全面瞭解大數據的技術,包括數據庫和存儲的歷史,關係數據庫和文檔數據庫之間的差別,大數據的挑戰和必要的工具,以及Hadoop的介紹。
不過從我的玩大數據的角度,我我的推薦:PostgreSQL、MySQL,以及JSON、GeoJSON等數據存儲形式,固然我的主要是CSV格式的數據包或數據集。
特別強調,對於數據庫來說重要的是須要掌握SQL查詢語言。
Part 2
數據清洗
在您能夠真正挖掘所謂大數據並能獲取洞察信息建模以前,您須要清理它。擁有或創造一個乾淨,結構良好的數據集有時是不可能的。數據集能夠有各類形狀和大小的(有些好,有些不太好!),特別是當你從網絡上得到它。下面的數據清洗軟件工具將幫助您細化數據並將其重塑爲可用的數據集。(部分工具都有特徵工程的技術)
OpenRefine
OpenRefine(原GoogleRefine)是一個開源工具,專門用於清理雜亂的數據。咱們能夠輕鬆,快速地探索巨大的數據集,即便數據有點非結構化。
就數據軟件而言,OpenRefine是很是用戶友好的。雖然,良好的數據清洗的原則和基礎知識確定有幫助。OpenRefine的好處是它有一個巨大的社區,有不少貢獻者意味着軟件不斷變得愈來愈好。你能夠問(很是有幫助和患者)社區的問題,若是你陷入困境。你能夠看看他們的Github上庫在這裏你還能夠找到OpenRefine維基。
DataCleaner
數據處理是一項長期而艱苦的任務。數據可視化工具只能讀取結構良好,「乾淨」的數據集。DataCleaner爲咱們作艱苦的工做,並將凌亂的半結構化數據集轉換爲全部可視化軟件能夠讀取的乾淨可讀的數據集。
DataCleaner還提供數據倉庫和數據管理服務。該公司提供30天免費試用,而後是每個月訂閱費。
說明:我主要用於清洗的工具是refine。
Part 3
數據挖掘
這裏不要與數據提取(後面討論)混淆,數據挖掘是在數據庫中發現洞察,而不是將數據從網頁提取到數據庫中的過程。數據挖掘的目的是對你手頭的數據進行預測、建模和決策。
RapidMiner
RapidMiner是預測分析一個奇妙的工具。它是強大的,易於使用,並有一個開源社區背後。甚至能夠經過其API將本身的專用算法集成到RapidMiner中。圖形界面,這意味着你不須要知道如何代碼。
IBM SPSS Modeler
在IBM SPSS Modeler中提供了一整套專用於數據挖掘解決方案套件。這包括文本分析,實體分析,決策管理和優化。他們的五個產品提供了一系列先進的算法和技術,包括文本分析,實體分析,決策管理和優化。
SPSS Modeler是一個重型解決方案,很是適合大公司的需求。它能夠運行在幾乎任何類型的數據庫,能夠與其餘IBM SPSS產品,如SPSS協做與部署服務和SPSS分析服務器集成。
KNIME
它也是一個開源的數據挖掘軟件,主要推薦理由:1-開源,2-擁有60多個案例,3-有社區和Labs,4-可以集成R和Python等
商業上真正的數據挖掘工具都會融入Oracle、TeraData等數據庫產品中。
Kaggle
若是你被困在一個數據挖掘問題,或想嘗試解決世界上最棘手的問題,Kaggle是世界上最大的數據科學社區。公司和研究人員發佈他們的數據和統計人員和來自世界各地的數據挖掘者競爭產生最好的模型。
我主要用的挖掘軟件工具:Modeler和Knime。
Part 4
數據分析
儘管數據挖掘是挖掘先前未知的知識,是一種自下而上的發現知識的過程,也稱爲KDD。數據分析每每是自上而下的基於理論假設下的探索過程和推斷未知。Google Analytics(分析)是關於提出具體問題並在數據中找到答案。能夠問關於將來會發生什麼的問題!
Qubole
Qubole簡化,速度和規模與存儲在AWS上(亞馬遜雲計算)、谷歌數據大數據分析工做雲計算平臺。一旦IT策略到位,任何數量的數據分析人員均可以隨着Hive,Spark,BigQuery等衆多數據處理引擎的強大功能自由協做「點擊查詢」
Qubole是一個企業級解決方案,它們提供了一個免費試用。
BigML
BigML試圖簡化機器學習。它們提供了一個強大的機器學習服務,具備易於使用的界面,您能夠導入數據並獲取預測。您甚至可使用他們的模型進行預測分析。
對模型的良好理解固然有幫助,但不是必要的,若是你想從BigML中得到分析,他們有一個免費版本的工具,容許您建立不到16mb的任務,以及有一個付費計劃和虛擬私有云知足企業級的要求。
Statwing
Statwing將數據分析提升到一個新的水平,提供從美麗的視覺效果到複雜的分析。它使用起來很簡單,你能夠在5分鐘內開始使用Statwing。
雖然它不是無償使用,訂價計劃是至關優雅。基本套餐是每個月50美圓,您能夠隨時取消。這容許您使用每一個大小不超過50mb的無限數據集。還有其餘企業計劃,讓您可以上傳更大的數據集。
Part 5
數據可視化
數據可視化公司將使您的數據變得生機勃勃。對於任何數據科學家面臨的挑戰的一部分是從傳送的數據的洞察到你的公司的其餘部門。對於大多數人來講,MySQL數據庫和電子表格依然會用。但可視化是傳達複雜數據洞察的一種明亮而簡單的方法。大部分可視化都不須要任何編碼!
Tableau
Tableau是一個主要專一於商業智能數據可視化工具。您能夠建立地圖,條形圖,散點圖等等,而無需編程。他們最近發佈了一個Web鏈接器,容許您鏈接到數據庫或API,從而使您可以在可視化中獲取實時數據。
SILK
silk是一個簡單得多的數據可視化和比的Tableau的分析工具。它容許您經過構建交互式地圖和圖表,只需點擊幾下鼠標,帶來您的數據。Silk還容許您與任意數量的人員進行可視化協做。
像不少這個名單上的可視化的公司,Silk不要求你是一個專家程序員。若是你是新的可視化數據,這是開始,由於他們的地方最新的功能試圖無需你作任何事情會自動顯示數據。
CartoDB
CartoDB是一個地圖數據可視化工具,專門製做地圖。它們使任何人均可以輕鬆地可視化位置數據,而無需任何編碼。CartoDB能夠管理數據文件和類型無數,他們甚至有樣本數據集,
若是你有位置數據,CartoDB絕對值得一看。它可能不是最簡單的系統使用,但一旦你獲得它的懸念,它是使人難以置信的強大。
Chartio
Chartio可讓你在瀏覽器中的數據源相結合,執行查詢。您只需點擊幾下便可建立強大的儀表板。Chartio的視覺查詢語言容許任何人從任何地方獲取數據,而沒必要知道SQL或其餘複雜的模型語言。它們還容許您計劃PDF報告,以便您能夠將PDF文件導出爲儀表板並經過電子郵件發送給任何您想要的人。
Chartio的另外一個很酷的事情是,它一般不須要數據倉庫。這意味着您將更快地啓動和運行,而且您的實施成本將更低,更可預測。
Plot.ly
若是你想創建一個圖和嵌入程序中Plot.ly是不錯的選擇。您能夠創造驚人的2D和3D圖表,全部不須要編程知識。
免費版本容許您建立一個私人圖表和無限公共圖表,或者您能夠升級到企業包以製做無限的私人和公共圖表,以及爲您提供矢量導出和保存自定義主題的選項。
DataWrapper數據包
咱們最終的可視化工具是Datawrapper。它是一個開源工具,在幾分鐘內建立可嵌入的圖表。由於它是開源的,它將不斷髮展,由於任何人均可以貢獻。他們有一個真棒圖表庫,你能夠檢查出的那種東西的人都與Datawrapper作。
它有一個免費工具和一個付費選項,付費選項是一個預先設置,自定義的Datawrapper包。
說明:俺提建議主要用百度的開源產品Echarts,部分考慮D3.js。
Part 6
數據集成
數據集成平臺是每一個程序之間的粘合劑。若是你想鏈接你使用Import.io與Twitter中提取的數據,或者您但願在Facebook上分享你用的Tableau或絲綢自動進行可視化,下面是集成服務工具。
Blockspring
Blockspring是相似在熟悉的如Excel和谷歌sheet的方式。您只需撰寫Google Sheet公式,便可鏈接到整個主機的第三方程序。您能夠從電子表格發佈社交博客,查看您的關注者關注者,以及鏈接到AWS,Import.io和Tableau等等。
Blockspring能夠無償使用,但它們也有一個包,容許您建立和共享私有函數,添加自定義標籤,以方便搜索和發現,併爲您的整個組織一次性設置API令牌。
Pentaho
Pentaho提供大數據集成所需的零編碼。使用簡單的拖放UI,您能夠集成許多工具與最小的編碼。他們還提供嵌入式分析和業務分析服務。
Pentaho是一個企業解決方案。
Part 7
數據語言
雖然今天的挖掘工具變得愈來愈強大和更容易使用,有時學會編程仍是必要的,特別是工程和產品層面。即便你不是一個程序員,理解這些語言如何工做的基礎知識將使你更好地瞭解這些工具備多少功能以及如何最好地使用它們。
R語言
R是用於統計計算和圖形的語言。若是上面列出的數據挖掘和統計軟件不能作你想要的,學習R是好方式。事實上,若是你打算成爲一個數據科學家,知道R是必須的。
它能夠在Linux,Windows和MacOS上運行,你能夠下載開源R。有一個巨大的統計學家社區,人氣很旺。
Python
另外一種在數據社區愈來愈受歡迎的語言是Python。建立於20世紀80年代,從Monty Python的Flying Circus命名,它一直在世界排名前十的最流行的編程語言。若是數據收集工具沒法獲取他們須要的數據,許多記者使用Python編寫自定義的爬蟲。
人們喜歡它,由於與英語的類似之處。它使用諸如'if'和'in'這樣的詞語,你能夠很容易地閱讀腳本。
說明:俺主要用Jupyter或Ipython Notebook。
RegEx
RegEx或正則表達式是一組能夠操做和更改數據的字符。它主要用於與字符串的模式匹配,或字符串匹配。
XPath
XPath是一種查詢語言,用於從XML文檔中選擇某些節點。而RegEx操縱和更改數據組成,XPath將提取準備好RegEx的原始數據。
XPath最經常使用於數據提取。
說明:若是你須要編寫爬蟲或者抓取web網頁,都須要學習正則表達和xpath,同時學習json數據格式,還要有必定的API接口技術。