乾貨 :18個免費的探索性數據分析工具

每一個人都有各自的天賦,發現它們並開始相信咱們本身只是時間的問題。咱們都有侷限,可是咱們應該止步不前嗎?答案是不。html


當我開始用R編程的時候,我很糾結。有時候不止一我的曾經這麼想過。由於我在這一輩子中從未編碼過。個人狀況就像是一個歷來沒學過游泳的人在被強行踹進深海後用盡力氣讓本身不沉下去可是卻喝了好多口鹹鹹的海水。python


如今,當我回過頭看,我笑了。你知道爲何嗎?由於,我本能夠選擇不須要會編程就可使用的數據分析工具並避免那些痛苦。程序員


數據挖掘是預測建模不可缺乏的一部分。除非你知道過去發生了什麼不然你沒法作出預測。掌握數據挖掘最重要的技能就是好奇心,它是免費的卻不是每一個人都擁有的東西。面試


我寫這篇文章是爲了幫助大家瞭解可用於探索性數據分析的各類免費工具。時下,在市場中能夠找到很是多的免費且有趣的工具來幫助咱們工做。這些工具不須要你較精確仔細地編寫代碼,只須要你點點鼠標就能完成工做。算法


無需編程便可用來數據分析的工具/軟件數據庫


1 Excel / Spreadsheet編程

http://www.openoffice.org/download/windows

不管你正準備步入數據科學領域仍是已經在這個領域小有建樹,你會知道過去這麼多年以來,excel 一直以來都是數據分析領域不可缺乏的一部分(最經常使用的工具之一)。哪怕是在今天,有很大一部分須要數據分析的項目都依賴與excel去完成。因爲來自於社區,輔導教程,免費資源的幫助愈來愈多,學習excel已經變得愈來愈簡單。api


excel 基本上支持了最經常使用的數據分析功能:用來概述(總結)數據特徵,數據可視化,對數據轉型(去除噪音數據)從而獲得新的數據集用來分析等。這些工具足夠強大到讓咱們能夠從新從多個方面審視數據。不管你知道有多少其它的數據分析工具,你必定要學會用excel。儘管Microsoft excel這個軟件是付費的,但你能夠用其替代品,例如open office, google docs!瀏覽器


2 Trifacta

https://www.trifacta.com/start-wrangling/

Trifacta的Wrangler工具正在挑戰傳統的數據清理和操做方法。由於excel在數據大小上有限制,但這個工具沒有這樣的侷限,您能夠安全地用它處理大數據集。這個工具備使人難以置信的特性,如圖表推薦、內置算法、分析洞察力,您可使用這些特性在任什麼時候間內生成報告。這是一種智能工具,專一於更快地解決業務問題,從而使咱們在與數據相關的練習中更有效率。


這些開源工具的提供讓咱們感到更加自信和支持,世界各地也有優秀的人在爲使咱們的生活更好而努力工做。


3 Rapid Miner

https://rapidminer.com/

這一工具做爲高級分析的領導者出如今2016Gartner Magic Quadrant。是的,它不只僅是一個數據清理工具。它在創建機器學習模型方面的具備專業性。是的,它包含了咱們常用的全部ML算法。不只僅是GUI,它還對使用Python&R構建模型的人提供了支持。


它以其非凡的能力繼續吸引着全世界的人們。最重要的是,它能閃電般的快速水平上提供分析經驗。他們的生產線上有幾個爲大數據、可視化、模型部署而構建的產品,其中一些產品(企業)包括訂閱費。簡而言之,咱們能夠說,它對於任何從數據加載到模型部署的須要執行AI操做的業務,都是一個完備的工具。


4 Rattle GUI

https://cran.r-project.org/bin/windows/base/

若是你試着使用R語言,但卻找不到訣竅的狀況下,Rattle應該是你的第一選擇。這個GUI基於R語言構建,經過在R語言中鍵入安裝包("rattle") ,而後輸入庫(rattle),而後鍵入RTACK(),便可啓動。所以,要使用Rattle,您必須安裝R語言。它也不只僅是數據挖掘工具。Rattle支持各類ML算法,如樹算法、支持向量機算法、Booting算法、神經網絡算法、生存算法線性模型算法等。


如今它已經被普遍使用。據克拉恩,rattle每個月被安裝10000次。它提供了足夠的選項來探索、轉換和建模數據,只是不多有人點擊。然而,它在統計分析方面的選擇比SPSS少。可是,SPSS是一個付費工具。


5 Qlikview

http://global.qlik.com/us/landing/go-sm/qlikview/download-qlikview

QlikView是全球商業情報行業更受歡迎的工具之一。這個工具所作的就是得到商業洞察力並以一種極具吸引力的方式將其呈現出來。有了它較先進的可視化功能,你會驚訝於你在處理數據時所獲得的控制量。它有一個內置的推薦引擎,能夠不時地更新有關較佳可視化的信息。


然而,這不是一個統計軟件。QlikView在探索數據、趨勢、洞察力方面是難以想象的,但它沒法從統計學上證實任何事情。在這種狀況下,您可能須要查看其餘軟件。


6 Weka

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/weka-gui-learn-machine-learning/

使用Weka的一個優勢是它很容易學習。做爲一個機器學習工具,它的界面是足夠直觀的,你能夠迅速完成工做。它爲數據預處理、分類、迴歸、聚類、關聯規則和可視化提供了選擇。您所想到的建模過程當中的大部分步驟均可以使用Weka來完成。它創建在Java之上。


它最初是爲瓦卡託大學的研究目的而設計的,但後來被世界各地愈來愈多的人所接受。然而,這麼久了我還沒看到一個能像R和Python同樣熱情的weka交流社區。下面列出的教程將幫助您更多。


7 KNIME

https://www.knime.org/knime-analytics-platform

與RapidMiner相似,KNIME提供了一個開放源碼的分析數據的平臺,之後可使用其餘支持KNIME的產品進行部署。該工具在數據融合、可視化和先進的機器學習算法等方面具備豐富的特色。是的,你也可使用這個工具創建模型。雖然,關於這個工具的討論還不夠多,可是考慮到它的設計技術,我認爲它很快就會很快就會引發人們的注意。


此外,在他們的網站上有快速培訓課程,可讓你如今就開始使用這個工具。


8 Orange

http://orange.biolab.si/

這個工具正如它聽起來很酷那樣,它的目的是產生交互式數據可視化和數據挖掘任務。YouTube上有足夠的教程來學習這個工具。它有一個普遍的數據挖掘任務庫,包括全部的分類、迴歸、聚類方法。同時,在數據分析過程當中造成的多功能可視化使咱們可以更緊密地理解這些數據。


要構建任何模型,您將須要建立流程圖。這頗有趣,由於它將幫助咱們進一步瞭解數據挖掘任務的確切過程。


9 Tableau Public

https://public.tableau.com/s/

Tableau是一個數據可視化軟件。咱們能夠說,Tableau和QlikView是商業智能海洋中最強大的鯊魚。優點的比較是永無止境的。這是一個讓咱們快速探索數據的可視化軟件,每一次觀察均可使用各類可能的圖表。它是一種由本身計算出數據類型、可用的較佳方法等的智能算法。


若是您想實時理解數據,tableau能夠完成這個工做。從某種意義上說,tableau賦予了豐富多彩的數據生活,讓咱們與他人分享咱們的工做。


10 Data Wrapper

這是一個閃電般的快速可視化軟件。下一次,當您的團隊中有人被分配到BI工做時,他/她對該作什麼毫無頭緒的話,能夠考慮選擇這個軟件。可視化桶由線條圖、條形圖、列圖、餅圖、疊加條形圖和地圖組成。所以,這是一個基本的軟件,沒法與像Tableau和QlikView這樣的巨人相提並論。此工具啓用瀏覽器,不須要任何軟件安裝。


11 Data Science Studio (DSS)

http://www.dataiku.com/dss/trynow/

它是一個旨在鏈接技術,業務和數據的強大工具。它可分爲兩部分:編碼和非編碼。它對任何旨在發展,創建,在網絡上部署和擴展模型的組織來講都是一個完整的軟件包。DSS也足夠強大去建立智能數據應用程序來解決現實世界的問題。它包含了一些特性,這些特性促進了項目上的團隊集成。在全部特性中,最有趣的部分是,您能夠在DSS中再現您的工做,由於系統中的每一個操做都是經過集成的GIT存儲庫進行版本化的。


12 OpenRefine

http://openrefine.org/download.html

它開始於谷歌的精益求精,但彷佛谷歌由於不清楚的緣由而大幅縮減了這個項目。可是,這個工具仍然可用,更名爲Open Refine。在衆多開放源碼的工具中,Open Refine專門研究混亂的數據;爲預測建模目的而清理、轉換和塑造數據。有趣的是,在在建模過程當中,分析師80%的時間都用於數據清理。不是那麼愉快,但這是事實。使用Open Refine進行改進,分析人員不只能夠節省時間,還能夠將其用於生產工做。


13 Talend

http://openrefine.org/download.html

現在,決策主要是由數據驅動的。管理者和專業人士再也不作基於直覺的決定。他們須要一種能迅速幫助他們的工具。Talend能夠幫助他們探索數據並支持他們作出決策。確切地說,它是一種數據協做工具,可以清理、轉換和可視化數據。


此外,它還提供了一個有趣的自動化特性,您能夠在新的數據集上保存和重作之前的任務。這個特性是獨特的,在許多工具中尚未找到。並且,它能自動發現,爲用戶提供加強數據分析的智能建議。


14 Data Preparator

http://www.datapreparator.com/downloads.html

這個工具創建在Java上,可以幫助咱們進行數據的開發、清理和分析。它包括用於離散化、數字、縮放、屬性選擇、缺失值、離羣值、統計、可視化、平衡、抽樣、行選擇的各類內置包,以及幾個其餘任務。它的GUI可以直觀簡單地理解。一旦你開始使用這個,我相信你不會花不少時間來弄清楚該如何使用。


這個工具的一個獨特的優勢是,用於分析的數據集不會存儲在計算機內存中。這意味着您能夠在大型數據集上工做,而不會出現任何速度或內存問題。


15 DataCracker

https://www.datacracker.com/Plans

這是一個專門研究調查數據的數據分析軟件。許多公司確實進行了調查,但他們很難對其進行統計分析。調查數據從不清楚。它包含了大量的缺失和不恰當的內容。這個工具減小了咱們的痛苦,加強了咱們處理凌亂數據的經驗。該工具的設計使得它能夠從全部主要的互聯網調查程序(如surveymonkey, survey gizmo等)中加載數據。有幾個有助於更好地理解數據的交互功能。


16 Data Applied

http://www.data-applied.com/Web/TryNow/Overview.aspx

這個強大的交互工具被設計用來構建、共享、設計數據分析報告。在大型數據集上建立可視化有時會很麻煩。可是這個工具在使用樹狀地圖可視化大量數據方面是很強大的。與上面全部其餘工具同樣,它具備數據轉換、統計分析、異常檢測等功能。總之,它是一個多用途的數據挖掘工具,可以自動從原始數據中提取有價值的知識(信號)。您會驚訝地發現,這種非編程工具在數據分析方面不差於R或Python。


17 Tanagra Project

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

由於老式的UI,你可能不喜歡它,但這個免費的數據挖掘軟件是設計出來創建機器學習模型的。Tanagra項目是做爲學術研究的免費軟件啓動的。做爲一個開源項目,它爲您提供了足夠的空間來設計本身的算法和貢獻。


除了有監督的學習算法外,它還具備聚類、階乘分析、參數和非參數統計、關聯規則、特徵選擇和構造等範例。它的一些侷限性包括:沒法得到普遍的數據源、直接訪問數據倉庫和數據庫、數據清理、交互利用等。


18 H2o

http://www.h2o.ai/download/h2o/choose

H2O是當今分析行業最流行的軟件之一。在短短的幾年裏,該組織成功地在世界各地分析界傳播開來。這個開源軟件帶來了照明快速分析的經驗,這是API編程語言的進一步擴展使用。不只是數據分析,並且您能夠在任什麼時候候創建先進的機器學習模型。基於強勁的社區支持,學習這個工具是不擔憂的。


額外獎勵

除了上面那些很棒的工具以外,我還發現了一些我認爲您可能感興趣的工具。然而,這些工具並非免費的,但您仍然能夠試用它們:

  • Data Kleenr http://chi2innovations.com/datakleenr/

  • Data Ladder http://dataladder.com/

  • Data Cleaner https://datacleaner.org/

  • WinPure http://www.winpure.com/cleanmatch.html


最後說明

一旦您開始使用這些工具(你選擇的),你就會明白,瞭解預測建模的編程並非什麼好事。您可使用這些開源工具完成相同的任務。所以,若是你直到如今還對本身缺少非編碼感到失望的話,如今是你將你的熱情注入到這些工具上的時候了。


我觀察到這些工具(其中一些)的限制是缺少社區支持。除了不多的工具,他們中的幾個沒有一個社區來尋求幫助和建議。不過,值得一試!


關注公衆帳號

飛馬會


往期福利
關注飛馬會公衆號,回覆對應關鍵詞打包下載學習資料;回覆「入羣」,加入飛馬網AI、大數據、項目經理學習羣,和優秀的人一塊兒成長!

回覆 數字「1」下載從入門到研究,人工智能領域最值得一讀的10本資料(附下載)

回覆 數字「2」機器學習 & 數據科學必讀的經典書籍,內附資料包!

回覆 數字「3」走進AI & ML:從基本的統計學到機器學習書單(附PDF下載)

回覆 數字「4」瞭解人工智能,30份書單不容錯過(附電子版PDF下載)

回覆 數字「5」大數據學習資料下載,新手攻略,數據分析工具、軟件使用教程

回覆 數字「6」AI人工智能:54份行業重磅報告彙總(附下載)

回覆 數字「7」TensorFlow介紹、安裝教程、圖像識別應用(附安裝包/指南)

回覆 數字「8」大數據資料全解析(352個案例+大數據交易白皮書+國內外政策匯篇)

回覆 數字「9」乾貨 | 薦讀10本大數據書籍(初級/中級/高級)成爲大數據專家!

回覆 數字「10」麥肯錫160頁報告:2030年全球將可能8億人要被機器搶飯碗

回覆 數字「11」50本書籍大禮包:AI人工智能/大數據/Database/Linear Algebra/Python/機器學習/Hadoop

回覆 數字「12」小白| Python+Matlab+機器學習+深度神經網絡+理論+實踐+視頻+課件+源碼,附下載!

回覆 數字「13」大數據技術教程+書籍+Hadoop視頻+大數據研報+科普類書籍

回覆 數字「14」小白| 機器學習和深度學習必讀書籍+機器學習實戰視頻/PPT+大數據分析書籍推薦!

回覆 數字「15」大數據hadoop技術電子書+技術理論+實戰+源代碼分析+專家分享PPT

回覆 數字「16」100G Python從入門到精通!自學必備全套視頻教程+python經典書籍!

回覆 數字「17」【乾貨】31篇關於深度學習必讀論文彙總(附論文下載地址)

回覆 數字「18」526份行業報告+白皮書:AI人工智能、機器人、智能出行、智能家居、物聯網、VR/AR、 區塊鏈等(附下載)

回覆 數字「19」800G人工智能學習資料:AI電子書+Python語言入門+教程+機器學習等限時免費領取!

回覆 數字「20」17張思惟導圖,一網打盡機器學習統計基礎(附下載)

回覆 數字「21」收藏 |7本 Matlab入門經典教程書籍,不可錯過!

回覆 數字「22」吳恩達新書,教你構建機器學習項目:《Machine Learning Yearning》

回覆 數字「23」機器學習:怎樣才能作到從入門到不放棄?(內含福利)

回覆 數字「24」限時下載 | 132G編程資料:Python、JAVA、C,C++、機器人編程、PLC,入門到精通~

回覆 數字「25」限資源 | 177G Python/機器學習/深度學習/算法/TensorFlow等視頻,涵蓋入門/中級/項目各階段!

回覆 數字「26」人工智能入門書單推薦,學習AI的請收藏好(附PDF下載)

回覆 數字「27」資源 | 吳恩達斯坦福CS230深度學習課程全套資料放出(附下載)

回覆 數字「28」懂這個技術的程序員被BAT瘋搶...(內含資料包)

回覆 數字「29」乾貨 | 28本大數據/數據分析/數據挖掘電子書合集免費下載!

回覆 數字「30」領取 | 100+人工智能學習、深度學習、機器學習、大數據、算法等資料,果斷收藏!

回覆 數字「31」2G谷歌機器學習25講速成課全集(中文版),限時下載

回覆 數字「32」Matlab安裝包+教程視頻,讓你從入門到精通!

回覆 數字「33」程序員去阿里面試,沒想到過程如此壯烈 (內含資料包)

回覆 人工智能下載《FMI人工智能與大數據峯會嘉賓演講PPT》

回覆 AI 江湖下載《十大AI江湖領域》

回覆 ML實踐下載《機器學習實踐經驗指導(英文版)》

回覆 DL論文下載《深度學習100篇以上論文資料》

回覆 算法 下載《數據挖掘十大經典算法》

回覆 6.10 下載《6.10餓了麼&飛馬網項目管理實踐PPT》

相關文章
相關標籤/搜索