Orange——開源機器學習交互式數據分析工具

Orange爲新手和專家提供開源機器學習和數據可視化。使用大型工具箱交互式數據分析工做流程。git

交互式數據可視化


Orange的所有內容都是關於數據可視化,幫助發現隱藏的數據模式,提供數據分析過程背後的直覺或支持數據科學家與領域專家之間的交流。可視化窗口小部件包括散點圖,箱形圖和直方圖,以及特定於模型的可視化,例如樹狀圖,輪廓圖和樹可視化,僅舉幾例。許多其餘可視化功能可用於附加組件,包括網絡,詞雲,地理地圖等的可視化。github

咱們注意使橙色可視化交互:您能夠從散點圖,樹中的節點,樹狀圖中的分支中選擇數據點。任何這樣的交互都會指示可視化來發出與所選部分可視化對應的數據子集。考慮下面的散點圖和分類樹的組合。散點圖顯示全部數據,但突出顯示與分類樹中選定節點對應的數據子集。編程

在樹中選擇的數據在散點圖中突出顯示

豐富的可視化

橙色包括許多標準的可視化。散點圖很是適合可視化一對屬性之間的相關性,用於顯示基本統計數據的框圖,用於提供整個數據集概述的熱圖,以及用於繪製多維數據的MDS等投影圖。網絡

Orange中的一些基本可視化

除了數據挖掘套件中的可視化以外,Orange還包含一些其餘軟件包中可能沒有的額外功能。其中包括用於分析聚類結果的輪廓圖的小部件,用於發現特徵交互的馬賽克和Sieve圖以及用於分類樹和森林的畢達哥拉斯樹可視化。併發

一些不那麼標準的可視化

探索性數據分析

交互式可視化支持探索性數據分析。能夠直接從圖表,圖表和數據表中選擇有趣的數據子集,並將它們挖掘到下游的小部件中。例如,從層次聚類樹狀圖中選擇一個聚類並將其映射到MDS圖中的二維數據表示。或者檢查數據表中的值。或者觀察其特徵值在箱形圖中的傳播。一次打開全部這些窗口,看看選擇中的更改如何影響其餘小部件。或者,又例如,在數據集上交叉驗證邏輯迴歸並將一些錯誤分類映射到二維投影。將Orange變成一種工具很容易,即便領域專家缺少對基礎統計數據或機器學習的看法,領域專家也能夠探索他們的數據。機器學習

選定的錯誤分類在散點圖中突出顯示

智能可視化

有時候有太多的選擇。好比說,當數據具備許多特徵時,咱們應該在散點圖中將哪些特徵對形象化以提供大多數信息?智能可視化來拯救!在Orange的散點圖中,這稱爲分數圖。當提供課程信息時,Score Plots會找到具備最佳課程分類的投影。考慮棕色選擇的數據集(帶有橙色)及其79個功能。有3,081(79 * 78/2)個不一樣的特徵對,手動檢查它們的方式太多,但只有少數特徵組合會產生很好的散點圖。分數圖找到他們所有,並容許咱們瀏覽它們。工具

散點圖可視化的排名

報告

最後,咱們只需單擊一下便可將關於模型的最重要的可視化,統計數據和信息歸入報告。Orange包含巧妙的報告,您能夠直接從報告中訪問每一個窗口小部件和可視化的工做流歷史記錄。學習

報告能夠包括來自數據分析工做流程的可視化

可視化編程


對於初學者以及專家型數據科學家來講,Orange是一款出色的數據挖掘工具。因爲其用戶界面,用戶能夠專一於數據分析而不是費力的編碼,從而簡化複雜數據分析流水線的構建。網站

基於組件的數據挖掘

在Orange中,數據分析是經過將組件堆疊到工做流中完成的。每一個組件(稱爲小部件)都嵌入了一些數據檢索,預處理,可視化,建模或評估任務。在工做流中組合不一樣的小部件可讓您隨時構建全面的數據分析模式。有了一個大型的小部件庫,你不會被選中。其餘小部件可經過附加組件得到,並容許進行更專一和麪向主題的研究。編碼

數據分析工做流程

交互式數據探索

橙色的小部件相互溝通。他們接收有關輸入的數據併發送過濾或處理的數據,模型或小部件在輸出中執行的任何操做。比方說,從一個File小部件開始,它讀取數據並將其輸出鏈接到另外一個小部件,例如數據表,而且您有一個正常工做的工做流程。改變一個小部件的任何變化,這些變化即時經過下游工做流傳播。更改File小部件中的數據文件將觸發全部下游小部件中的響應。若是這些小部件是開放的,而且您能夠當即看到該數據中的任何更改的結果,交互式可視化中的方法或選擇的參數,那麼這很是有趣。例如,在下面的簡單工做流程中,在電子表格中選擇數據傳播到散點圖時,

表中選擇的數據在散點圖中突出顯示

經過選擇合適的小部件及其鏈接,很容易爲各類數據分析任務構建複雜的工做流程。

智能的工做流設計界面

即便是徹底新手,橙色也很容易使用。從File小部件開始,Orange將自動建議能夠鏈接到它的下一個小部件。例如,Orange知道在設置Distances小部件後,您可能須要Hierarchical Clustering。小部件中的全部其餘默認設置也能夠進行簡單分析,即便不瞭解統計信息,機器學習或探索性數據挖掘的大量狀況。

橙色只能鏈接兼容信號通道的小部件

 

 

界面概覽


在「文件」小部件中加載和編輯您的數據。

 

分類器的交叉驗證和評分。

 

在散點圖中的數據選擇在箱形圖中可視化。

 

交互式梯度降低。

 

數據能夠包含對圖像的引用。

 

繪製一個二維數據集。

 

操做特徵(ROC)分析。

 

預測文本類別。

 

用分類樹進行探索性分析。

 

在機器學習的過程當中,少不了須要準備幾個稱手的工具,以輔助分析時用,開源且這麼易用的工具不常見,推薦給你們。 

官方網站:https://orange.biolab.si/
開源地址:https://github.com/biolab/orange

相關文章
相關標籤/搜索