facets學習(1):什麼是facets

ML 數據集能夠包含數億個數據點,每一個數據點由數百(甚至數千)的特徵組成,幾乎不可能以直觀的方式瞭解整個數據集。爲幫助理解、分析和調試 ML 數據集,谷歌開源了 Facets,一款可視化工具。前端

Facets 包含兩個部分 —— Facets Overview 和 Facets Dive ,容許用戶以不一樣的粒度查看其數據的總體圖像。Facets Overview 可用於可視化數據的每個特徵,Facets Dive 用來探索個別的數據觀察集。python

可視化的部分是經過(https://www.polymer-project.org)Polymer web components來實現的。後來採用的開發語言是TS(可惡,爲啥不是JS,還要去學習)。git

並且,很容易的就能夠嵌入到jupyter notebooks(使用python的我樂了)或者嵌入到web網頁中。github

具體的demo能夠訪問網頁:https://pair-code.github.io/facets/web

 

Facets Overview 能夠讓用戶快速瞭解其數據集特徵值的分佈狀況,能夠在相同的可視化上比較多個數據集,例如訓練集和測試集。阻礙機器學習的常見數據問題被推到最前端,好比出乎意料的特徵值、具備高比例遺失值的特徵、帶有不平衡分佈的特徵,數據集之間的特徵分佈誤差等等。機器學習

 

Facets Dive 則提供了一個易於定製的直觀界面,用於探索數據集中不一樣特徵數據點之間的關係。它是一種交互式探索多達數萬個數據點的工具,容許用戶在高級概述和低級細節之間進行無縫切換。經過 Facets Dive,你能夠控制位置、顏色和視覺表現。每一個示例在可視化中被表示爲單個項目,而且能夠經過其特徵值在多個維度上經過 faceting/bucketing 來定位點。經過結合細分和過濾,Dive 能夠輕鬆地在複雜數據集中識別樣式和異常值。工具

相關文章
相關標籤/搜索