[譯] 使用谷歌 FACETS 可視化機器學習數據集

時間 2019-11-06

原文原文鏈接

原文地址：Visualising Machine Learning Datasets with Google’s FACETS.

原文做者：Parul Pandey

譯文出自：掘金翻譯計劃

本文永久連接：github.com/xitu/gold-m…

譯者：QiaoN

校對者：lsvih, Mcskiller

使用谷歌 FACETS 可視化機器學習數據集html

FACETS 是谷歌的一個開源工具，能夠輕鬆的從大量數據中學習模式前端

攝影：[Franki Chamaki](https://unsplash.com/@franki?utm_source=medium&utm_medium=referral)，出自[Unsplash](https://unsplash.com?utm_source=medium&utm_medium=referral)

大量數據比好的算法更有用，但好的數據比大量數據更有用：Peter Norvigpython

關於大量的訓練數據如何對機器學習模型的結果產生巨大的影響，已經有不少的討論。然而，隨着數據量的增長，要構建一個強大且健壯的機器學習系統，數據質量也很是關鍵。畢竟「輸入糟粕，輸出糟粕」，也就是說，你從系統中獲得的東西會體現出你提供給系統的東西。android

一個機器學習數據集有時包含數千到數百萬的數據點，而它們可能包含成百上千個特徵。此外，現實世界的數據很混亂，會有缺失值、不均衡數據、異常值等。所以，在進行模型構建以前，咱們必須清理數據。可視化數據有助於找到這些離羣點並定位須要清理的數據。數據可視化提供了總體數據概覽（不管數據量多大），有助於快速準確的進行 EDA（探索性數據分析）。ios

FACETS

在字典裏 facet 意爲某種特殊方面或某物的特徵。一樣，FACETS 工具讓咱們無需明確編碼便可理解並探索數據的各項特徵。git

Facets 是谷歌爲了支持 PAIR (People + AI Research) 項目而發佈的一個開源可視化工具，能夠幫助咱們理解和分析機器學習數據集。Facets 包括兩個可視化部分，這兩部分都可深刻挖掘數據並帶來好的洞察，而無需在用戶端進行大量工做。github

Facets Overview

顧名思義，此可視化部分提供了整個數據集的概覽和數據每項特徵的分佈狀況。Facets Overview 總結了每項特徵的統計量並比較了訓練和測試數據集。算法

Facets Dive

此功能可幫助用戶深刻理解數據的單個特徵，並經過觀察單個特徵獲取更多信息。它有助於一次性交互式地探索大量數據點。typescript

這些可視化由 Typescript 編寫的 Polymer Web 組件實現，可以輕易嵌入 Jupyter Notebook 或是 Web 頁面中。json

使用 & 安裝

使用 FACETS 處理數據有兩種方式：

Web 應用

它能夠直接在下面連接裏的演示頁面中使用：

Facets —— 機器學習數據集的可視化

該網站容許任何人直接在瀏覽器中可視化他們本身的數據集，而無需安裝或設置任何軟件，而且你的數據不會被上傳。

在 Jupyter Notebooks/Colaboratory 中

FACETS 也能夠在 Jupyter Notebook 或 Colaboratoty 中使用。這能夠更靈活的在同一個 notebook 中完成整個 EDA 和建模。有關安裝的完整細節，請參閱官方 Github 倉庫。不過，在下文中咱們將介紹如何在 colab 中使用 FACETS。

數據

雖然你能夠用演示頁面上提供的數據，但我打算用另外一組數據。我將用 FACETS 對貸款預測數據集進行 EDA。問題陳述是預測一個已得到公司貸款的申請人是否會償還貸款。這是機器學習社區中的一個很是知名的例子。

這裏是已經分爲訓練集和測試集的數據集。讓咱們將數據加載到 Colab 中。

import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
複製代碼

如今讓咱們來了解如何將 Facets Overview 用於此數據。

FACETS Overview

Overview 自動的讓用戶快速瞭解數據各項特徵值的分佈狀況。也能夠馬上在訓練集和測試集中比較分佈狀況。若是數據中存在某些異常，它便會從異常數據的位置彈出。

經過此功能能夠輕鬆獲得的一些信息以下：

統計數據如均值、中位數和標準差
列的最小值和最大值
缺失數據
有零值的值
因爲還能夠查看測試數據集的分佈，咱們能夠輕鬆確認訓練數據和測試數據是否遵循相同的分佈。

有人會說咱們能夠輕鬆地用 Pandas 來完成這些任務，爲何要投入到另外一個工具呢？沒錯，當咱們只有少許的特徵不多的數據點時，可能不須要這樣作。然而，狀況在咱們面對大型數據集時會有所不一樣，很難用 Pandas 分析多列中的每個數據點。

Google Colaboaratory 將 FACETS 變得易於使用，由於咱們不須要額外的安裝，只用編寫幾行代碼就好。

# Clone the facets github repo to get access to the python feature stats generation code
!git clone https://github.com/pair-code/facets.git
複製代碼

要計算出特徵的統計量，咱們須要用 Python 腳本中的函數 GenericFeatureStatisticsGenerator()。

# Add the path to the feature stats generation code.
import sys
sys.path.insert(0, '/content/facets/facets_overview/python/')

# Create the feature stats for the datasets and stringify it.
import base64
from generic_feature_statistics_generator import GenericFeatureStatisticsGenerator

gfsg = GenericFeatureStatisticsGenerator()
proto = gfsg.ProtoFromDataFrames([{'name': 'train', 'table': train},
                                  {'name': 'test', 'table': test}])
protostr = base64.b64encode(proto.SerializeToString()).decode("utf-8")
複製代碼

如今用下面的代碼，咱們能夠輕鬆的在 notebook 中顯示出可視化。

# Display the facets overview visualization for this data
from IPython.core.display import display, HTML

HTML_TEMPLATE = """<link rel="import" href="https://raw.githubusercontent.com/PAIR-code/facets/master/facets-dist/facets-jupyter.html" > <facets-overview id="elem"></facets-overview> <script> document.querySelector("#elem").protoInput = "{protostr}"; </script>"""
html = HTML_TEMPLATE.format(protostr=protostr)
display(HTML(html))
複製代碼

當你按下「Shift + Enter」，你就能看到一個漂亮的交互式可視化：

在圖中，咱們能看到 Facets Overview 對貸款預測數據集的五個數值特徵進行了可視化。這些特徵按非均勻性排序，分佈最不均勻的特徵排在頂部。紅色數字表示可能的異常點，在這裏，數值特徵爲 0 有很高的百分比。用右側的柱狀圖你能夠比較訓練數據（藍色）和測試數據（橙色）的分佈狀況。

上面的可視化顯示了數據集的八個分類特徵之一。這些特徵按分佈距離排序。訓練數據集（藍色）和測試數據集（橙色）間誤差最大的特徵排在頂部。

FACETS Dive

Facets Dive 提供了一個直觀的可定製界面，用於探索數據集內不一樣特徵的數據點之間的關係。使用 Facets Dive，你能夠根據每一個數據點的特徵值來控制它的位置、顏色和視覺效果。若是數據點有相關聯的圖像，此圖像也可用在可視化中。

必須將數據轉換爲 JSON 格式纔可以使用 Dive 可視化。

# Display the Dive visualization for the training data.
from IPython.core.display import display, HTML

jsonstr = train.to_json(orient='records')
HTML_TEMPLATE = """<link rel="import" href="https://raw.githubusercontent.com/PAIR-code/facets/master/facets-dist/facets-jupyter.html"> <facets-dive id="elem" height="600"></facets-dive> <script> var data = {jsonstr}; document.querySelector("#elem").data = data; </script>"""
html = HTML_TEMPLATE.format(jsonstr=jsonstr)
display(HTML(html))
複製代碼

運行代碼後，你應該能看到：