近日,美國視頻流媒體平臺及視頻出版製做公司 Netflix 網飛的數據科學團隊宣佈正式開源其 Python 庫 Metaflow,以幫助更多數據科學家與工程師構建、管理相關的數據科學項目。git
Metaflow 是網飛開發的「人性化」數據科學框架,同時也是其機器學習基礎架構的重要組成部分,它提供了統一的架構棧接口,還與當前主流的 Python 數據科學框架如 PyTorch、Tensorflow、SciKit Learn 互相兼容,可用於加速數據科學工做流的構建及部署。數據科學家們能夠經過 Metaflow 來提高從經典統計學到深度學習等各類數據科學相關項目的開發效率。github
網飛做爲全球規模最大的在線視頻網站,已在其各個方面的業務中使用了機器學習技術,好比影視劇劇本分析、視頻製做排期優化、流失預測、訂價、翻譯、大規模分發網絡優化等等。在過去的兩年時間中,Metaflow 已在 Netflix 內部應用於上百個涉及天然語言處理、運籌學等相關項目的構建與管理。網絡
據網飛的軟件開發工程師透露,Metaflow 最初的開發目的,是爲了幫助那些想要經過 Python 代碼來表達業務邏輯,但又不肯意在軟件工程方面的事情上耗費太多時間的數據科學家們提高工做效率。這些軟件工程方面的麻煩事包括思考對象層次結構以及封裝問題,或是處理難以理解的、與項目自己無關的接口等等。架構
網飛的數據科學家們能經過 Metaflow 快速肯定原始模型是否會在生產環境中運算失敗,以便提早修改錯誤縮短部署時間。Metaflow 已經能夠將項目部署時間的中位數從 4 個月縮短至 7 天。框架
此外,Metaflow 是一個雲原生框架,可充分利用雲服務在存儲與計算上的靈活性。而亞馬遜雲服務 AWS 也爲 Metaflow 提供了基礎設施支持以及其餘的內置集成的存儲與機器學習服務,支持在 Amazon S3 中對 Metaflow 的全部數據與代碼進行快照,並將其當作數據湖來使用。Metaflow 還捆綁了一個高性能 Amazon S3 客戶端,可以以 10Gbps 的速度加載數據。機器學習
對於開發者來講,藉助更多來自 AWS 的計算資源,Metaflow 可顯著提升使用筆記本電腦進行開發的速度。Metaflow 不會在每種狀態下都對代碼或庫進行修改,從而更輕鬆地在本地與遠程執行模式之間進行變換,更容易排除錯誤。性能
目前,Metaflow 的最新版本 2.0 已在 GitHub 上線,並得到了超過 1900 個 Star,以及 121 次 Fork。學習
GitHub 相關項目地址:優化