【譯】Jupyter不斷演進的三大動力

做者:LJ MIRANDAgit

翻譯:老齊github

與本文相關的書籍:《跟老齊學Python:數據分析》《數據準備和特徵工程》服務器

數據科學的發展情況

數據科學領域突飛猛進,在當今時代,用諸如「21世紀最性感的工做」和「數據是新的石油」等說法來強化數據科學,已經並不時髦了,取而代之的是更現實的商業問題和更理性的技術挑戰,數據科學所面對的變化,就是這兩個方面。所以,如今須要咱們作的:(1)分析來自生產和實驗的需求,(2) 雲技術的快速應用。markdown

首先,生產需求多年來一直在增加。例如:在軟件工程生命週期內建立數據產品或發佈實驗產品。隨着機器學習工程師和數據科學軟件開發人員的崛起,出現了愈來愈多的工程類就業崗位,這就是明證。此外,數據分析再也不侷限於把圖表印刷出來,在產品發佈、實驗過程的重現等方面都有普遍需求,而且這種需求不斷增加。框架

其次,數據的指數增加使雲計算成爲大勢所趨。咱們沒法用本身的筆記本電腦加載1TB的數據集!Docker和Kubernetes等工具的流行,使咱們可以之前所未有的水平擴大數據處理的工做量。使用雲技術,意味着咱們要考慮系統的可伸縮、資源配置和有關基礎設施。然而,儘管以前的Jupyter生態系統是數據科學家工具箱的一個主要組成部分,但它並不適用於這些變化:機器學習

正如我說過的,咱們所知道的Jupyter並不適用於這些變化。Jupyter生態系統適合探索,不適合生產。龐大的數據應該在一臺機器上、而不是在一組機器上運行。然而,在過去的五年中,Jupyter的生態系統已經發展壯大。咱們如今有了JupyterLab、一些插件、用於其餘語言的新內核,以及可供咱們使用的第三方工具。固然,咱們仍然能夠經過在終端中鍵入jupyter notebook來運行,可是如今這種作法已經遠遠不能知足需求了!jvm

這就引出了一個問題:是什麼力量促成了這些變化?,咱們如何利用這個更大的notebook生態系統來應對當今數據科學的變化?工具

三股變革的力量

Jupyter筆記本電腦生態系統正在成長,我認爲這是由三種力量驅動的:oop

  • 雲平臺:大數據須要大量的計算和存儲,而普通消費者所用的機器並不老是可以知足須要。學習

  • 開發環境:愈來愈多的數據科學團隊開始採用軟件工程的最佳實踐方案——git、pull requests等版本管理操做。

  • 從分析到生產的快速推動:在受控環境下檢驗假設是不夠的,爲分析而編寫的軟件應易於在產品中重複使用。

趨向「雲優先」的環境意味着咱們能夠藉助更強大的機器來執行基於notebook的任務。例如,將項目放到服務器上,就可以在遠程運行Jupyter,這個遠程服務器容許作各項相關環境配置。另外一方面,生產工做的日益流程化爲咱們提供了一系列工具,使咱們可以用基於Jupyter的工具完成開發工做。我將在本文的下一部分展現更多這樣的工具。

最後,請注意,工具的增加並不依賴於單個實體或組織。正如咱們稍後將看到的,填補這些空白的多是貢獻第三方插件的我的或組織。

結論

在本系列的第一部分中,咱們研究了數據科學領域的兩個驅動因素:(1)雲計算技術,(2)不斷增加的生產需求。咱們看到Jupyter只佔這個生態系統的一小部分。也就是說,Jupyter生態系統常常用於探索(而不是生產),只在本地機器上運行(而不是在雲端)。

而後,使用相同的框架,咱們肯定了致使變化的三種力量,它們使Jupyter生態系統得以發展。這些力量可能促進了新工具、插件和產品的開發,以知足實際需求。

在本系列的下一部分中,我將討論如何使用Jupyter來應對這些變化。我將介紹一些工具和工做流程,它們在平常工做和輔助項目中成爲個人助力。敬請關注。

原文連接:ljvmiranda921.github.io/notebook/20…

搜索技術問答的公衆號:老齊教室

在公衆號中回覆:老齊,可查看全部文章歸類。

相關文章
相關標籤/搜索