【話在前頭】html
用 Docker 部署 JupyterLab 感受是部署 JupyterLab 最方便的方式了,官方提供了不少可選的鏡像,也能夠本身從 jupyter/base-notebook 中繼續打包,鏡像啓動命令加上「--NotebookApp.password」就能夠直接用密碼登陸用了。雖然只是本身一我的用,可是若是放在互聯網上訪問的話,總感受不是那麼安全,仍是但願能像其餘服務同樣,能獨立管理用戶信息,能設置二次驗證(2FA)。不過搜了下網上關於 JupyterHub 的資料比較少,甚至於官方的說明文檔寫的也不是很詳細,有些配置和參數只能去源碼裏扒。python
【文章索引】mysql
JupyterHub 架構的介紹和原理官方文檔中描述的很是清楚了,這裏再也不贅述了,簡單說就是 JupyterHub 把 認證 和 單用戶 JupyterLab 的管理 分別拆成了 Authenticator 和 Spawner 模塊,能夠根據不一樣的須要配置不一樣的認證方式或管理方式。不過官方的 JupyterHub 鏡像只包含了 JupyterHub 項目 自己,只有最基本的認證和管理(如經過 Linux 下 PAM 進行認證、經過本地進程運行 JupyterLab 等)。若是想經過自定義帳號密碼、而且開啓 2FA 的話,JupyterHub 其實也已經實現了一個官方的 NativeAuthenticator 模塊,官方文檔仍是比較詳細的,默認用戶信息存儲在 JupyterHub 的 sqlite 數據庫中,能夠經過數據源配置改爲 Mysql,若是須要鏈接 Mysql 的話,官方的鏡像也不包含相關模塊,也須要自行安裝。github
除此以外,若是 JupyterHub 管理的 JupyterLab 也想在 docker 中運行的話,還須要使用官方提供的 DockerSpawner 進行管理,不過官方文檔不是特別詳細,好在代碼很少,扒扒代碼也能看明白具體應該怎麼配置。sql
因此,若是咱們須要實現能獨立管理的用戶信息、支持2FA、使用Mysql數據庫存儲用戶數據,用戶的 JuyterLab 也經過 docker 鏡像進行運行和管理的話,咱們能夠經過以下的 Dockerfile 在官方鏡像之上打一個更完整的鏡像。docker
1 ARG BASE_IMAGE=jupyterhub/jupyterhub:1.2 2 FROM $BASE_IMAGE 3 4 LABEL maintainer="MaysWind <i@mayswind.net>" 5 6 # Install Dependencies 7 RUN apt-get update \ 8 && apt-get install -y --no-install-recommends unzip \ 9 && rm -rf /var/lib/apt/lists/* \ 10 && rm -rf /tmp/* 11 12 # Install Mysql 13 RUN pip3 --no-cache-dir install mysql-connector \ 14 && rm -rf /tmp/* 15 16 # Install NativeAuthenticator 17 RUN curl "https://github.com/jupyterhub/nativeauthenticator/archive/master.zip" -L -o /tmp/nativeauthenticator.zip \ 18 && unzip /tmp/nativeauthenticator.zip -d /tmp \ 19 && mv /tmp/nativeauthenticator-master /usr/local/bin/nativeauthenticator \ 20 && pip --no-cache-dir install -e /usr/local/bin/nativeauthenticator \ 21 && rm -rf /tmp/* 22 23 # Install DockerSpawner 24 RUN pip --no-cache-dir install dockerspawner \ 25 && rm -rf /tmp/*
注:寫這篇博客的時候,JupyterHub 的最新 Release 版本是 1.1.0,可是 1.1.0 的 docker 鏡像存在問題(靜態資源沒有編譯等),因此這裏使用的是還在開發中的鏡像(1.2 tag 目前與 1.2.0dev tag 一致)。數據庫
打完鏡像後後其實就能夠啓動了,不過一般還有些配置須要調整下。我經過 docker-compose 啓動 JupyterHub 容器,全部配置參數都經過參數或環境變量進行配置,同時因爲 JupyterHub 在 docker 容器中,還須要把宿主機的 docker.sock 掛載到容器內,以便 JupyterHub 可以管理 JupyterLab 容器。而且爲 JupyterHub 和以後的 JupyterLab 建了一個單獨的網絡,方便以後對 JupyterLab 的請求進行隔離,若是沒有需求的話實際上按默認的網絡配置也是能夠的,相關的 yml 示例配置以下安全
1 version: "2" 2 networks: 3 jupyter-network: 4 driver: bridge 5 ipam: 6 config: 7 - subnet: 192.168.254.0/24 8 gateway: 192.168.254.1 9 services: 10 jupyterhub: 11 image: 你的 JupyterHub 鏡像名稱 12 container_name: jupyterhub 13 hostname: "jupyterhub" 14 networks: 15 - "jupyter-network" 16 command: 17 - "jupyterhub" 18 - "--JupyterHub.hub_bind_url='http://:8081'" # JupyterHub 默認綁定 127.0.0.1,須要改爲綁定全部 IP 使 JupyterLab 能跨容器訪問 19 - "--JupyterHub.db_url='mysql+mysqlconnector://Mysql用戶名:Mysql密碼@數據庫地址/數據庫名稱'" # 設置 Mysql 數據庫,若是使用默認 Sqlite,能夠掛載目錄到 /srv/jupyterhub 實現數據庫持久化 20 - "--JupyterHub.authenticator_class='nativeauthenticator.NativeAuthenticator'" # 使用 NativeAuthenticator 21 - "--JupyterHub.spawner_class='dockerspawner.DockerSpawner'" # 使用 DockerSpawner 22 - "--JupyterHub.admin_access=True" # 啓用管理員功能 23 - "--Authenticator.admin_users={'管理員帳戶名稱'}" # 管理員名稱 24 - "--Authenticator.allow_2fa=True" # 開啓 2FA 功能 25 - "--DockerSpawner.remove_containers=True" # 每次啓動 JuypyterLab 容器時都刪除以前的容器,若是經過 docker-compose 設置的網絡,docker-compose 從新配置網絡後必定要從新建立容器才能啓動 26 - "--DockerSpawner.notebook_dir='/home/jovyan/work'" # 設置筆記本默認目錄(默認是 ~) 27 - "--DockerSpawner.image='你的 JupyterLab 鏡像名稱'" 28 - "--DockerSpawner.network_name='JupyterLab 網絡名稱'" # 若是是經過 docker-compose 設置的網絡,與第3行可能不一致,須要經過 docker network ls 查看 29 - "--DockerSpawner.args=['--Application.log_level=WARN']" # 設置日誌默認輸出級別 30 - "--DockerSpawner.environment={\ 31 'JUPYTER_ENABLE_LAB': 'yes'\ # 開啓 JupyterLab 32 }" 33 - "--DockerSpawner.volumes={\ 34 '/etc/localtime': {'bind': '/etc/localtime', 'mode': 'ro'},\ 35 '本機 Jupyter 筆記存儲路徑': '/home/jovyan/work'\ # 可使用 「{username}」 佔位,表示用戶名,如 '/mnt/data1/jupyter/{username}/work': '/home/jovyan/work' 36 }" 37 volumes: 38 - "/etc/localtime:/etc/localtime:ro" 39 - "/var/run/docker.sock:/var/run/docker.sock" 40 restart: on-failure
其中,JupyterHub 配置文件中的配置均可以經過啓動參數的方式進行配置,如上述配置中 command 中的配置項,全部 JupyterHub 配置能夠參考官方文檔。對於 NativeAuthenticator,也額外提供了一些其餘參數,如本身註冊完帳號,能夠設置「Authenticator.open_signup」參數爲 False,關閉開放註冊功能,「Authenticator.ask_email_on_signup」 註冊時須要提供郵箱帳號等,這些參數能夠如上附到啓動參數中,或者也可寫入到配置文件中,更多參數和用法能夠參考官方文檔。對於 DockerSpawner,有些參數是實現了基礎類 Spawner 中定義的,能夠查閱 Spawner 的定義文檔 進行配置,也有部分是其自己單獨實現的,能夠查閱其源代碼,例如其支持限制內存 「DockerSpawner.mem_limit」、限制CPU 「DockerSpawner.cpu_limit」等參數,都是實現基礎類 Spawner 中定義的,Docker 網絡名稱 「DockerSpawner.network_name 」、啓動容器前刪除已有容器的參數 「DockerSpawner.remove_containers」 等都是其自己本身實現的。
若是以前也是經過 docker 部署的 JupyterLab,可能下述幾個參數能遷移大部分以前的個性化配置,
根據第二步的配置,就能夠經過 docker-compose 或者其餘方式啓動 JupyterHub 的 docker 鏡像了,只不過頗有可能會失敗,主要是因爲 NativeAuthenticator 對 Mysql 的兼容性問題,用於管理註冊用戶信息的那張表沒有自動建立成功,不過咱們能夠幫他完成這個任務,即編寫相似以下的SQL(具體存儲引擎、編碼能夠根據本身實際狀況調整)。
CREATE TABLE `users_info` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(255) NOT NULL, `password` blob NOT NULL, `is_authorized` bit(1) DEFAULT NULL, `email` varchar(255) DEFAULT NULL, `has_2fa` bit(1) DEFAULT NULL, `otp_secret` varchar(16) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4;
建立完 users_info 表後 JupyterHub 應該就能正常啓動了,接下來就能夠本身進行註冊帳號了,若是沒有關閉開放註冊功能或者註冊的帳號名在配置中的管理員用戶名中的話,帳號直接就能夠登陸,不然須要自行去數據庫中找到本身註冊的記錄,並將 「is_authorized」 字段設置爲1。
登陸後應該會默認啓動 JupyterLab,或者也能夠自行選擇啓動,啓動成功後會自動跳轉到 JupyterLab,下次訪問時直接就會訪問 JupyterLab,而不會再顯示 JupyterHub 的界面了。若是啓動失敗,也能夠經過 docker 查看 JupyterLab 的容器狀況。
【4、隔離 JupyterHub/JupyterLab 網絡】
JupyterLab 裏什麼都能幹,能執行代碼,能運行腳本,總以爲部署了 JupyterLab 後,直接把內網環境對外打開了,因此還想再對 JupyterHub/JupyterLab 的網絡進行隔離,不容許其訪問內網。這塊經過 iptables 就能夠實現,好比上述我定義了 jupyter-network 網絡,IP 是 192.168.254.0/24,我內網 IP 是 192.168.1.0/24,路由(網關)是 192.168.1.1,因此我在宿主機上定義以下 iptables,禁止來自 jupyter-network 的 IP 請求內網 IP(但容許經過路由訪問互聯網)。固然,若是 Mysql 服務器不與 JupyterHub/JupyterLab 在一臺宿主機上的話,別忘了容許 JupyterHub 的 IP 地址訪問 Mysql 端口。
iptables -I DOCKER-USER -s 192.168.254.0/24 -d 192.168.1.0/24 -j DROP iptables -I DOCKER-USER -s 192.168.254.0/24 -d 192.168.1.1 -j ACCEPT
此外,若是宿主機上還有其餘服務或 docker 實例,若是須要禁止 JupyterHub/JupyterLab 訪問他們,還須要再定義一條
iptables -I INPUT -s 192.168.254.0/24 -p tcp -j DROP
這樣,應該就相對安全了一些吧。