Docker網絡詳解及pipework源碼解讀與實踐

Docker做爲目前最火的輕量級容器技術,有不少使人稱道的功能,如Docker的鏡像管理。然而,Docker一樣有着不少不完善的地方,網絡方面就是Docker比較薄弱的部分。所以,咱們有必要深刻了解Docker的網絡知識,以知足更高的網絡需求。本文首先介紹了Docker自身的4種網絡工做方式,而後經過3個樣例 —— 將Docker容器配置到本地網絡環境中、單主機Docker容器的VLAN劃分、多主機Docker容器的VLAN劃分,演示瞭如何使用pipework幫助咱們進行復雜的網絡設置,以及pipework是如何工做的。html

1. Docker的4種網絡模式

咱們在使用docker run建立Docker容器時,能夠用--net選項指定容器的網絡模式,Docker有如下4種網絡模式:前端

  • host模式,使用--net=host指定。git

  • container模式,使用--net=container:NAME_or_ID指定。github

  • none模式,使用--net=none指定。web

  • bridge模式,使用--net=bridge指定,默認設置。docker

下面分別介紹一下Docker的各個網絡模式。shell

相關廠商內容ubuntu

百度研究院高級科學家談大規模機器學習技術

天貓前端開發專家鬼道解讀Native 和 Web 融合

《深刻淺出Node.js》做者樸靈主持QCon全棧開發專題

知乎聯合創始人兼 CTO出品QCon知名移動案例專題

「傷筋動骨一百天」-大型組織轉型實例剖析

相關贊助商安全

全球軟件開發大會,4月23-25日,北京,敬請期待bash

1.1 host模式

衆所周知,Docker使用了Linux的Namespaces技術來進行資源隔離,如PID Namespace隔離進程,Mount Namespace隔離文件系統,Network Namespace隔離網絡等。一個Network Namespace提供了一份獨立的網絡環境,包括網卡、路由、Iptable規則等都與其餘的Network Namespace隔離。一個Docker容器通常會分配一個獨立的Network Namespace。但若是啓動容器的時候使用host模式,那麼這個容器將不會得到一個獨立的Network Namespace,而是和宿主機共用一個Network Namespace。容器將不會虛擬出本身的網卡,配置本身的IP等,而是使用宿主機的IP和端口。

例如,咱們在10.10.101.105/24的機器上用host模式啓動一個含有web應用的Docker容器,監聽tcp80端口。當咱們在容器中執行任何相似ifconfig命令查看網絡環境時,看到的都是宿主機上的信息。而外界訪問容器中的應用,則直接使用10.10.101.105:80便可,不用任何NAT轉換,就如直接跑在宿主機中同樣。可是,容器的其餘方面,如文件系統、進程列表等仍是和宿主機隔離的。

1.2 container模式

在理解了host模式後,這個模式也就好理解了。這個模式指定新建立的容器和已經存在的一個容器共享一個Network Namespace,而不是和宿主機共享。新建立的容器不會建立本身的網卡,配置本身的IP,而是和一個指定的容器共享IP、端口範圍等。一樣,兩個容器除了網絡方面,其餘的如文件系統、進程列表等仍是隔離的。兩個容器的進程能夠經過lo網卡設備通訊。

1.3 none模式

這個模式和前兩個不一樣。在這種模式下,Docker容器擁有本身的Network Namespace,可是,並不爲Docker容器進行任何網絡配置。也就是說,這個Docker容器沒有網卡、IP、路由等信息。須要咱們本身爲Docker容器添加網卡、配置IP等。

1.4 bridge模式

bridge模式是Docker默認的網絡設置,此模式會爲每個容器分配Network Namespace、設置IP等,並將一個主機上的Docker容器鏈接到一個虛擬網橋上。下面着重介紹一下此模式。

1.4.1 bridge模式的拓撲

當Docker server啓動時,會在主機上建立一個名爲docker0的虛擬網橋,此主機上啓動的Docker容器會鏈接到這個虛擬網橋上。虛擬網橋的工做方式和物理交換機相似,這樣主機上的全部容器就經過交換機連在了一個二層網絡中。接下來就要爲容器分配IP了,Docker會從RFC1918所定義的私有IP網段中,選擇一個和宿主機不一樣的IP地址和子網分配給docker0,鏈接到docker0的容器就從這個子網中選擇一個未佔用的IP使用。如通常Docker會使用172.17.0.0/16這個網段,並將172.17.42.1/16分配給docker0網橋(在主機上使用ifconfig命令是能夠看到docker0的,能夠認爲它是網橋的管理接口,在宿主機上做爲一塊虛擬網卡使用)。單機環境下的網絡拓撲以下,主機地址爲10.10.101.105/24。

Docker完成以上網絡配置的過程大體是這樣的:

  1. 在主機上建立一對虛擬網卡veth pair設備。veth設備老是成對出現的,它們組成了一個數據的通道,數據從一個設備進入,就會從另外一個設備出來。所以,veth設備經常使用來鏈接兩個網絡設備。

  2. Docker將veth pair設備的一端放在新建立的容器中,並命名爲eth0。另外一端放在主機中,以veth65f9這樣相似的名字命名,並將這個網絡設備加入到docker0網橋中,能夠經過brctl show命令查看。

     

  3. 從docker0子網中分配一個IP給容器使用,並設置docker0的IP地址爲容器的默認網關。

網絡拓撲介紹完後,接着介紹一下bridge模式下容器是如何通訊的。

1.4.2 bridge模式下容器的通訊

在bridge模式下,連在同一網橋上的容器能夠相互通訊(若出於安全考慮,也能夠禁止它們之間通訊,方法是在DOCKER_OPTS變量中設置--icc=false,這樣只有使用--link才能使兩個容器通訊)。

容器也能夠與外部通訊,咱們看一下主機上的Iptable規則,能夠看到這麼一條

-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE

這條規則會將源地址爲172.17.0.0/16的包(也就是從Docker容器產生的包),而且不是從docker0網卡發出的,進行源地址轉換,轉換成主機網卡的地址。這麼說可能不太好理解,舉一個例子說明一下。假設主機有一塊網卡爲eth0,IP地址爲10.10.101.105/24,網關爲10.10.101.254。從主機上一個IP爲172.17.0.1/16的容器中ping百度(180.76.3.151)。IP包首先從容器發往本身的默認網關docker0,包到達docker0後,也就到達了主機上。而後會查詢主機的路由表,發現包應該從主機的eth0發往主機的網關10.10.105.254/24。接着包會轉發給eth0,並從eth0發出去(主機的ip_forward轉發應該已經打開)。這時候,上面的Iptable規則就會起做用,對包作SNAT轉換,將源地址換爲eth0的地址。這樣,在外界看來,這個包就是從10.10.101.105上發出來的,Docker容器對外是不可見的。

那麼,外面的機器是如何訪問Docker容器的服務呢?咱們首先用下面命令建立一個含有web應用的容器,將容器的80端口映射到主機的80端口。

docker run -d --name web -p 80:80 fmzhen/simpleweb

而後查看Iptable規則的變化,發現多了這樣一條規則:

-A DOCKER ! -i docker0 -p tcp -m tcp --dport 80 -j DNAT --to-destination 172.17.0.5:80

此條規則就是對主機eth0收到的目的端口爲80的tcp流量進行DNAT轉換,將流量發往172.17.0.5:80,也就是咱們上面建立的Docker容器。因此,外界只需訪問10.10.101.105:80就能夠訪問到容器中得服務。

除此以外,咱們還能夠自定義Docker使用的IP地址、DNS等信息,甚至使用本身定義的網橋,可是其工做方式仍是同樣的。

2. pipework的使用以及源碼分析

Docker自身的網絡功能比較簡單,不能知足不少複雜的應用場景。所以,有不少開源項目用來改善Docker的網絡功能,如pipeworkweaveflannel等。這裏,就先介紹一下pipework的使用和工做原理。

pipework是由Docker的工程師Jérôme Petazzoni開發的一個Docker網絡配置工具,由200多行shell實現,方便易用。下面用三個場景來演示pipework的使用和工做原理。

2.1 將Docker容器配置到本地網絡環境中

爲了使本地網絡中的機器和Docker容器更方便的通訊,咱們常常會有將Docker容器配置到和主機同一網段的需求。這個需求其實很容易實現,咱們只要將Docker容器和主機的網卡橋接起來,再給Docker容器配上IP就能夠了。

下面咱們來操做一下,我主機A地址爲10.10.101.105/24,網關爲10.10.101.254,須要給Docker容器的地址配置爲10.10.101.150/24。在主機A上作以下操做:

#安裝pipework
git clone https://github.com/jpetazzo/pipework
cp ~/pipework/pipework /usr/local/bin/
#啓動Docker容器。
docker run -itd --name test1 ubuntu /bin/bash
#配置容器網絡,並連到網橋br0上。網關在IP地址後面加@指定。
#若主機環境中存在dhcp服務器,也能夠經過dhcp的方式獲取IP
#pipework br0 test1 dhcp
pipework br0 test1 10.10.101.150/24@10.10.101.254
#將主機eth0橋接到br0上,並把eth0的IP配置在br0上。這裏因爲是遠程操做,中間網絡會斷掉,因此放在一條命令中執行。
ip addr add 10.10.101.105/24 dev br0; \
    ip addr del 10.10.101.105/24 dev eth0; \
    brctl addif br0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev br0

完成上述步驟後,咱們發現Docker容器已經可使用新的IP和主機網絡裏的機器相互通訊了。

pipework工做原理分析

那麼容器到底發生了哪些變化呢?咱們docker attach到test1上,發現容器中多了一塊eth1的網卡,而且配置了10.10.101.150/24的IP,並且默認路由也改成了10.10.101.254。這些都是pipework幫咱們配置的。經過查看源代碼,能夠發現pipework br0 test1 10.10.101.150/24@10.10.101.254是由如下命令完成的(這裏只列出了具體執行操做的代碼)。

#建立br0網橋
#若ovs開頭,則建立OVS網橋 ovs-vsctl add-br ovs*
brctl addbr $IFNAME
#建立veth pair,用於鏈接容器和br0
ip link add name $LOCAL_IFNAME mtu $MTU type veth peer name $GUEST_IFNAME mtu $MTU
#找到Docker容器test1在主機上的PID,建立容器網絡命名空間的軟鏈接
DOCKERPID=$(docker inspect --format='{{ .State.Pid }}' $GUESTNAME)
ln -s /proc/$NSPID/ns/net /var/run/netns/$NSPID
#將veth pair一端放入Docker容器中,並設置正確的名字eth1
ip link set $GUEST_IFNAME netns $NSPID
ip netns exec $NSPID ip link set $GUEST_IFNAME name $CONTAINER_IFNAME
#將veth pair另外一端加入網橋
#若爲OVS網橋則爲 ovs-vsctl add-port $IFNAME $LOCAL_IFNAME ${VLAN:+"tag=$VLAN"}
brctl addif $IFNAME $LOCAL_IFNAME
#爲新增長的容器配置IP和路由
ip netns exec $NSPID ip addr add $IPADDR dev $CONTAINER_IFNAME
ip netns exec $NSPID ip link set $CONTAINER_IFNAME up
ip netns exec $NSPID ip route delete default
ip netns exec $NSPID ip route add $GATEWAY/32 dev $CONTAINER_IFNAME
  1. 首先pipework檢查是否存在br0網橋,若不存在,就本身建立。若以"ovs"開頭,就會建立OpenVswitch網橋,以"br"開頭,建立Linux bridge。

  2. 建立veth pair設備,用於爲容器提供網卡並鏈接到br0網橋。

  3. 使用docker inspect找到容器在主機中的PID,而後經過PID將容器的網絡命名空間連接到/var/run/netns/目錄下。這麼作的目的是,方便在主機上使用ip netns命令配置容器的網絡。由於,在Docker容器中,咱們沒有權限配置網絡環境。

  4. 將以前建立的veth pair設備分別加入容器和網橋中。在容器中的名稱默認爲eth1,能夠經過pipework的-i參數修改該名稱。

  5. 而後就是配置新網卡的IP。若在IP地址的後面加上網關地址,那麼pipework會從新配置默認路由。這樣容器通往外網的流量會經由新配置的eth1出去,而不是經過eth0和docker0。(若想徹底拋棄自帶的網絡設置,在啓動容器的時候能夠指定--net=none)

以上就是pipework配置Docker網絡的過程,這和Docker的bridge模式有着類似的步驟。事實上,Docker在實現上也採用了相同的底層機制。

經過源代碼,能夠看出,pipework經過封裝Linux上的ip、brctl等命令,簡化了在複雜場景下對容器鏈接的操做命令,爲咱們配置複雜的網絡拓撲提供了一個強有力的工具。固然,若是想了解底層的操做,咱們也能夠直接使用這些Linux命令來完成工做,甚至能夠根據本身的需求,添加額外的功能。

2.2 單主機Docker容器VLAN劃分

pipework不只可使用Linux bridge鏈接Docker容器,還能夠與OpenVswitch結合,實現Docker容器的VLAN劃分。下面,就來簡單演示一下,在單機環境下,如何實現Docker容器間的二層隔離。

爲了演示隔離效果,咱們將4個容器放在了同一個IP網段中。但實際他們是二層隔離的兩個網絡,有不一樣的廣播域。

#在主機A上建立4個Docker容器,test一、test二、test三、test4
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
#將test1,test2劃分到一個vlan中,vlan在mac地址後加@指定,此處mac地址省略。
pipework ovs0 test1 192.168.0.1/24 @100
pipework ovs0 test2 192.168.0.2/24 @100
#將test3,test4劃分到另外一個vlan中
pipework ovs0 test3 192.168.0.3/24 @200
pipework ovs0 test4 192.168.0.4/24 @200

完成上述操做後,使用docker attach連到容器中,而後用ping命令測試連通性,發現test1和test2能夠相互通訊,但與test3和test4隔離。這樣,一個簡單的VLAN隔離容器網絡就已經完成。

因爲OpenVswitch自己支持VLAN功能,因此這裏pipework所作的工做和以前介紹的基本同樣,只不過將Linux bridge替換成了OpenVswitch,在將veth pair的一端加入ovs0網橋時,指定了tag。底層操做以下:

ovs-vsctl add-port ovs0 veth* tag=100

2.3 多主機Docker容器的VLAN劃分

上面介紹完了單主機上VLAN的隔離,下面咱們將狀況延伸到多主機的狀況。有了前面兩個例子作鋪墊,這個也就不難了。爲了實現這個目的,咱們把宿主機上的網卡橋接到各自的OVS網橋上,而後再爲容器配置IP和VLAN就能夠了。咱們實驗環境以下,主機A和B各有一塊網卡eth0,IP地址分別爲10.10.101.105/2四、10.10.101.106/24。在主機A上建立兩個容器test一、test2,分別在VLAN 100和VLAN 200上。在主機B上建立test三、test4,分別在VLAN 100和VLAN 200 上。最終,test1能夠和test3通訊,test2能夠和test4通訊。

#在主機A上
#建立Docker容器
docker run -itd --name test1 ubuntu /bin/bash
docker run -itd --name test2 ubuntu /bin/bash
#劃分VLAN
pipework ovs0 test1 192.168.0.1/24 @100
pipework ovs0 test2 192.168.0.2/24 @200
#將eth0橋接到ovs0上
ip addr add 10.10.101.105/24 dev ovs0; \
    ip addr del 10.10.101.105/24 dev eth0; \
    ovs-vsctl add-port ovs0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev ovs0
    
#在主機B上
#建立Docker容器
docker run -itd --name test3 ubuntu /bin/bash
docker run -itd --name test4 ubuntu /bin/bash
#劃分VLAN
pipework ovs0 test1 192.168.0.3/24 @100
pipework ovs0 test2 192.168.0.4/24 @200
#將eth0橋接到ovs0上
ip addr add 10.10.101.106/24 dev ovs0; \
    ip addr del 10.10.101.106/24 dev eth0; \
    ovs-vsctl add-port ovs0 eth0; \
    ip route del default; \
    ip route add default gw 10.10.101.254 dev ovs0

完成上面的步驟後,主機A上的test1和主機B上的test3容器就劃分到了一個VLAN中,而且與主機A上的test2和主機B上的test4隔離(主機eth0網卡須要設置爲混雜模式,鏈接主機的交換機端口應設置爲trunk模式,即容許VLAN 100和VLAN 200的包經過)。拓撲圖以下所示(省去了Docker默認的eth0網卡和主機上的docker0網橋):

除此以外,pipework還支持使用macvlan設備、設置網卡MAC地址等功能。不過,pipework有一個缺陷,就是配置的容器在關掉重啓後,以前的設置會丟失。

3. 總結

經過上面的介紹,我相信你們對Docker的網絡已經有了必定的瞭解。對於一個基本應用而言,Docker的網絡模型已經很不錯了。然而,隨着雲計算和微服務的興起,咱們不能永遠停留在使用基本應用的級別上,咱們須要性能更好且更靈活的網絡功能。pipework正好知足了咱們這樣的需求,從上面的樣例中,咱們能夠看到pipework的方便之處。可是,同時也應注意到,pipework並非一套解決方案,它只是一個網絡配置工具,咱們能夠利用它提供的強大功能,幫助咱們構建本身的解決方案。

做者簡介

馮明振,浙江大學SEL實驗室碩士研究生,目前在雲平臺團隊從事科研和開發工做。浙大團隊對PaaS,Docker,大數據和主流開源雲計算技術有深刻的研究和二次開發經驗,團隊現將部分技術文章貢獻出來,但願能對讀者有所幫助。


感謝郭蕾對本文的策劃和審校。

給InfoQ中文站投稿或者參與內容翻譯工做,請郵件至editors@cn.infoq.com。也歡迎你們經過新浪微博(@InfoQ)或者騰訊微博(@InfoQ)關注咱們,並與咱們的編輯和其餘讀者朋友交流。

相關文章
相關標籤/搜索