Kubernetes 1.16.0快速升級

Kubernetes 1.16.0已經正式發佈,快速升級(含國內鏡像快速下載連接)包括升級kubeadm/kubectl/kubelet版本、拉取鏡像、升級Kubernetes集羣三個主要步驟。參考《Ubuntu上軟件鎖定版本不更新》安裝特定DockerCE版本。html

一、升級kubeadm/kubectl/kubelet版本

sudo apt install kubeadm=1.16.0-00 kubectl=1.16.0-00 kubelet=1.16.0-00

查看該版本的容器鏡像版本:node

kubeadm config images list

輸出以下:git

~# kubeadm config images list

k8s.gcr.io/kube-apiserver:v1.16.0
k8s.gcr.io/kube-controller-manager:v1.16.0
k8s.gcr.io/kube-scheduler:v1.16.0
k8s.gcr.io/kube-proxy:v1.16.0
k8s.gcr.io/pause:3.1
k8s.gcr.io/etcd:3.3.15-0
k8s.gcr.io/coredns:1.6.2

二、拉取容器鏡像

原始的kubernetes鏡像文件在gcr上,不能直接下載。我給鏡像到了阿里雲的杭州機房的容器倉庫裏,拉取仍是比較快的。github

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.16.0 Images from aliyuncs.com ......"
echo "=========================================================="
echo ""

MY_REGISTRY=registry.cn-hangzhou.aliyuncs.com/openthings

## 拉取鏡像
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.15-0
docker pull ${MY_REGISTRY}/k8s-gcr-io-pause:3.1
docker pull ${MY_REGISTRY}/k8s-gcr-io-coredns:1.6.2

## 添加Tag
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.16.0 k8s.gcr.io/kube-apiserver:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.16.0 k8s.gcr.io/kube-scheduler:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.16.0 k8s.gcr.io/kube-controller-manager:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.16.0 k8s.gcr.io/kube-proxy:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.15-0 k8s.gcr.io/etcd:3.3.15-0
docker tag ${MY_REGISTRY}/k8s-gcr-io-pause:3.1 k8s.gcr.io/pause:3.1
docker tag ${MY_REGISTRY}/k8s-gcr-io-coredns:1.6.2 k8s.gcr.io/coredns:1.6.2

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.16.0 Images FINISHED."
echo "into registry.cn-hangzhou.aliyuncs.com/openthings, "
echo "           by openthings@https://my.oschina.net/u/2306127."
echo "=========================================================="

echo ""

保存爲shell腳本,而後執行。sql

三、升級Kubernetes集羣

全新安裝:docker

#指定IP地址,1.16.0版本:
sudo kubeadm init --kubernetes-version=v1.16.0 --apiserver-advertise-address=10.1.1.199 --pod-network-cidr=10.244.0.0/16

#注意,CoreDNS已經內置,再也不須要參數--feature-gates CoreDNS=true

先查看一下須要升級的各個組件的版本。shell

使用kubeadm upgrade plan ,輸出的版本升級信息以下:api

COMPONENT            CURRENT   AVAILABLE
API Server           v1.15.2   v1.16.0
Controller Manager   v1.15.2   v1.16.0
Scheduler            v1.15.2   v1.16.0
Kube Proxy           v1.15.2   v1.16.0
CoreDNS              1.3.1     1.6.2
Etcd                 3.3.10    3.3.15-0

確保上面的容器鏡像已經下載(若是沒有提早下載,可能被網絡阻隔致使掛起),而後執行升級:網絡

kubeadm upgrade -y apply v1.16.0

看到下面信息,就OK了。app

[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.16.0". Enjoy!

而後,配置當前用戶環境:

mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

就可使用 kubectl version 來查看狀態和 kubectl cluster-info 查看服務地址。

四、工做節點的升級

每一個工做節點須要拉取上面對應版本的鏡像,以及安裝kubelet的對應版本。

檢查版本:

~$ kubectl version

查看Pod信息:

kubectl get pod --all-namespaces

完成。

五、HA cluster的升級

從1.13.x以前的版本升級上了的話,由於api改變(kubelet升爲1.14後沒法啓動apiserver),致使新的kubeadm訪問之前的apiserver出錯,從而升級失敗。能夠拉取鏡像下來後,手工切換鏡像的版本(全部節點的/etc/kubernetes/manifests下的文件都須要修改)。

對每個節點,執行下面的步驟:

  • cd /etc/kubernetes/manifests/。
  • 改變全部的 *.yaml , 指定 images 版本爲 1.16.0。

在1.14.0版本升級完後,出現問題(1.14.1仍存在):

  • 工做節點 join 到 cluster失敗,參見 [kubeadm] #76013, https://github.com/kubernetes/kubernetes/issues/76013
  • 據有的社區成員測試,全新安裝的1.14集羣能夠正常運行。
  • 個人集羣是從1.13.4上升級而來,經測試1.14.1版本,該問題仍然存在。
  • kube-proxy的版本須要進管理工具去修改DaemonSet的images版本號爲1.14.1。
  • coredns的版本須要進管理工具去修改複製集的images版本號爲1.3.1。
    • 再次運行flannel的安裝,無論用。
    • 可是,修改完重啓集羣就起不來了。進去看pod狀態爲Crash。
    • 強制刪除CoreDNS的Pod運行實例。Kubernetes會自動啓動新的實例。
  • 原來安裝的jupyterhub起不來了,進去看hub pod狀態爲Crash。
    • 查看hub的日誌,顯示SQLlite訪問出錯,將其從宿主存儲目錄下移除,訪問hub service失敗。
    • 刪除hub pod後,service的proxy-public也沒法鏈接。
    • 強制刪除JupyterHub的hub和Proxy的Pod運行實例。
    • 強制刪除CoreDNS的Pod運行實例,Kubernetes自動啓動新實例後,運行恢復。
    • 有時候是glusterfs設置權限問題,setfacl/getfacl進行設置。
    • 進一步檢查,發現多是GlusterFS的volume寫入問題,不一樣步引發的
      • hub-db-dir目錄下的jupyterhub.sqllite寫入臨時文件存在,致使鎖死,不是glusterfs寫入權限問題。
      • 設置gluster volume heal vol01 enable,讓其數據同步。
      • 重啓volume或者glusterd服務。
      • 或者,刪除全部gluster存儲節點下的hub-db-dir目錄下的jupyterhub.sqllite文件,再刪除hub pod,使其自動重建文件。
      • 通常上面幾步後,可以恢復。

其它:

  • 出現整個集羣沒法訪問,kubectl get node失敗,kubectl version時apiserver訪問失敗。
  • 查看其中一個節點route,再次出現神祕的podsxx 255.255.255.255路由記錄,route del刪除記錄失敗。
  • 運行sudo netplan apply後,路由記錄消失,節點恢復可訪問。
相關文章
相關標籤/搜索