Kubernetes 1.16.0快速升級

時間 2019-11-07

標籤 kubernetes 1.16.0 快速升級简体版

原文原文鏈接

Kubernetes 1.16.0已經正式發佈，快速升級（含國內鏡像快速下載連接）包括升級kubeadm/kubectl/kubelet版本、拉取鏡像、升級Kubernetes集羣三個主要步驟。參考《Ubuntu上軟件鎖定版本不更新》安裝特定DockerCE版本。html

Kubernetes 1.16.0 發佈-新版本四大主題，https://www.oschina.net/news/109996/kubernetes-1-16-0-released
ChangeLog, https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG-1.15.md
Kubernetes 1.15 發佈，可擴展性與持續性改進, https://www.oschina.net/news/107618/kubernetes-1-15-released
kubeadm升級kubernetes到1.15.0版本, https://www.codercto.com/a/88502.html
Kubernetes v1.15.0 環境搭建 - CentOS, https://www.jianshu.com/p/832bcd89bc07

一、升級kubeadm/kubectl/kubelet版本

sudo apt install kubeadm=1.16.0-00 kubectl=1.16.0-00 kubelet=1.16.0-00

kubernetes for china

查看該版本的容器鏡像版本：node

kubeadm config images list

輸出以下：git

~# kubeadm config images list

k8s.gcr.io/kube-apiserver:v1.16.0
k8s.gcr.io/kube-controller-manager:v1.16.0
k8s.gcr.io/kube-scheduler:v1.16.0
k8s.gcr.io/kube-proxy:v1.16.0
k8s.gcr.io/pause:3.1
k8s.gcr.io/etcd:3.3.15-0
k8s.gcr.io/coredns:1.6.2

二、拉取容器鏡像

原始的kubernetes鏡像文件在gcr上，不能直接下載。我給鏡像到了阿里雲的杭州機房的容器倉庫裏，拉取仍是比較快的。github

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.16.0 Images from aliyuncs.com ......"
echo "=========================================================="
echo ""

MY_REGISTRY=registry.cn-hangzhou.aliyuncs.com/openthings

## 拉取鏡像
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.16.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.15-0
docker pull ${MY_REGISTRY}/k8s-gcr-io-pause:3.1
docker pull ${MY_REGISTRY}/k8s-gcr-io-coredns:1.6.2

## 添加Tag
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.16.0 k8s.gcr.io/kube-apiserver:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.16.0 k8s.gcr.io/kube-scheduler:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.16.0 k8s.gcr.io/kube-controller-manager:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.16.0 k8s.gcr.io/kube-proxy:v1.16.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.15-0 k8s.gcr.io/etcd:3.3.15-0
docker tag ${MY_REGISTRY}/k8s-gcr-io-pause:3.1 k8s.gcr.io/pause:3.1
docker tag ${MY_REGISTRY}/k8s-gcr-io-coredns:1.6.2 k8s.gcr.io/coredns:1.6.2

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.16.0 Images FINISHED."
echo "into registry.cn-hangzhou.aliyuncs.com/openthings, "
echo "           by openthings@https://my.oschina.net/u/2306127."
echo "=========================================================="

echo ""

保存爲shell腳本，而後執行。sql

或者，下載腳本：https://github.com/openthings/kubernetes-tools/blob/master/kubeadm/2-images/

三、升級Kubernetes集羣

全新安裝：docker

#指定IP地址，1.16.0版本：
sudo kubeadm init --kubernetes-version=v1.16.0 --apiserver-advertise-address=10.1.1.199 --pod-network-cidr=10.244.0.0/16

#注意，CoreDNS已經內置，再也不須要參數--feature-gates CoreDNS=true

先查看一下須要升級的各個組件的版本。shell

使用kubeadm upgrade plan ，輸出的版本升級信息以下：api

COMPONENT            CURRENT   AVAILABLE
API Server           v1.15.2   v1.16.0
Controller Manager   v1.15.2   v1.16.0
Scheduler            v1.15.2   v1.16.0
Kube Proxy           v1.15.2   v1.16.0
CoreDNS              1.3.1     1.6.2
Etcd                 3.3.10    3.3.15-0

確保上面的容器鏡像已經下載（若是沒有提早下載，可能被網絡阻隔致使掛起），而後執行升級：網絡

kubeadm upgrade -y apply v1.16.0

看到下面信息，就OK了。app

[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.16.0". Enjoy!

而後，配置當前用戶環境：

mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

就可使用 kubectl version 來查看狀態和 kubectl cluster-info 查看服務地址。

四、工做節點的升級

每一個工做節點須要拉取上面對應版本的鏡像，以及安裝kubelet的對應版本。

檢查版本：

~$ kubectl version

查看Pod信息：

kubectl get pod --all-namespaces

完成。

五、HA cluster的升級

從1.13.x以前的版本升級上了的話，由於api改變（kubelet升爲1.14後沒法啓動apiserver），致使新的kubeadm訪問之前的apiserver出錯，從而升級失敗。能夠拉取鏡像下來後，手工切換鏡像的版本（全部節點的/etc/kubernetes/manifests下的文件都須要修改）。

對每個節點，執行下面的步驟：

cd /etc/kubernetes/manifests/。
改變全部的 *.yaml , 指定 images 版本爲 1.16.0。

在1.14.0版本升級完後，出現問題(1.14.1仍存在)：

工做節點 join 到 cluster失敗，參見 [kubeadm] #76013, https://github.com/kubernetes/kubernetes/issues/76013
據有的社區成員測試，全新安裝的1.14集羣能夠正常運行。
個人集羣是從1.13.4上升級而來，經測試1.14.1版本，該問題仍然存在。
kube-proxy的版本須要進管理工具去修改DaemonSet的images版本號爲1.14.1。
coredns的版本須要進管理工具去修改複製集的images版本號爲1.3.1。
- 再次運行flannel的安裝，無論用。
- 可是，修改完重啓集羣就起不來了。進去看pod狀態爲Crash。
- 強制刪除CoreDNS的Pod運行實例。Kubernetes會自動啓動新的實例。
  - 能夠參考《Kubernetes中強制刪除已銷燬的頑固pod》。
原來安裝的jupyterhub起不來了，進去看hub pod狀態爲Crash。
- 查看hub的日誌，顯示SQLlite訪問出錯，將其從宿主存儲目錄下移除，訪問hub service失敗。
- 刪除hub pod後，service的proxy-public也沒法鏈接。
- 強制刪除JupyterHub的hub和Proxy的Pod運行實例。
- 強制刪除CoreDNS的Pod運行實例，Kubernetes自動啓動新實例後，運行恢復。
- 有時候是glusterfs設置權限問題，setfacl/getfacl進行設置。
  - 參考：GlusterFS: 訪問權限設置
- 進一步檢查，發現多是GlusterFS的volume寫入問題，不一樣步引發的。
  - hub-db-dir目錄下的jupyterhub.sqllite寫入臨時文件存在，致使鎖死，不是glusterfs寫入權限問題。
  - 設置gluster volume heal vol01 enable，讓其數據同步。
  - 重啓volume或者glusterd服務。
  - 或者，刪除全部gluster存儲節點下的hub-db-dir目錄下的jupyterhub.sqllite文件，再刪除hub pod，使其自動重建文件。
  - 通常上面幾步後，可以恢復。

其它：

出現整個集羣沒法訪問，kubectl get node失敗，kubectl version時apiserver訪問失敗。
查看其中一個節點route，再次出現神祕的podsxx 255.255.255.255路由記錄，route del刪除記錄失敗。
運行sudo netplan apply後，路由記錄消失，節點恢復可訪問。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。