OpenStack使用Ceph存儲,Ceph到底作了什麼?

blob.png blob.png

 上面左邊是個人我的微信,如需進一步溝通,請加微信。  右邊是個人公衆號「Openstack私有云」,若有興趣,請關注。git


原文連接

1 背景知識

1.1 Ceph簡介

Ceph是當前很是流行的開源分佈式存儲系統,具備高擴展性、高性能、高可靠性等優勢,同時提供塊存儲服務(rbd)、對象存儲服務(rgw)以及文件系統存儲服務(cephfs)。目前也是OpenStack的主流後端存儲,和OpenStack親如兄弟,爲OpenStack提供統一共享存儲服務。使用Ceph做爲OpenStack後端存儲,具備以下優勢:swift

  • 全部的計算節點共享存儲,遷移時不須要拷貝根磁盤,即便計算節點掛了,也能當即在另外一個計算節點啓動虛擬機(evacuate)。後端

  • 利用COW(Copy On Write)特性,建立虛擬機時,只須要基於鏡像clone便可,不須要下載整個鏡像,而clone操做基本是0開銷,從而實現了秒級建立虛擬機。微信

  • Ceph RBD支持thin provisioning,即按需分配空間,有點相似Linux文件系統的sparse稀疏文件。建立一個20GB的虛擬硬盤時,最開始並不佔用物理存儲空間,只有當寫入數據時,才按需分配存儲空間。app

Ceph的更多知識能夠參考官方文檔,這裏咱們只關注RBD,RBD管理的核心對象爲塊設備(block device),一般咱們稱爲volume,不過Ceph中習慣稱之爲image(注意和OpenStack image的區別)。Ceph中還有一個pool的概念,相似於namespace,不一樣的pool能夠定義不一樣的副本數、pg數、放置策略等。每一個image都必須指定pool。image的命名規範爲pool_name/image_name@snapshot,好比openstack/test-volume@test-snap,表示在openstackpool中test-volumeimage的快照test-snap。所以如下兩個命令效果是等同的:分佈式

rbd snap create --pool openstack --image test-image --snap test-snap
rbd snap create openstack/test-image@test-snap

openstack pool上建立一個1G的image命令爲:ide

rbd -p openstack create --size 1024 int32bit-test-1

image支持快照(snapshot)的功能,建立一個快照即保存當前image的狀態,至關於git commit操做,用戶能夠隨時把image回滾到任意快照點上(git reset)。建立快照命令以下:oop

rbd -p openstack snap create int32bit-test-1@snap-1

查看rbd列表:源碼分析

$ rbd -p openstack ls -l | grep int32bit-test
int32bit-test-1        1024M 2
int32bit-test-1@snap-1 1024M 2

基於快照能夠建立一個新的image,稱爲clone,clone不會當即複製原來的image,而是使用COW策略,即寫時拷貝,只有當須要寫入一個對象時,才從parent中拷貝那個對象到本地,所以clone操做基本秒級完成,而且須要注意的是基於同一個快照建立的全部image共享快照以前的image數據,所以在clone以前咱們必須保護(protect)快照,被保護的快照不容許刪除。clone操做相似於git branch操做,clone一個image命令以下:性能

rbd -p openstack snap protect int32bit-test-1@snap-1
rbd -p openstack clone int32bit-test-1@snap-1 int32bit-test-2

咱們能夠查看一個image的子image(children)有哪些,也能查看一個image是基於哪一個image clone的(parent):

$ rbd -p openstack children int32bit-test-1@snap-1
openstack/int32bit-test-2
$ rbd -p openstack info int32bit-test-2 | grep parent
parent: openstack/int32bit-test-1@snap-1

以上咱們能夠發現int32bit-test-2int32bit-test-1的children,而int32bit-test-1int32bit-test-2的parent。

不斷地建立快照並clone image,就會造成一條很長的image鏈,鏈很長時,不只會影響讀寫性能,還會致使管理很是麻煩。可幸的是Ceph支持合併鏈上的全部image爲一個獨立的image,這個操做稱爲flatten,相似於git merge操做,flatten須要一層一層拷貝全部頂層不存在的數據,所以一般會很是耗時。

$ rbd -p openstack flatten int32bit-test-2
Image flatten: 31% complete...

此時咱們再次查看其parrent-children關係:

rbd -p openstack children int32bit-test-1@snap-1

此時int32bit-test-1沒有children了,int32bit-test-2徹底獨立了。

固然Ceph也支持徹底拷貝,稱爲copy

rbd -p openstack cp int32bit-test-1 int32bit-test-3

copy會徹底拷貝一個image,所以會很是耗時,但注意copy不會拷貝原來的快照信息。

Ceph支持將一個RBD image導出(export):

rbd -p openstack export int32bit-test-1 int32bit-1.raw

導出會把整個image導出,Ceph還支持差量導出(export-diff),即指定從某個快照點開始導出:

rbd -p openstack export-diff \
int32bit-test-1 --from-snap snap-1 \
--snap snap-2 int32bit-test-1-diff.raw

以上導出從快照點snap-1到快照點snap-2的數據。

固然與之相反的操做爲import以及import-diff。經過export/import支持image的全量備份,而export-diff/import-diff實現了image的差量備份。

Rbd image是動態分配存儲空間,經過du命令能夠查看image實際佔用的物理存儲空間:

$ rbd du int32bit-test-1
NAME            PROVISIONED   USED
int32bit-test-1       1024M 12288k

以上image分配的大小爲1024M,實際佔用的空間爲12288KB。

刪除image,注意必須先刪除其全部快照,而且保證沒有依賴的children:

rbd -p openstack snap unprotect int32bit-test-1@snap-1
rbd -p openstack snap rm int32bit-test-1@snap-1
rbd -p openstack rm int32bit-test-1

1.2 OpenStack簡介

OpenStack是一個IaaS層的雲計算平臺開源實現,關於OpenStack的更多介紹歡迎訪問個人我的博客,這裏只專一於當OpenStack對接Ceph存儲系統時,基於源碼分析一步步探測Ceph到底作了些什麼工做。本文不會詳細介紹OpenStack的整個工做流程,而只關心與Ceph相關的實現。

閱讀完本文能夠理解如下幾個問題:

  1. 爲何上傳的鏡像必需要轉化爲raw格式?

  2. 如何高效上傳一個大的鏡像文件?

  3. 爲何可以實現秒級建立虛擬機?

  4. 爲何建立虛擬機快照須要數分鐘時間,而建立volume快照可以秒級完成?

  5. 爲何當有虛擬機存在時,不能刪除鏡像?

  6. 爲何必定要把備份恢復到一個空卷中,而不能覆蓋已經存在的volume?

  7. 從鏡像中建立volume,可否刪除鏡像?

注意本文都是在基於使用Ceph存儲的前提下,即Glance、Nova、Cinder都是使用的Ceph,其它狀況下結論不必定成立。

(注:原文有源代碼,已經超過5000字的篇幅限制,所以作了精簡,若是須要看詳細推導驗證過程,請查看原文連接,另外你能夠快速跳到總結部分查看OpenStack各個操做對應的Ceph工做。

2 Glance

2.1 Glance介紹

Glance管理的核心實體是image,它是OpenStack的核心組件之一,爲OpenStack提供鏡像服務(Image as Service),主要負責OpenStack鏡像以及鏡像元數據的生命週期管理、檢索、下載等功能。Glance支持將鏡像保存到多種存儲系統中,後端存儲系統稱爲store,訪問鏡像的地址稱爲location,location能夠是一個http地址,也能夠是一個rbd協議地址。只要實現store的driver就能夠做爲Glance的存儲後端,其中driver的主要接口以下:

  • get: 獲取鏡像的location。

  • get_size: 獲取鏡像的大小。

  • get_schemes: 獲取訪問鏡像的URL前綴(協議部分),好比rbd、swift+https、http等。

  • add: 上傳鏡像到後端存儲中。

  • delete: 刪除鏡像。

  • set_acls: 設置後端存儲的讀寫訪問權限。

爲了便於維護,glance store目前已經做爲獨立的庫從Glance代碼中分離出來,由項目glance_store維護。目前社區支持的store列表以下:

  • filesystem: 保存到本地文件系統,默認保存/var/lib/glance/images到目錄下。

  • cinder: 保存到Cinder中。

  • rbd:保存到Ceph中。

  • sheepdog:保存到sheepdog中。

  • swift: 保存到Swift對象存儲中。

  • vmware datastore: 保存到Vmware datastore中。

  • http: 以上的全部store都會保存鏡像數據,惟獨http store比較特殊,它不保存鏡像的任何數據,所以沒有實現add方法,它僅僅保存鏡像的URL地址,啓動虛擬機時由計算節點從指定的http地址中下載鏡像。

。。。。。。。。。。。此處省略分析驗證過程。。。。。。。。。。。。。

3 Nova

3.1 Nova介紹

Nova管理的核心實體爲server,爲OpenStack提供計算服務,它是OpenStack最核心的組件。注意Nova中的server不僅是指虛擬機,它能夠是任何計算資源的抽象,除了虛擬機之外,也有多是baremetal裸機、容器等。

不過咱們在這裏假定:

  • server爲虛擬機。

  • image type爲rbd。

  • compute driver爲libvirt。

啓動虛擬機以前首先須要準備根磁盤(root disk),Nova稱爲image,和Glance同樣,Nova的image也支持存儲到本地磁盤、Ceph以及Cinder(boot from volume)中。須要注意的是,image保存到哪裏是經過image type決定的,存儲到本地磁盤能夠是raw、qcow二、ploop等,若是image type爲rbd,則image存儲到Ceph中。不一樣的image type由不一樣的image backend負責,其中rbd的backend爲nova/virt/libvirt/imageackend中的Rbd類模塊實現。

。。。。。。。。。。。此處省略分析驗證過程。。。。。。。。。。。。。

4 Cinder

4.1 Cinder介紹

Cinder是OpenStack的塊存儲服務,相似AWS的EBS,管理的實體爲volume。Cinder並無實現volume provide功能,而是負責管理各類存儲系統的volume,好比Ceph、fujitsu、netapp等,支持volume的建立、快照、備份等功能,對接的存儲系統咱們稱爲backend。只要實現了cinder/volume/driver.pyVolumeDriver類定義的接口,Cinder就能夠對接該存儲系統。

Cinder不只支持本地volume的管理,還能把本地volume備份到遠端存儲系統中,好比備份到另外一個Ceph集羣或者Swift對象存儲系統中,本文將只考慮從源Ceph集羣備份到遠端Ceph集羣中的狀況。

。。。。。。。。。。。此處省略分析驗證過程。。。。。。。。。。。。。

5 總結

5.1 Glance

1. 上傳鏡像

rbd -p ${GLANCE_POOL} create --size ${SIZE} ${IMAGE_ID}rbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap
rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap

2. 刪除鏡像

rbd -p ${GLANCE_POOL} snap unprotect ${IMAGE_ID}@snap
rbd -p ${GLANCE_POOL} snap rm ${IMAGE_ID}@snap
rbd -p ${GLANCE_POOL} rm ${IMAGE_ID}

5.2 Nova

1 建立虛擬機

rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${NOVA_POOL}/${SERVER_ID}_disk

2 建立虛擬機快照

# Snapshot the disk and clone # it into Glance's storage poolrbd -p ${NOVA_POOL} snap create \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap protect \${SERVER_ID}_disk@${RANDOM_UUID}rbd clone \${NOVA_POOL}/${SERVER_ID}_disk@${RANDOM_UUID} \${GLANCE_POOL}/${IMAGE_ID} # Flatten the image, which detaches it from the # source snapshotrbd -p ${GLANCE_POOL} flatten ${IMAGE_ID} # all done with the source snapshot, clean it uprbd -p ${NOVA_POOL} snap unprotect \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap rm \${SERVER_ID}_disk@${RANDOM_UUID} # Makes a protected snapshot called 'snap' on # uploaded images and hands it outrbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap
rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap

3 刪除虛擬機

for image in $(rbd -p ${NOVA_POOL} ls | grep "^${SERVER_ID}");do 
    rbd -p ${NOVA_POOL} rm "$image"; done

5.3 Cinder

1 建立volume

(1) 建立空白卷

rbd -p ${CINDER_POOL} create \--new-format --size ${SIZE} \volume-${VOLUME_ID}

(2) 從快照中建立

rbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@snapshot-${SNAPSHOT_ID} \${CINDER_POOL}/volume-${VOLUME_ID}rbd resize --size ${SIZE} \openstack/volume-${VOLUME_ID}

(3) 從volume中建立

# Do full copy if rbd_max_clone_depth <= 0.if [[ "$rbd_max_clone_depth" -le 0 ]]; then
    rbd copy \
    ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID} \
    ${CINDER_POOL}/volume-${VOLUME_ID}
    exit 0fi# Otherwise do COW clone.# Create new snapshot of source volumerbd snap create \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap
rbd snap protect \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap# Now clone source volume snapshotrbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap \${CINDER_POOL}/volume-${VOLUME_ID}# If dest volume is a clone and rbd_max_clone_depth reached,# flatten the dest after cloning.depth=$(get_clone_depth ${CINDER_POOL}/volume-${VOLUME_ID})if [[ "$depth" -ge "$rbd_max_clone_depth" ]]; then
    # Flatten destination volume 
    rbd flatten ${CINDER_POOL}/volume-${VOLUME_ID}
    # remove temporary snap
    rbd snap unprotect \
    ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap
    rbd snap rm \
    ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snapfi

(4) 從鏡像中建立

rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${CINDER_POOL}/volume-${VOLUME_ID}if [[ -n "${SIZE}" ]]; then
    rbd resize --size ${SIZE} ${CINDER_POOL}/volume-${VOLUME_ID}fi

2 建立快照

rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}rbd -p ${CINDER_POOL} snap protect \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}

3 建立備份

(1) 第一次備份

rbd -p ${BACKUP_POOL} create \
--size ${VOLUME_SIZE} \
volume-${VOLUME_ID}.backup.base
NEW_SNAP=volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP}
rbd -p ${CINDER_POOL} snap create ${NEW_SNAP}
rbd export-diff ${CINDER_POOL}/volume-${VOLUME_ID}${NEW_SNAP} - \
| rbd import-diff --pool ${BACKUP_POOL} - \
volume-${VOLUME_ID}.backup.base

(2) 增量備份

rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP} rbd export-diff  --pool ${CINDER_POOL} \--from-snap backup.${PARENT_ID}.snap.${LAST_TIMESTAMP} \${CINDER_POOL}/volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTRAMP} - \| rbd import-diff --pool ${BACKUP_POOL} - \${BACKUP_POOL}/volume-${VOLUME_ID}.backup.base
rbd -p ${CINDER_POOL} snap rm \volume-${VOLUME_ID}.backup.base@backup.${PARENT_ID}.snap.${LAST_TIMESTAMP}

4 備份恢復

rbd export-diff --pool ${BACKUP_POOL} \volume-${SOURCE_VOLUME_ID}.backup.base@backu
相關文章
相關標籤/搜索