耿航:開源雲技術如何在傳統企業落地

現在,互聯網企業依靠技術優點,深入影響和改變着人們的生活和工做,其中,開源技術孕育了互聯網企業發展。在雲計算、大數據、AI、IoT的背後,是OpenStack、容器、Hadoop等開源技術的支撐,在開源技術支撐下,互聯網企業如魚得水。算法

相比互聯網企業,傳統行業/企業用戶多采用IT服務外包的模式,主要依靠IT產品供應商、ISV、SI的技術能力,行業自己的技術實力和人才積累徹底沒有辦法和互聯網企業相比,在這樣的狀況下,傳統行業企業應該如何對待開源技術呢?數據庫

對此,中國開源雲聯盟副祕書長、Ceph中國社區聯合創始人耿航在2018中國數據與存儲峯會的主題演講中,給出了本身的看法。後端

耿航表示,適合本身的纔是最好的選擇。行業企業用戶能夠根據本身的須要,選擇適合本身的雲平臺、存儲和網絡。開源產品的特色不一樣,適合的應用場景也不盡相同。以OpenStack爲例,它的特色是全面,相比CloudStack、ZStack就比較輕量,容易管理和使用,所以,特色不一樣,用戶的選擇也不用。安全

對於行業企業用戶來講,要可以適應雲計算時代的特色和變化,用戶團隊須要作好如下幾件事情:服務器

在耿航看來,這是一個可行的調整和變化。網絡

此外結合行業實踐,針對Ceph部署中的網絡問題、磁盤問題、時間問題、資源獲取問題,以及應用場景的問題,耿航也進行了經驗分享。架構

如下爲演講全文:運維

耿航:你們下午好,我是今天最後一個講,很感謝你們堅持到最後。自我介紹一下我叫耿航,目前就任於中鐵信,社會職務就是中國開源雲聯盟副祕書長,也是Ceph中國社區的聯合創始人。今天主要講一下開源雲技術在傳統企業裏落地的建議以及思考。分佈式

首先分爲這幾個方面:首先介紹一下中國開源雲聯盟和Ceph基金會,後面會介紹到國內的一些開源生態的發展,還有包括對於開源雲技術的一些思考,最後會說到傳統的運維如何快速的學習,像Ceph或者是一些相關的雲方面的技術。ide

中國開源雲聯盟,目前掛靠在工信部下面的中國電子技術標準化研究院,主要是作國內的雲、標準、開源相關的產業,國內搞雲的企業如今都在裏面,包括說作一些開源的標準,或者是跟國際上的CNCF等國際上的基金會都是有交流的。

Ceph基金會,瞭解Ceph的話,Ceph在今年的上個月剛成立了Ceph基金會,Ceph基金會成立以後,對於Ceph來講是一個很是好的發展,由於以前像Ceph成立於2004,Ceph到如今發展十來年了,可是以前呢一直在2014年的時候被Red Hat收購了,收購以後Ceph的軟件和社區都歸Red Hat全部,你們知道Ceph很火,不少的生態廠商參與,這樣對於Ceph將來的發展有瓶頸在裏面,不利用它將來的建設。在Ceph創始人的大力推進下,Ceph社區在今年11月份的時候成立了Ceph基金會,Ceph基金會掛靠在Linx基金會下面,跟CNCF基金會是同等級的。參與基金會的贊助商會有一些權益,好比:參與它活動的決策,包括說它從此的一些技術的發展等等。

下面介紹一下中國區的一些用戶,最上層是它的頂級的用戶,中國移動,包括ZTE、XSKY。第二個是企業級會員,包括滴滴、EasyStack、中國平安、QCT。第三層是SRIE中鐵信,是用戶、研究機構被特邀進去的,也是參與到基金會裏面的。

瞭解Ceph的話,或者瞭解OpenStack開源雲技術的話,知道咱們舉辦了Cephalocon APAC2018年的大會,關注咱們的公衆號(cephchina)能夠獲取視頻以及一些信息。這個也是運做了很久纔在國內落地的,目前在開源雲技術方面,包括OpenStack開源雲技術領域的,沒有一個說首屆國際峯會是放在中國的,因此說咱們這個也算是在國內開源雲技術方面起到了很大的促進做用,咱們一直在跟國際的社區在交涉說,首屆國際峯會的必定落在北京,中國的用戶和開發者不少,最終功夫不負有心人落在了北京,而後來了不少的老外。下一屆的Summit是在巴塞羅那,跟CNCF的KubeCon在一塊兒合辦。

說了一下背景和介紹,下面說一下國內的開源文化的發展趨勢。

首先開源不等於免費的思惟轉變,像前幾年的時候,一提到開源首先想到的就是免費,但事實開源不等於免費,就跟農夫山泉似的,咱們不生產水,可是咱們是大天然的搬運工,是一個道理。到如今你們漸漸的逐漸接受了開源服務的理念和思惟,剛纔前面Commvault的錢總也說到了用戶思惟的轉變,你們如今開始逐漸的接受。

還有就是說開源不安全的思惟轉變,之前一提說開源這個東西安不安全或者怎麼着,都會有這樣的考慮,能夠這樣說這個世界上沒有絕對的安全,只有相對的安全,那開源項目就是一個相對安全很好的例子,至少它是公開的代碼誰均可以看、誰均可以改,因此它的安全性比閉源的要好一些。我這裏列了一些國內的一些用戶,包括一些運營商、互聯網、金融行業、遊戲行業。其實這些用戶也都在使用Ceph或者OpenStack等開源雲技術軟件。

還有一個擁抱開源開放的思惟。之前的話你們都是在國內搞開源,在國內小打小鬧搞一個開源軟件,而後在國內推廣一下,都是在國內玩兒。如今能夠看到,由國人開源的項目ApacheKylin、Habor、Tidb等等一些開源軟件逐步的推向國際的開源基金會,好比Habor加入了CNCF基金會,ApacheKylin、SS也是加入了Apache基金會,都相應的加入到國際開源基金會裏,開源文化從擁抱走向開放,從國內走向國際。

接下來講一下開源雲技術在傳統企業裏面的落地思考和建議,以及一些觀點這裏也是參考了不少圈內好友和企業的一些觀點,好比個人好友劉世民,某企業雲研發總監曾親身經歷了企業上雲轉型經歷,也是圈內技術網紅。

OK,回到正題,前面你們都說到了企業上雲,那麼將來企業上雲是常態,包括說將來提的很大的戰略,雲管邊端&雲數邊端也好在將來一切都是基於雲上來作。企業上雲是雲的常態我這兒說的是它的基礎設施的,基礎設施上雲和業務的上雲。基礎設施上雲很簡單,硬件的服務器、存儲上雲。業務上雲就是之前在本地的單機的業務應用遷到雲上面。

我這兒說的是它在技術軟件平臺方面選型的問題,就是說適用於本身的纔是最好的,有些是一些盲目的選型,如今雲平臺,如今最火的就是OpenStack,可是你不必定就選OpenStack,適用於本身的纔是最好的。固然有不少人說OpenStack架構很是重,這個東西怎麼說呢,開源的產品是大而全的東西,不能說有些功能它沒有,它有,可是能不能用是一回事了,開源產品跟實際的落地還不同,若是開源產品能夠直接用,全部人不作產品了,直接作服務了。假設它有10個組件不必定10個組件都用,按照實際的應用場景來用,僅僅只是說私有云,用它核心的組件作私有云就好了。CloudStack跟Zstack的好處是簡單易用,它的組件相對於OpenStack來講少不少的,這也跟OpenStack的生態有關,爲何說OpenStack重,什麼都囊括,邊緣計算什麼的都囊括,也跟它的運營生態有關係,都囊括了,更多的廠商加入了才能把開源的項目盤活,有那麼多東西不見得你實際應用的時候都用上。

包括存儲的選型,最火的是Ceph,固然還有SheepDog、GlusterFS等,不少時候你選型存儲不必定非得用Ceph,固然用Ceph也有不少的好處,Ceph的生態有不少,從底層的硬件Intel、ARM,包括到上層的操做系統Red Hat、SUSE,再到上層的雲平臺OpenStack、CloudStack、Zstack都是支持Ceph的,包括說最上層的應用OwnCloud等。因此能夠看到它從最底層到上層的應用都在支持Ceph,Ceph算是很是完善的開源生態、社區生態。其實在選擇開源軟件的時候,其實無非是這幾點,首先選擇開源生態,選擇開源生態無非就是省去人力、時間等等一些成本。

還有就是說網絡選型,有SDN、VXLAN、VLAN,其實我以爲私有云沒有必要用VXLAN,用了反而增長了運維的一些成本。自己VLAN就知足了私有云的場景了,用上VXLAN就加大了難度,無非是給本身挖坑本身跳進去了,出了問題排錯也很差排。

像我以前在作公有云網絡調研開源軟件的時候也是同樣,咱們選型有一家公司,它的軟件很是不錯,它能夠完美的跟OpenStack相結合,替代了OpenStack裏面OVS,包括說它的高級功能,像什麼×××AAS、FWAAS等等功能,這個東西很是不錯,可是它沒有良好的開源生態,萬一這家公司死了,這個項目也就隨之而死了。不管國內在選型開源也好,國外也好,開源生態仍是要很是考慮,包括爲何說SheepDog、GlusterFS不多用,由於沒有很好的生態。

上雲只是起點而不是終點,由於它涉及到技術因素、團隊因素、多個團隊相互配合,傳統企業裏不少的團隊,服務器運維、數據庫運維等等多團隊的相互配合。包括說一些遷移,剛纔也說到了數據的遷移,包括說虛擬機的遷移、V2V等等都是有不少的因素在裏面。

能夠看到我PPT上寫了不少技術名詞,其實在上雲前期的話,其實也能夠看作一個過分期,爲何這麼說呢,前期確定是開源與商業相併存的狀態,就像剛纔EasyStack說到的,他們的存儲都是在商業存儲和分佈式存儲並存,逐漸的從商業的產品脫離到開源技術的產品。爲何說只是起點不是終點呢?由於你要作的東西不少,這點剛纔EasyStack也說到了,他們將不少開源技術的搬到了傳統企業上,可是也同樣,你好比像DevOps 、CI/CD等技術概念炒的很火,可是傳統企業裏很難落地,DevOps、CI/CD很是不錯,理念也不錯,可是與實際相差有點大,這個東西徹底是革新是改革,顛覆了之前開發的習慣,甚至說你之前思惟的習慣,原來可能在本地操做,如今不同了,要集中進行。因此說它徹底是一種顛覆,在傳統企業裏面是很是很差推進的,要推進無非幾個因素,首先這個東西確定是自上而下的,包括說企業上雲也是自上而下的,若是是下邊進行推進實際上很是困難,固然了也不算百分百成功,自上而下有時候還有半途而廢的。

像前面剛纔說到的一些轉型,包括一些大的戰略(雲數邊端)。其實如今在鐵路上,也是同樣的,以云爲基礎,利用大數據、邊緣計算IOT等技術來進行更好的完善鐵路的一些系統,包括說鐵路如今在建設二級的管理模式,其實之前的話都是鐵總、鐵路局、鐵路段,如今其實也是逐漸的從三級變成二級,逐漸的把一些東西給管控起來,數據、資源給管控起來,其實也用到了剛纔說的一些技術,包括無人機的巡航、大數據的分析等等一些,更好的爲鐵路系統保駕護航。

數字化轉型的道路上有不少的企業,不光是鐵路,包括製造業,在國家的大方針下、政策下知道方向在哪兒,可是不知道怎麼作,據我瞭解石家莊就有一個軍需物資的國企,他們也是在尋求數字化轉型,尋求數字化轉型的時候他們不大懂,但他們想作殊不知道怎麼作,這個時候就缺少一些指導,包括說一些諮詢方面的建議和落地。

剛纔也說到了,無非是主要幾點:首先確定是須要一個合適的雲服務提供商,爲何這麼說呢,由於服務提供商要很是很是的懂業務,只有瞭解你的業務、瞭解你的實際狀況纔好制定相應的上雲的方案。第二,上雲鬚要多個相關技術團隊配合,不是說單純一個運維團隊就能搞定了,確定也是說須要多個運維團隊進行相互合做參與的。第三,同時要評估上雲的方案和遷移工具的研發。第四,須要穩妥有序的推動,一步一步來推動,不能一蹴而就。第五,須要充分考量安全的問題,不少考慮上雲以後的安全問題。剛纔也說到了,基礎設施的上雲、服務器存儲包括安全的設備也是上雲,如今有不少的等等一些上雲的安全。第六,還要考慮說技術、成本、團隊培養、商務問題等等。第七,團隊培養主要說一下團隊的一些培養,在上傳統企業上雲的初期確定是說,先找一家雲服務提供商快速的幫我把業務建起來,創建起來的同時也要創建本身的相關的雲的團隊,在這個其中相互磨合、相互學習,同時練兵把本身的人培養起來。培養起來到了中期的階段,中期的階段確定是說本身的人接手一部分運維的事情,繼續練兵。後期團隊磨合差很少了,可以具有一些相關的雲方面的開發和工做了,也就是本身能作的就本身作了,不能作的時候再採用外面的服務商。

最後呢說下傳統企業運維轉型Ceph時候遇到的一些問題,初學者玩Ceph會遇到網絡問題,由於Ceph源在國外,看官方文檔也是用國外的源,國外的源就容易time out,怎麼辦呢,配上國內源,國內不少的阿里、網易、中科大等等國內有不少的源。還有一個問題就是磁盤的問題,磁盤這個問題怎麼說呢,其實我以爲是最不該該出現的吧,由於你要玩一個存儲什麼的,你確定盤要是乾淨的,包括說後面這個磁盤的問題,就是說新版的時候,由於之前是能夠基於目錄來作它的OSD,可是新版L版以後不容許這樣作了,由於這個錯誤就是說不容許這樣作產生的,可能之前玩的,以後很長時間沒玩,玩新版的了,出現這個問題。這個問題怎麼解決呢?能夠採用DD的方式,而後LOOP的方式掛到本地,可是不建議這樣作,這樣作能夠解決問題,可是不建議這樣作,由於這樣作的目的是爲了測試,測試選擇虛擬機、物理機,假設選擇虛擬機你是不缺盤的,不缺盤的狀況下這個問題不會出現,因此說有些問題其實都是說它在自學過程當中本身形成的,而後不當心掉進去了。

還有就是說,還有一個問題爲何會出現呢,由於官方推薦三節點,但他非要單節點部署,那也會出現這樣那樣奇葩的問題,因此說你必定要按照官方的來,不要說按照本身的理解。

還有時間的問題,下面這個圖看到它進程還在的,可是狀態是down的,排查半天是時間的問題,時間節點不一致致使狀態是不一致的。還有一個狀況就是網卡的狀況,以前就遇到了,OSD狀態一下子down一下子up,網卡有問題的狀況下也會出現這種狀況。其實時間問題還有,好比Ceph有個組件叫,Monitor,Monitor對於時間要求很是強,一旦超過多少秒這個狀態就不健康了。

前面說了那麼多,我把一些問題的總結也看到,這是第一個問題,就是說它的國內鏡像源,還有就是國內的文檔包括社區的羣能夠架一下,到裏面能夠相關的諮詢它的問題,像OpenStack、K8S都是在擁抱Ceph。這一點怎麼說呢,不少人說Ceph這個支撐很差,其實也不能說Ceph對於K8S支撐很差,K8S對於全部塊都支持的很差,對於全部塊都不支持,只對分佈式文件存儲支持,如今國內玩兒K8S的有一部分是用的Ceph的RBD,Ceph的塊,還有用的CephFS,這塊仍是不太建議用,由於仍是有不少坑,數據量大的時候就有不少的坑,剛纔選型忘說了。還有一些選型就是說,你是盲目選型,沒有充分的考慮業務實際狀況的時候,盲目的選型了存儲軟件,舉個例子CephFS,國內不少的客戶能夠用對象存儲解決問題,可是它選型用了FS,必定業務量以後遇到了問題,那它的被迫轉型到對象上,數據遷到對象上。還有就是以前也是一家公司選型錯了,用了FS,最後操做不當數據丟了,這些狀況其實都是以前選型形成的一些問題。

接下來就是部署完了怎麼用呢,最典型的場景就是說塊狀的應用,剛纔對接的像Z Stack,它跟Cloud Stack很像,玩過Cloud Stack的就以爲ZStack很好玩。還有OpenStack,全部主流的版本Ceph它都兼容,爲何每次Ceph基金會發布調查報告的時候,Ceph永遠排在第一位,這是很是重要的一點,它的兼容性很是好,對於OpenStack社區的兼容性很是好,爲何比商業存儲還靠前呢,由於商業存儲廠商它針對某些版本作driver版本的開發,有的用戶升級以後就會產生不兼容等等。這也是Ceph能夠在OpenStack上排在第一的緣由。

還有是基於OpenStack來作的公有云,甚至說私有云上面都有容量和性能盤的迷惑,上面建立盤的時候,會讓你選擇容量盤仍是性能盤,這個怎麼實現的呢,基於Ceph很是簡單,由於Ceph有一個算法叫作Crush算法,它有一個CrushMap能夠編輯,把我實際物理機上的磁盤邏輯組成一個host,或者多個host,組成故障域,假設把全部SSD都歸成host,把幾個host跟SSD、SATA、Pool相關聯,Pool跟OpenStack的Cinder關聯,Cinder能夠支持多個Type,支持多個後端,對應多個盤的類型,這也是同樣的,經過Ceph實現就是用CrushMap編輯實現的。Ceph故障域的概念,能夠劃分你的數據是以盤仍是以機器、機架分佈,能夠經過這個進行調你想怎麼分,同時故障域的概念,你在故障域裏面down了一臺機器,別的是不受影響的。

我這裏有個Ceph的原生頁面,Ceph在L版以後纔出來的,L版本算是Ceph的一個里程碑版本,L版以前沒有良好的頁面,L版以後有很是完善的產品頁面,L版以後愈來愈產品化了,能夠看到它很是完善,這個是主頁面,這是它的存儲的一些容量,包括說它的一些存儲Pools,包括它的一些日誌都是很是偏產品化,如今全部的開源分佈式存儲,它是沒有這樣比較完善的頁面的,包括能夠看到它的集羣的一些節點,包括資源池,包括建立它的塊,包括刪除塊,包括給塊進行一些快照、刪除快照、快照鎖均可以實現,包括它的對象,Ceph是統一的分佈式存儲嘛,既提供塊又提供文件又提供對象,它對象呢就是建立Bucket操做等,建立用戶刪除用戶,包括AK/SK均可以在頁面上看到,以及命令行的操做解放出來放在頁面上操做,逐漸的走向產品化走向簡單。我這兒就不具體的播放了,主要的功能就是剛纔說的那些功能。

而後非結構化數據無處不在,其實如今都知道,移動端的一些直播之類的很是火,直播完以後它有回放功能,回放功能就是非結構化的數據,它存哪兒了,存在對象存儲上。國內的虎牙直播就是把視頻存在Ceph對象上,包括說Vphotos,其實就是雲拍照,現場拍了,常常參會的都知道,現場拍照片主辦方說你在哪兒就能夠看到今天的照片,拍完照以後右下角會有這樣的一個logo,其實都是照片嘛,也是非結構化的數據,無處不在。

另外就是對象存儲的應用,Ceph對象存儲。Ceph對象存儲其實目前應用最廣的就是說,你像在玩兒遊戲,作備份文檔,包括前段時間在網易雲,網易幾乎全部的產品像考拉什麼的一些產品,都是用在對象存儲上。還有像攜程也在用對象存儲,包括今日頭條,它的一些視頻都是存在對象上,包括中國電信,是把用Ceph對接的CDN,對象對接的場景就是流媒體、轉碼存、網盤,包括一些網盤,最簡單的就是我剛纔說的Own cloud原生就是支持的。

說完以後呢,可能會有說既然是存儲確定是要考慮它的災備狀況了,這點呢剛纔也提到了Ceph能夠基於機櫃作一些故障域,這個down機以後別的地方業務無感知的,對於業務沒有影響的。另外就是塊的一些災備,能夠作跨集羣的複製。還有就是基於對象多站點的災備,能夠多個站點的災備,可能會有人說,你只說到了塊跟對象,沒有說文件。剛纔也說到了,文件其實雖說官方說能夠用於生產,以前在L版以前都不建議生產,官方都說不建議生產,可是L版以後不建議生產這句話沒有了,可是依舊不建議上生態,由於數據量大的時候產生的IO會比較多,包括你遷移的時候,其實它有不少的問題,沒有說知足FS的一些特性,因此其實還不建議用,我就不推薦FS怎麼用了。

其實有不少的場景,像對象,其實能夠徹底替代文件的嘛,包括說像Ceph官方社區在對象存儲上轉換一下,轉換成NFS的接口你就能夠用,對於業務應用來講它是個文件,存儲到後面是個對象,也能夠這麼玩。包括社區最新的一些,剛纔提到混合雲的,也能夠在你本地部署對象存儲以後,能夠把你本地的數據經過最新的Cloud Sync 傳到公有云對象存儲上,固然也能夠把他們的數據對象拉過來,也是數據管理和備份,能夠備份到上面的數據。

說完了安裝、使用、災備,如今就是運維,運維我這裏推薦了一種,就是命令行的運維,包括有人說封裝了API,包括一些命令的工具,能夠進行二次開發。監控方面不少用完以後不知道這個東西怎麼監控,我說了剛纔說的原生的Dashboard,有一些微觀的監控,能夠看到OSG讀寫的狀態。還有Zabbix,有一個Ceph插件。另一個就是Prometheus來玩兒,如今大部分都是用這個,也是用來監控Ceph。管理類的推薦兩個,這兩個也能夠部署,這兩個玩兒Ceph的話算是比較良心的開源產品,前面這個PetaSAN在原生的Ceph上側重於塊,在原生的Ceph之上又作了一些工做,在塊方面作了一些工做,包括能夠管理,能夠帶一些弱化的監控,包括一些部署均可以玩兒。後面這個Proxmox相似於ESXI虛擬化,也能夠管理添加刪除,這兩個產品都是開源的,看了它界面的話,比原生的好一些,這兩個產品算是業界良心的開源產品,跟社區版的話也仍是跟的比較緊的。

後面推薦一本書,小白的話能夠關注咱們這本書《Ceph分佈式存儲實踐》,我也是這本書的主編和做者之一,這本書就是幫助Ceph小白和行外人快速瞭解Ceph是什麼東西,Ceph能夠用來幹嘛,甚至說Ceph的應用場景、基本運維等都是有的。

還有就是一些學習途徑,剛纔說到一些人才培養的學習途徑,除了跟隨乙方的雲提供商團隊進行磨合,同時也能夠經過外圍的網站、網校進行學校,經過網校學習+乙方雲提供商相互磨合,能夠快速有效的幫助本身的團隊有效的建設。

相關文章
相關標籤/搜索