上篇咱們講到如何選擇適合本身的雲管理平臺的費用管理模塊,這一篇就來說講你們最關心的運維相關的模塊。ios
Consumption & operationsshell
一個雲管理平臺須要可以幫助運維人員數據庫
這裏你們可能會有一個問題,爲何不使用原生的雲服務商的運維管理產品而引入另一個平臺呢?編程
實時監測後端
咱們先看一下Datadog的一個用戶監測Azure訂閱裏的虛機的儀表盤api
用戶能夠很容易的監測到,在一個動態變化的雲環境裏安全
從以上圖標咱們能夠注意到運維人員方便地在一張dashboard 查看到全部虛機資源,虛機狀態和虛機性能。那麼怎麼實現這個功能呢?服務器
Step By Step網絡
1. 激活虛機的Diagnostics,建議在部署虛機時候就激活診斷配置並配置告警規則運維
2. 從Azure後臺收集數據,理論上應該用API取得實時性能和告警數據,若是不可行可使用step 1的數據
Tips: Azure 中國的monitoring API版本複雜,Api,powershell。。。哪一個work用哪一個吧
3. 編程實現各類業務邏輯或者用PowerBI等工具來展現數據
Tips: 表格,柱狀圖, 條形圖,餅圖,折線圖。。。都有開源代碼庫的
接下來咱們再看一下Datadog用戶怎麼監測Azure PaaS服務的
在上面的儀表板上能夠看到一個App Service的健康狀況
這些信息一樣也來源於Azure的Monitoring API。另外對於虛擬機的監控,還能夠採用安裝agent來採集數據。Agent不但能採集到更多的Host層面系統數據(eg.system.cpu.util),還能採集到運行在VM上的應用的性能數據(eg. SQL server, IIS, Nginx…). 這方面的方案有很多,例如zabbix(http://www.zabbix.com/),Nagios(https://www.nagios.com/solutions/agent-based-monitoring/)。
Tips:最基本的服務器和網站的監控指標是Uptime。技術實現是相對簡單,就是用ping監測網絡延遲或用HTTP監測頁面響應,國內外有很多公司(eg.Pindom)都提供相應的服務並可在問題發生時候用短信email的方式通知運維人員
Tips:工具不能徹底代替人的工做,不論是SaaS仍是本身開發,在雲運維管理平臺的後端必須存在一個7*24運維團隊。
事故處理
服務檯,事故處理,事件管理,配置管理,變動管理等功能作爲ITIL流程已經成爲IT運維的標準之一。如何把ITIL在雲運維管理落地也是對雲管理工具集的要求之一。若是企業已經開始使用ITIL流程管理的相關的工具,可能只須要雲運維平臺提供開放接口來實現和流程管理工具的集成。New comer則能夠考慮採用徹底集成整套流程管理工具的雲管平臺
如下是一個常見ITIL工具集(包括SaaS服務)的列表
Zendesk,Bugzilla, Jira, HPE…
平常運維自動化
因爲雲技術的突飛猛進,雲服務商大多采用迭代開發的方式推出新的產品,雲管理平臺這個產品自己由於須要調用雲服務商的API並開發出對應於新產品的管理功能從而須要有開發團隊長期專一於開發維護。
這裏,咱們建議使用自主開發雲管理平臺的團隊關注常見的運維自動化任務. 經過在平臺支持此類功能來減輕運維人員的壓力。
Tips: 可使用Azure的api,powershell,cli來實現常見運維任務。 Azure的自動化也能夠提供底層的實現
安全管理
咱們能夠參考如下Global Azure的security center的安全策略想一下在雲管理平臺裏能夠實現哪一項安全管理功能。或者用第三方工具實現安全監測結合雲管理平臺的監測告警功能。比方使用WSUS來管理system update,再由雲管理平臺發出更新告警