運維自動化已經再也不是新鮮名詞,特別是隨着Devops思想的影響下,愈來愈多的互聯網產品公司已經開始搭建屬於本身的運維自動化平臺,甚至個別公司已經走在了AIDevOps實踐的路上。那麼,運維自動化的究竟是什麼,爲何須要自動化?如何落地呢? 固然本文是基於中小型互聯網公司自動化平臺實踐,大型公司的自動化不在討論之列。另外,因爲涉及數據安全等緣由,每一個公司都趨向於搭建各自的自動化運維體系,仁者見仁,智者見智。ios
在不一樣的企業中,關於運維的這個崗位的理解也有不少不一樣。有的說是網管、有的說是搞網絡相關的、有的說是搞機房監控相關的、有的說負責備份與上線的、也有的說是寫腳本和程序的,還有的人說是專業背鍋的,其實全部的理解都是都對,這些都屬於運維工做的一部分,只不過是不一樣層次、不一樣崗位的人負責而已,每一項技術均可以說是運維工做,因此不可否認任何人對運維的理解。 運維的主要工做職責是保障業務的正常運行,不斷的更新和提升產品技術的穩定性和安全性。運維部與研發部、測試部和系統管理部門統稱爲互聯網產品技術支撐的四大部門。運維部門又能夠大方向的分爲:業務實施、應用實施、架構實施、自動化實施和安全管理實施。運維工程師是集合網絡、系統、安全、監控、日誌、數據、腳本、程序、虛擬化、雲計算和集羣分佈式等全部技術爲一體的自動化、結構化、智能化和全面化的崗位算法
傳統運維部門在制訂IT設備和信息化系統管理目標時,關注的是一臺臺IT設備的故障率和一套套應用系統的可用性,在基礎設施、數據庫、中間件、災備、存儲等環節一般大量採用商業閉源的軟硬件產品及其解決方案,設備的開放性差、標準也不統一,管理時遵循嚴格的ITIL管理體系,喜歡採用兩地三中心這種典型的重量級、集中式運維管理方式。數據庫
隨着IT規模愈來愈大、系統愈來愈複雜,運維保障工做由最初的硬件運維不斷細分,網絡工程師、系統運維工程師、DBA、安全工程師等崗位加入到運維體系中。安全
當業務系統發生故障時,IT主管首先召集自掃門前雪的各個運維崗位進行自檢,查看各自負責的設備、應用組件、系統是否運行正常。服務器
因此,傳統運維部門經常被稱爲「救火」隊員,依靠人工巡檢的工做方式,不但工做被動,並且效率低下。網絡
到了互聯網時代,一切以互聯網爲核心,IT的邊界被徹底打開,IT系統再也不是爲企業內部管理提供支撐,而是爲億萬互聯網用戶提供各類線上服務。所以,IT部門成爲了互聯網企業的核心,而保障線上業務持續、穩定運行,也是互聯網企業的第一使命。架構
互聯網運維最關注互聯網用戶體驗,重視響應時間、可用率等性能指標,經常會要求系統可用性達到四個九。所以,互聯網運維在基礎設施、數據庫、中間件、分佈式存儲、自動化部署等環節一般大量採用開源或基於SaaS的自動化運維監控工具,如Zabbix、Nagios和雲智慧監控寶等,這些產品的橫向擴展能力很強,具備分佈式、輕量級、模塊化、去中心化等特色。運維
故障發生時,要求互聯網運維可以第一時間發現問題,並快速定位問題。依靠人工巡檢的傳統運維管理方式嚴重落後,所以,自動化運維逐漸流行。這就對互聯網運維工程師的開發能力提出了更高的要求,熟悉Python之類的腳本語言只是基礎,玩得轉各類開源監控系統,可以根據業務特色和企業需求定製開發自動化監控和告警工具。分佈式
這一時期,運維和開發之間的邊界變得模糊起來,DevOps成爲互聯網產品從開發到上線維護的新選擇。同時,傳統運維部門已經開始組建專業的運維開發團隊來支撐自動化體系平臺的搭建。運維人員也將經過自動化平臺來完成服務器操做,從手工運維到自動化,到無人值守。模塊化
如下是筆者針對公司某個階段運維場景整合的自動化體系(公司處於快速成長期),這裏僅供參考:
一幅小圖,旨在拋磚引玉。每每看似簡單的道理,每一點進步都或背後大量精細的的實踐。其中涉及的技術和細節也是蠻多的多種主流操做系統,數據庫,雲平臺,開發語言,安全,架構,算法等...
如下是平臺的截圖,能夠吐槽一下,哈哈
這是一位互聯網運維老兵總結的運維知識體系,感謝他的分享,但願對新人有所幫助。
坊間此前流行一句話,"能程序完成的事情儘可能不要用人去幹"。運維自動化道路並非一路順風的,不少時候是須要本身造輪子。 每一個公司發展情況不一樣,而且涉及各自公司的隱私,基本都有定製化的成分,你所要的工具網上可能都會有相關開源項目,可是須要本身整合到體系中。 自動化的下一步是智能化,將來還有更多的路要走。
魯迅說過:"世界上本沒有路,走的人多了,也就變成了路。"想作一個統一的運維自動化平臺的產品或許不太可能, 可是作一點表準化自動化插件或者小工具,是有可能的,這個其實也是商機,你作到了,這條路即可以走的更遠。
聽說今天是724運維日,祝各位互聯網的幕後英雄節日快樂!