一早剛上班,就聽到小李抱怨:昨晚凌晨2點多,收到監控告警,磁盤空間滿了;剛清理完成磁盤,又發現文件系統只讀了;整整折騰了一夜,才修復完成。運維太苦X了!
數據庫
你也跟小李同樣?安全
一會上線出問題;一會磁盤故障;一會硬件告警;一會應用性能不足。客戶怨聲載道,運維叫苦不迭。天天忙忙碌碌,可是沒有任何工做成果,還不斷遭受老闆、上司的批,苦X的運維,背鍋俠之類的話也成了咱們的口頭禪。網絡
給你句實話,這就是傳統運維的真實寫照!運維
1.傳統運維的困境
在傳統運維中,部門在制訂IT設備和信息化系統管理目標時,關注的是一臺臺IT設備的故障率和一套套應用系統的可用性。在基礎設施、數據庫、中間件、災備、存儲等環節一般大量採用商業閉源的軟硬件產品及其解決方案。設備的開放性差、標準也不統一,喜歡採用兩地三中心這種典型的重量級、集中式運維管理方式。ide
隨着IT規模愈來愈大、系統愈來愈複雜,運維保障工做由最初的硬件運維不斷細分,網絡工程師、系統運維工程師、DBA、安全工程師等崗位加入到運維體系中。工具
當業務系統發生故障時,IT主管首先召集自掃門前雪的各個運維崗位進行自檢,查看各自負責的設備、應用組件、系統是否運行正常。因此,傳統運維部門經常被稱爲「救火」隊員,依靠人工巡檢的工做方式,不但工做被動,並且效率低下。性能
2.自動化運維的到來
基於以上緣由,自動化運維應運而生。自動化運維的做用就像工業革命時,織布機代替了大量的織布工人,給企業帶來了利益;自動化運維就像織布機;他的核心訴求是提高效率;自動化運維是運維演進歷程中的一環;從使用腳本的半自動化運維發展到集成到平臺的自動化運維,將來也會發展爲大數據運維。
自動化運維的基本目標解決的是「能程序完成的事情儘可能不要用人去幹」,具體來講就是把週期性、重複性、規律性的工做都交給工具去作,最終達到提高運維效率的目的。這件事情,提及來容易,但作起來卻一點不容易,完成自動化運維,首先須要實現標準化、流程化。
大數據
其中所謂流程化,就是將自動化的工做串起來,實現有序的協做,例如代碼發佈,經過制定流程,而後使用持續集成工具如jekins實現流程化發佈。這種流程化的發佈,能夠實現文件的上傳、分發、版本管理、回滾等各類操做。此外,對於其它運維工做,也能夠實現流程化,制定運維流程規範、故障處理規範、故障告警規範等,經過多個流程規範能夠實現運維工做的秩序化,合理化,從而提升運維效率。spa
▼
免費直播
掃碼報名
日誌
3.智能運維AIOps
自動化運維雖然提高了效率,解決了一部分問題,但也遇到了新的難題,好比面對繁多的報警信息,運維人員應該如何處理?故障發生時,又如何可以迅速定位問題?
這就是將來智能運維AIOps,它主要解決的是複雜運維環境下問題的快速發現甚至提早預判,以及出現問題後如何在複雜的告警、報錯和日誌中快速進行根因分析。甚至實現某些故障的自愈功能。
AI和Ops要解決的仍是兩個層面的問題,能夠類比到人。AI至關於人的大腦,咱們手腳和軀幹是執行系統,大腦負責決策判斷,手腳軀幹負責完成大腦下發的動做指令。
對應到運維上面,AI 要解決的是怎麼快速發現問題和判斷根因,而問題一旦找到,就須要靠咱們高度完善的自動化體系去執行對應的運維操做,好比容量不夠就擴容、流量過大就應該觸發限流和降級等等。而後是Ops,從Ops的角度,涉及的主要是運維自動化相關的技術,也就是說AIOps必定是創建在高度完善的運維自動化基礎之上的,只有AI沒有Ops,是談不上AIOps。
報名《深刻淺出解析大數據平臺》免費直播,實操上手!
❥ 直播做者:運維專家·高俊峯
❥ 直播時間:11.02(今天)晚8:00
❥ 直播羣:成功報名後,還可領取直播PPT+做者互動哦~
▼
免費直播
掃碼報名