(一)運維,從字面意思很容易理解,就是運營、維護。有不少朋友認爲,在互聯網公司中Linux系統運維的工做就是安裝系統,部署服務處理緊急故障,爲公司裏的開發人員及其餘部門提供支持服務。同時,還可能負責公司辦公內部和IDC外網的網絡業務穩定。
以上的工做的確是運維的一部分,但並非所有,只是中小公司低級的運維勞動,在我看來,除了上面的角色外,運維人員仍是管理、制度、規範、流程的制定、推行、監督角色。運維的核心是運維思想,而非運維技術自己,上百臺以上的服務器的規模若是沒有好的管理流程、規範、制度策略是沒法協調工做的,上千臺、上萬臺更時如此。
運維流程、運維規範、運維制度、自動化、智能化、批量部署、批量管理、網站架構優化、監控預警、流量及日誌分析統計、權限、安全優化管理、帳戶統一認證等。這纔是真正的運維人員須要作的。如何推動並完善上面的工做,提高工做效率,提高團隊以一當十的戰鬥力纔是最核心的內容。
運維的宗旨:7*24小時網絡穩定、用戶體驗良好(包括內網的員工、外網的網站用戶),因此咱們作什麼都不要離開運維的宗旨,不然你的工做可能就是徒勞的無用功。有經驗的運維會先思考再動做,經驗不足的運維只會作一步想一步,遇到問題再思考,這是徹底不一樣的層次境界。因此別輕易說本身精通什麼服務,會多少軟件,那只是幾塊磚頭、幾袋水泥而已。蓋好大樓,這些僅僅是基本的元素,運維一樣如此。
(二)有人說運維的本質是「可視化」,這個觀點是不客觀的,在我看來,運維的本事是「可控」運維自己是一個複雜的體系,它除了技術以外,經驗積累、視野、大局觀、甚至是心胸都有可能決定成敗。優秀的開發者比比皆是,可是優秀的運維少之又少。
第一點:穩定性「可控」。運維不是維護一兩臺機器,發佈代碼就好,而是要作成千上萬,甚至幾十萬臺的服務器和各類網絡設備、存儲設備等專有設備維護,這些服務器包含webserver、DB、cache、CDN、computing多種類型,如何讓這些大量的服務器穩定的跑在生產環境中,不由於硬件損壞、發佈變動、系統升級而引起的業務系統故障。沒有東西是不會壞的,沒有系統是沒有bug的。硬件要壞,系統升級,發佈變動,這些都沒有關係,可是最重要的,一旦發生這些以後,運維人員知道,這些業務影響多大,須要多少時間和工做量恢復。
第二點:性能「可控」。對於系統DBA來講,最痛苦的地方不在於「慢」,而在於時快時慢,這樣對於DBA在維護是無異於自殺,不少雲計算廠商作設計的時候,每每也會忽略這一點,其實性能的問題,比最高性能,來的更重要的多!很是漂亮的數字不能解決問題,可是出現一次性能不足,可能就引起故障。
第三點:安全「可控」。有沒有絕對的安全呢?理論上沒有,因此運維的同窗,總要花不少精力在系統安全上,好比控制哪些用戶能夠登陸系統環境?哪些用戶是能夠進行變動?哪些用戶甚至能夠拿到最高權限?測試和開發隔離,公司內外隔離,都是所以而生。只要可以控制權限的面積,範圍,就能知道風險,這即是所謂的安全「可控」。重要如上所示,可是正如一開頭所說,運維的內容至關繁雜,交付「可控」,變動內容「可控」,效率「可控」都是能夠值得深究的東西,所以,不管是「可視化」、「大數據」、「運維自動化」等等,都是在爲「運維可控」服務的。數據可視化,帶來的是規模可控;運維自動化,帶來的是效率可控風險可控,如是而已。每個點的提高,都是運維的提高,但願全部從事運維的同窗,都能感覺到,作什麼可讓「可控力」提高,不要再半夜的時候處理故障,不要和女友看電影的時候回公司處理故障,也許咱們再次遇到這些問題的時候,能夠拿起一杯茶,作一個優雅的運維。
web