運維指的是互聯網運維,屬於技術部門,與研發、測試、系統管理同爲互聯網產品技術支撐的4大部門,這個劃分在國內和國外以及大小公司間都會多少有一些不一樣。一個互聯網產品的生成通常經歷的過程是:產品經理、需求分析、研發部門開發、測試部門測試、運維部門部署發佈以及長期的運行維護。運維的職責覆蓋了產品從設計到發佈、運行維護、變動升級及至下線的生命週期,各個階段的職責包括
(1) 產品的業務熟悉;
(2) 產品架構設計的合理性評估,包括是否存在單點,是否可容錯,是否有強耦合等,同時須要提供產品設計的合理性建議以使產品可以知足上線發佈並穩定運行的基本要求;
(3) 資源評估,包括所需的服務器資源、網絡資源以及資源的分佈等,同時把相關產品對資源預算申請的合理性,控制服務成本;
(4) 資源就位,將申請的服務器及基礎環境/域名準備就位。
產品發佈階段運維工程師負責發佈的具體工做,將具體的軟件和系統/硬件資源整合造成產品並對外提供服務器
(5) 監控:對服務運行的狀態進行實時的監控,隨時發現服務的運行異常和資源消耗狀況;輸出重要的平常服務運行報表以評估服務/業務總體運行情況,發現服務隱患;
(6) 故障處理:對服務出現的任何異常進行及時處理,儘量避免問題的擴大化甚至停止服務。這以前運維工程師須要針對各種服務異常,如機房/網絡故障、程序bug等問題制定處理的預案,問題出現時能夠自動或手動執行預案達到止損的目的。除了平常小故障外,運維工程師還須要考慮產品不一樣程度受損狀況下的災難恢復,包括諸如地震等不可抗力致使大規模機房故障、在線產品被刪除等對產品形成致命傷害的狀況。
容量管理:包括服務規模擴張後的資源評估、擴容、機房遷移、流量調度等規劃和具體實施。
產品對外提供服務最重要的一點是用戶體驗,用戶體驗中很是重要的是產品的可用性和響應速度。而如何用最合理的資源(如機器、帶寬等)支持產品提供高可用和高速度的用戶體驗,這也是運維工程師的重要職責。
發展良好的互聯網產品將始終在線對外提供服務,但互聯網產品快速迭代,也存在至關多孵化的產品最後被淘汰的狀況,這些產品都須要作下線處理,這個過程運維工程師主要作好資源回收的工做,將機器/網絡等資源回收後歸入資源池中供其它服務使用。網絡
這些基本就是運維工程師的職責了 架構