運維管理的提高-2013

管理大型的、全天候的互聯網服務類、支持類以及運營類公司是一件艱苦的工做,須要運用到許多系統、人力以及跟蹤和支持服務,而且任務列表每一年都在增長。咱們使用許多開源工具以及內置系統來完成這些工做。web


咱們不斷地改進咱們的管理和系統,隨着2013年的結束,咱們最近增長了下列項目和系統。數據庫


專家級工程師 - 咱們的全天候核心支持團隊就是咱們的報警和請求(Alert and Request)工程師團隊,他們是一線支持人員,爲您提供全天候支持服務。之前,遇到他們沒法解決的特殊系統問題時,他們將問題提交到項目團隊以及系統全部人,以便解決問題。可是,如今咱們有了新的專家團隊,咱們這個團隊能夠提供更高級、更專業的諮詢以及特定的系統知識,因此,咱們能夠提供更快速的客戶服務。這樣,項目工程師團隊就不會過於忙碌,並且,咱們也有了更多的資源,能夠更快地提供實時支持服務。最近,咱們在下班後以及週末還提供此類服務,因此,咱們可以提供更快、更好的支持服務。安全


專家級系統 - 爲了可以持續地、系統地跟蹤事件,咱們爲此構建了一套完整的系統。在任務管理屏幕系統(Ticket Management Screen)中,咱們要求工程師以正確的格式填寫升級要求。咱們還採用獨立的電子郵件組來幫助咱們審覈事件、繼續跟蹤進程,這些均可以更好地組織好升級事件,極大地提升問題解決效率。服務器


全天候協調團隊 - 咱們組建了專門的全天候協調團隊,該團隊由專業的報警和請求協調員組成,他們負責對任務(ticket)進行跟進、跟蹤和審覈,而且還幫助工程師進行內部協調工做(升級/緊急流程/任務轉移等等。)以及外部通信工做(電子郵件/電話),以確保一切事件僅僅有條。作好運營工做是一件複雜的事情,天天都有許多事情同時發生,因此,協調團隊還要管控什麼時候開始和結束更新,也對事件順序進行管理,以確保提供優質的客戶服務。這些能夠更好地幫助支持團隊,提升整體效率和性能。網絡


NOTOPS - 咱們有一個新的運營情報(NOTOPS),它能夠給咱們的全天候團隊支持發出通知提醒,它能夠報告全部客戶問題、維護、IDC流程問題以及全部團隊成員所須要瞭解的一切其它必要問題。咱們的運營情報是根據飛行員的航空情報系統進行設計的,這個運營情報系統是一個自動化的系統,每次換班以及每次重大事件時,都會自動進行檢查。當有報警時,還能夠把該系統綁定到特定的服務器、歷史和跟蹤服務。ide


換班變動報告 - 做爲全天候運營服務,換班變動是一項挑戰,在信息傳遞、通知以及當前事件跟蹤方面的挑戰尤其明顯。咱們新增了新系統、自動檢查報表系統以及絕對管控交班流程系統,來提升對這一領域的控制力度。工具


新的夜班/週末升級流程 - 咱們改進了咱們的下班後的升級流程,使其能夠更好地調度以及開展角色訓練,而且爲這個流程配備了設備以及積極平常測試系統,咱們運用該系統對待命的工程師升級通信通道進行測試。咱們還採用新型電話跟蹤系統,以即可以報告並管理實際的電話流程,該系統極大地幫助了咱們處理調度和電話事件等問題。性能


緊急流程、工做日 - 新的緊急流程、團隊以及資源處於隨時待命狀態,以便解決關鍵問題,如宕機、服務器崩潰以及數據庫問題等等。若常規團隊沒法在短期內迅速解決問題,則發佈緊急事件,該事件將在5分鐘內迅速整合高級團隊、協調人員、通信人員以及工程師,使這些人員匯聚一堂,經過運用快速更新、故障排除以及修復流程等工具迅速解決問題。這個流程的最重要的特色是:客戶通信、團隊協調和高級技術支持。測試


新型24x7服務器QA - 咱們有一套嚴格的新型QA流程,能夠對全部將要投入生產(對於咱們而言是24x7)的服務器和系統進行檢查。該流程能夠確保這些服務器和系統已經達到了一切運營需求,尤爲是監控、文檔、訪問控制、日誌以及支持程序方面的需求。這能夠切實地保障初期投產順利運行,不只測試時間短、部署快,並且性能好、問題解決能力強。設計


新型設計系統 - 咱們最終啓動了咱們的大型500構件的新型服務器設計系統。該系統雖然仍舊是beta狀態,可是與咱們以前的系統相比,仍是改進了許多,包括一些關鍵特色,如模板和系統複製,爲咱們節省了許多時間,也減小了咱們犯錯的機會。它還有一個很是重要的驗證功能,能夠對關鍵參數如RAM或磁盤分配過分等問題進行檢查或交叉驗證,避免了許多新系統會發生的常見問題。在2014年,設計系統還將用於自動設置系統,以便直接根據設計自動構建新系統,而後進行QA檢查(在系統構建之時和以後都進行檢查)。


自動任務生成/自動任務關閉 - 咱們天天要處理500-1000個報警,雖然,咱們已經努力地減小報警量(經過咱們的ARP-報警減小程序),可是仍舊有許多工做要作,仍是會把許多事情搞混淆。咱們的新型的自動任務系統,能夠經過建立和分配不一樣類型的任務來減小咱們的工做量,並且自動關閉系統也能夠清除已經不存在的報警的任務。這樣,就確實地幫助了咱們的工程師和協調團隊,使他們至始至終能夠一直關注最關鍵的問題和報警。


培訓 - 咱們已經增長了新的報警/請求培訓,使其具備明確的新的分類和結構,以便更有序地隨時爲客戶提供支持。在2014年,咱們在這個方面更進了一步,在各個級別層次上都有了不一樣類型的支持工程師和認證服務,尤爲是包括了新的MySQL、亞馬遜AWS、安全、可靠性、工程師以及性能方面的內部認證。


關鍵問題審覈任務 - 爲防止相同問題重複發生,咱們始終幫助客戶解決問題。除了頻繁的報警ARP任務以外,咱們還啓動了重大問題審覈流程,咱們有經驗更豐富的工程師來審覈整個事件、發掘根本緣由、提供建設性解決方案、反映出咱們對客戶的價值。


新型AR得分/評估程序 - 咱們來了一名新的報警-請求團隊經理,擁有一個更先進、更有組織的程序能夠檢查並評估AR工程師工做績效,包括使用全部指標和數據分析報表,這樣,咱們能夠按期評估全部事項,以便發現問題所在,對系統進行改進。


CNC Zabbix 控制面板2 - 該面板誕生於2013年,是一款獨立的內部Zabbix 面板,能夠放置全部重要報警還可用於清理屏幕,有助於工程師和協調員把更多的精力主要放在實時問題和最重要的問題上。


PM屏幕 - 使用PM熒屏可以更好地記錄任務狀態,也可選擇性地同時更新許多任務以及搜索特定的任務。PM和協調員可使用該熒屏隨時增長任務的狀態,在平常營運晨會上也能夠增長任務的狀態,使會議時間縮短,這樣咱們即可更快地投入到平常工做中。


門戶新任務分配系統 - 爲了可以提升所有請求的處理效率,咱們經過在新系統中增長新特色的方法改善了任務的分配處理流程,使這個處理流程的功能更增強大,咱們還須要設計許多額外的處理程序,在2014年,該處理流程能夠完整地投入運營。


新型請求控制面板 - 咱們專門爲請求處理開發了獨具特點的控制面板,該面板與Zabbix的功能類似,極大地提升了協調團隊的工做效率,可以更有序地跟蹤和管理請求。


在2014年年初,將會有更多的變革,包括新增額外的僱員、24x7小時的培訓;更強的下班後的緊急處理流程包括24x7小時緊急羣客戶聊天工具;額外的支持通道如QQ和簡單聊天工具;新型自動構建系統和審計系統;配置跟蹤系統;更強的syslog處理和web/syslog分析工具;新型的網絡和防火牆配置;以及更多的其它工具。


( Authored by Steve Mushero | ChinaNetCloud CEO & CTO 本博客英文原文請點擊查看

相關文章
相關標籤/搜索