回顧2013——新的旅程

2013年已經成爲過去,這一年裏實現了對本身的承諾, 1月份從w公司辭職,4月份進入q公司廣州研發團隊,成爲a項目中的一名業務運維人員。箇中有再找工做的迷茫、剛到新崗位時的不適應,也有工做中發現問題、解決問題的喜悅和伴隨產品迅速成長的成就感。在此記錄下2013年工做、學習經歷的點滴,與你們分享。python

 

新的開始程序員

a是一個快速發展中的移動端IM項目,服務器側是一個分佈式RPC框架,用戶量迅速增加、版本不斷迭代更新給產品運營帶來了很大的挑戰,如下是a項目中業務運維的主要工做內容:算法

  • 環境搭建與維護:分配、部署、下線機器,維護機器列表,保持設備正常運做
  • 配置管理與維護:調整、維護RPC框架中svr、cli端配置,運用zookeeper等工具進行管理
  • IDC與容災建設:多IDC建設,以方便各地區用戶就近接入;IDC內機房間設備熱備,方便出災時屏蔽與切換
  • 容量管理:根據用戶增加,IDC間用戶遷移、節日(中秋/聖誕/元旦/除夕消息量會大增)等因素調整IM系統內各模塊容量
  • 故障處理:故障恢復、優化措施跟進

另外還有域名管理、接入點測速/加速、新功能模塊支持、程序起停/監控等。相比以前的系統運維,業務運維工做不但要求熟悉Linux系統、shell/python等各類工具,還須要熟悉各項業務流程,甚至須要瞭解業務代碼,方便在故障時迅速定位問題。shell

 

運維工做中常常有涉及整個模塊甚至全網的變動操做,一些操做稍有不慎,就有可能影響一塊重要業務。a項目中Leader給予新人充分信任,新員工到崗不久後就會安排比較重要的任務。剛來的一段時間,因爲不熟悉各項流程、急於完成任務,我也有幾回誤操做,引發幾回不小的故障,當時壓力山大。服務器

後面逐漸調整心態、放慢節奏,在每項操做前先了解、學習,「涉及到哪些模塊,可能會影響哪些功能,實現原理是什麼,是否是必定要這樣操做」,本身先琢磨一番,遇到不懂的就問,這樣每次操做都變成了一次學習的過程。網絡

 

明晰了變動內容、可能出現的負面效果,內心也有底一些,但即便事前作好萬全準備,操做過程當中可能還會出現問題,又或操做結果不符合預期。這要求咱們不但操做前要進行檢查,還要操做時灰度(先變動幾臺機器,沒問題再上到全網),灰度過程當中觀察監控數據,當監控數據異常時,及時回退變動、調整操做方法。架構

 

多思考、多總結,不能一味求快,熟悉了,效率天然就上來了。不論作什麼工做,從事什麼行業,我想都是這個道理吧。框架

 

運營再認識運維

以前在w公司雖然乾的是運維崗位,但只須要關注操做系統和一些中間件軟件,不涉及業務,於是對業務運營的瞭解比較少。進入a項目以後,認識到運營工做對項目持續穩定運做,起到很是關鍵的做用。研發系統中,運營崗位包括運營開發/業務運維/資源管理崗/QA/客服,業務運維的工做內容在前面已有說明,下面說說運營開發和資源管理崗的工做職責。分佈式

 

運營開發崗負責監控、告警、部署系統、變動系統等各類系統的開發和維護,這些系統支撐着整個運營體系。面對a項目海量的日誌和數據上報,面對迅速增加的設備規模,面對這幫更挑剔的程序員「客戶」,運營開發同窗的開發任務並不輕鬆,每一個系統還須要考慮各類問題:

  • 監控:如何收集/保存/容災程序上報的數據,業務數據、模塊數據、單機數據如何關聯又如何方便地展現,如何表現RPC框架中各模塊的調用關係;除業務數據外,專線網絡質量、機器狀態(是否是死機/能不能正常服務)、單機資源(cpu/內存/磁盤等)又怎樣進行監控
  • 告警:各個功能的業務數據有其本身的特色,如何設計告警算法,使得告警更準確;如何收斂相同緣由引起的告警;如何對重要性不一樣的業務區分告警緊急程度;如何讓報警報給應該接收這條報警的同窗
  • 部署系統:一臺機器由分配、部署(中途可能停止)到上線,中間涉及很多狀態轉換,部署好的機器要保證系統正確地初始化、程序依賴的各項配置齊全、服務已被正常拉起;一臺服務中的機器也可能被下線,機器歸還資源池前須要停掉服務、清理與該服務相關的文件
  • 變動系統:提供批量修改配置、配置修改先後對照/校驗、快速發佈配置/程序、變動灰度發佈、變動回退等功能

a項目中業務監控、告警已經作的比較完善,有功能點出現異常,10分鐘內就有報警出來。

 

身處迅速發展中的業務,資源管理同窗也須要承擔很多工做:

  • 設備管理:包括機器選型(接入/邏輯/存儲各模塊應該用什麼配置的機器)、各IDC機房管理、設備分配與回收
  • 操做系統維護:Linux系統版本維護與更新、虛擬機選型與部署
  • 成本管理:包括設備租金、短信成本、寬帶流量費用等
  • 寬帶流量管理:如何避免穿越流量問題,如何對專線作流量監控,專線如何容災

設備分佈和帶寬資源狀況影響着總體系統架構;爲節約設備、下降流量費用,須要不斷尋找架構和程序的優化點,於是資源管理崗的工做也與開發工做緊密相關。

 

你能夠作得更好

畢業後至今有兩年半時間,如今的工做與上一份工做相比,節奏更快,工做到零點之後也是常有的事情,也曾一度懷疑本身能不能勝任這份工做,以爲壓力很是大,但一路堅持下來,感受都是值得的。勇於跳出溫馨區的、樂於折騰本身的人,我想不少是爲了獲得精神上的知足,借用美劇《絕命毒師》中的一句臺詞:

 

如今算是實現了畢業後對本身的承諾,遇上移動互聯網這波浪潮,而且在國內一流的IT團隊,作着一項很是有意義的事。這時我問本身:下一步是什麼?

我想這個答案會是:你能夠作得更好。

 

2014年,但願更多地瞭解業務流程和熟悉業務代碼,更多地瞭解各類庫方法和框架實現原理,更多地思考總結和積累沉澱。

2014年,將有哪些變化,又會有哪些機遇與挑戰呢?期待 !

相關文章
相關標籤/搜索