運維架構

一、運維團隊配置
運維團隊分爲:應用運維、系統運維、運維開發、監控運維、DBA團隊和安全團隊
團隊分工:
應用運維:負責支持線上業務,各自會負責對應的業務線,主要職能是保證線上業務穩定性和同開發共同支撐對應業務,以及線上服務管理和持續優化。
運維開發:幫助運維提高工做效率,開發方便快捷的工具,實現運維平臺化自動化。
系統運維:負責操做系統定製和優化,IDC管理和機器交付,以及跳板機和帳號信息管理。
監控運維:負責發現故障,並第一時間通知相關人員,及時處理簡單故障和啓動降級方案等。
二、總體架構
雙機房結構,A機房主跑線上業務,B機房跑測試環境和大數據處理做業,有hadoop集羣、日誌備份、災備降級應用等。
用戶引導層用的是第三方的智能DNS+CDN。
負載均衡首先是LVS作的4層負載均衡以後是tengine作的7層負載均衡。再日後是varnish作的頁面緩存以後請求到web端,web端經過內部協議調用service(RPC)。
圖片存儲用的是mogileFS分佈式存儲 。
全部業務,所有有高可用方案,應用所有是至少2臺以上。
運維監控是從4個維度來作的:
業務層面,如線上業務每秒訪問數,每分鐘支付、建立訂單等(cat)。
應用層面,每一個應用的錯誤數,調用過程,訪問的平均耗時,最大耗時,95線等(cat)。
系統資源層面:如cpu、內存、swap、磁盤、load、主進程存活等 (zabbix)。
網絡層面: 如丟包、ping存活、流量、tcp鏈接數等(zabbix cat)。
三、運維繫統介紹
咱們運維的理念是:
能用程序幹活的,堅定程序化、平臺化;
能用管理解決的問題,不用技術解決;
同一個錯誤不能犯三次;
每次故障,都是學習和提高的機會;
每一個人都要有產品化思惟,作平臺產品讓開發走自助路線;
小的,單一的功能,組合起來完成複雜的操做(任務分解);
因此,咱們將本身的理念,融入到本身的做品中,作出了不少工具。
首先總體作個說明,運維工具系統彙總:
全方位監控系統:覆蓋業務、應用、網絡、系統等方面,作到任何問題,均可直觀反饋。對不一樣應用等級,作到不一樣監控策略和報警策略。
自動化工具系統:對重複的、容易出錯的、繁瑣的工做盡量工具化,經過小的策略組合,完成大的任務。
自動化工具系統:對重複的、容易出錯的、繁瑣的工做盡量工具化,經過小的策略組合,完成大的任務。
記錄和分析系統:對發生的問題和數據作記錄並分析,不斷的總結、完善和提高。
3.1 全方位監控系統
Zabbix
業務監控 應用監控 日誌掃描
3.2 自動化工做系統
Workflow流程系統
Button是一套代碼管理、打包、部署上線系統
Go平臺系統,是一套運維操做系統,其中包含了不少常規操做、如批量重啓、降級、切換、上下線、狀態檢測等
任務調度系統
3.3 配置和管理系統
Puppet配置管理系統
SLB軟負載均衡管理系統
Zookeeper應用配置管理系統
3.4 記錄和分析系統
DOM運營質量平臺
雷達系統
主要目標是實現平臺規範化、運維高效化、開發自主化




相關文章
相關標籤/搜索