關於監控系統的一些想法(來自深空老大)

在騰訊近三年,不少人覺得我在作Qzone,其實兩年多我都在作內部系統:運營相關的工具、監控、數據分析等。雖然我一直但願能有機會接觸高負載應用的開發,對比內部系統的二三十我的的最高同時在線(這已是一種突破),可能幾百萬同時在線更會讓人激動,可是兩年多來的積累和收穫也是頗爲豐富的。 最近的重點在於實時監控分析系統的設計,主要目標是分析衆多的數據,在最短的時間內最準確的定位問題根源,可是一直很迷茫,那麼多數據的錯綜複雜關係,維度不一樣,力度可能也不一樣,業務關係更不必定在同一個點上……一時很難有頭緒來作這件事情。個人初步想法是先把這些數據所有放在一塊兒看,先根據業務邏輯關係放在一塊兒,從總體上看監控情況分佈,就像Google地圖,縮小能夠看整體,放大能夠看局部細節,可是一堆問題接踵而來。其中包括數據量太大數據獲取緩慢,節點衆多關係複雜難以放在一塊兒(這個問題已經解決),因爲目前都是B/S架構,因此頁面渲染大數據量根本響應不過來。雖然能夠縮小範圍來減小數據量,可是如何作呢?我很想知道Google如何處理上百萬臺設備和衆多業務自身監控的,更甚是預警等。可能咱們如今的業務關係比較亂,沒有Google那麼單一規範,可是畢竟咱們的設備要少不少,總會有些折衷的方案,一步步來。只不過有時候時間不等人。 想找些人交流,可是發現交流的人基本上能夠說是沒有,我想不多人作相似的東西吧,即便有也不認識,誰會知道我也在作這些東西,誰會來指點一下我呢,呵呵。若是一直停留在人肉的問題分析,那麼人力將會隨着設備量增加而增加,這些批量的東西,交給機器來搞是必然的。單點監控咱們可能已經作到了,可是綜合分析呢?誰有魄力邁出這一步? 其實我不多在公開博客上寫關於本身工做內容的東西,主要是擔憂和商業機密有關,呵呵。不過如今看來仍是要多交流多取經,才能更快進展。也但願有相關經驗的朋友能提供一些思路。
相關文章
相關標籤/搜索