開源監控軟件 Zabbix 和 Nagios 究竟哪一個更好?Zabbix 可視化更好?Nagios 更輕量?做爲產品經理程默的一名默默無聞的小粉絲,以爲頗有義務把他的回答編輯整理出來讓你們看到。下面是程默在知乎上的回答,經本人贊成轉載。html
首先,提醒一下你們。下面的內容,有可能會被認爲是廣告,由於我推薦的是我本身作的一款產品:Cloud Insight. 可是,在對比 Zabbix 和 Nagios 的時候,我以爲有些東西仍是值得拿出來討論一下的。第一個就是上文 Wenx 提到的:沒有更好,只有更適合吧。是否須要使用 Zabbix 或者 Nagios 都是能夠拿出來討論討論的。在人員不夠、經驗不足、時間很緊的狀況下,有必要使用 Zabbix 或 Nagios 這樣很重的解決方案嗎?Zabbix 和 Nagios 相繼出如今 1998 年和 1999 年,通過歷史的發展和迭代,以及社區中不少程序員的貢獻,已經發展得很強大了。咱們 OneAPM 公司初期也是使用 Zabbix 來作全部雲主機和物理主機的監控。可是後期遇到了不少大的麻煩:ios
既然監控是爲了解決實際的問題,若是想要找到本身最適合的運維監控工具,我推薦一些還在觀望 Zabbix 和 Nagios 的初創團隊,能夠試一試 Cloud Insight。程序員
##All in One 這個概念就像 esty 當年發佈 statsd 寫的文章同樣:Measure Anything, Measure Everything。系統監控工具若是可以作到 All in One,那真的能夠解決人力和時間成本上的問題。說到這個就得提提 statsd。statsd 是 Flickr 公司獨創,後來由 Esty 公司重構的一個輕量級的指標採集模塊。也就是說操做系統、不一樣數據庫、不一樣的中間件 ,均可以經過它來採集指標,而且上傳至 Graphite 這些用於可視化 & 存儲的組件中。不瞭解的人,能夠讀讀 Measure Anything, Measure Everything。如今不少公司都開始使用了這樣的工具,來搭建本身的運維監控系統了。國外也出現了基於 statsd 的公司:Boundary Datadog 等等。如下是他們的網址:數據庫
國外這些公司就是爲了提供一個一體化的解決方案: 如何集成不一樣的操做系統、數據庫、中間件監控的問題,你不須要擔憂,用就好了。運維
##數據只讀和數據管理 就像上文提到的,數據只讀是 Zabbix 一個比較大的痛點:根本發現不了什麼問題。因此國內的淘寶、小米都開始使用時間序列數據庫,來解決這個事情;工具
可以對數據對切片、聚合,而且使用一些數值計算,可以更快地解決問題。拿 Docker 來講,不一樣的 Container 的 CPU 消耗,這個需求就很常見。標籤信息在時間序列數據庫中的做用,就是爲了解決這個需求。那麼計算是什麼意思呢?相信動態門限的告警、對某些數值浮動較小的數值求 log 這些需求在實際運維場景中也是很常見的。學習
而這些時間序列數據庫均可以幫你作到。阿里雲
##Cloud Insight操作系統
Cloud Insight 就是國內利用 statsd 和 OpenTSDB 實現的一個一體化的解決方案(免費但不開源)。樓主提出這個問題, 我猜測是公司內部有人對於 Zabbix 和 Nagios 不是很熟悉,不知道前方有什麼坑。 那麼,在人員的經驗不足的前提下,也沒有時間去試錯。因此建議使用下 Cloud Insight 進行快速試錯,也看看新的技術發展是否可以更好地知足本身的需求。最後是上幾張產品截圖:code
總的來講,不建議創業團隊或者初創公司,在人員不足的狀況下,使用 Zabbix 和 Nagios(成本實在過高)。卻是可使用國外的這種方法: ######輕量級的探針採集數據(Statsd)+ 時間序列數據庫(運算)+ 展示端(Grafanna) 或者使用 Cloud Insight,來解決。
開源監控軟件愈來愈在互聯網技術領域佔據重要位置,開源監控軟件之間的戰爭也早已打響,若是還在觀望究竟 Zabbix 和 Nagios 哪一個更好,而且對這件事猶豫不決束手無策,不妨眼觀六路,瞭解一下國內的淘寶、小米都開始使用時間序列數據庫監控方法,嘗試一下 OpenTSDB、Open-Falcon 或者學習成本和使用成本都很低,功能卻很強大的新產品 Cloud Insight 也何嘗不可。