目的:
在Zabbix負載時提供排查思路及處理方法(主要講解調整配置參數)數據庫
處理負載的方式:
禁用異常監控及使用Zabbix客戶端主動方式、調整zabbix配置參數、告警收斂(去除不必的告警,以及避免告警風暴)、硬件更新服務器
建議:
不使用zabbix管家清理歷史數據與趨勢數據,數據量大時,zabbix管家數據清理會直接致使zabbix崩潰; 可以使用數據庫表分區的方式,把對應的數據分爲多個分區逐個清理app
背景:
隨着公司體系加大,使用zabbix監控的機器愈來愈多,主機部分指標時延愈來愈大,1mà5mà10mide
一、檢查zabbix隊列,查看是否存在5m以上的隊列,查看細節確認哪些主機致使隊列,有隊列則繼續下一步(若無隊列,界面操做過慢,可使用IOSTAT檢查數據庫IO狀況)性能
二、查看對應的主機,是否監控狀態異常,狀態正常則繼續下一步(若是異常:把主機禁用,過幾分鐘後查看隊列是否消失)server
三、手動在zabbix採集服務器上使用zabbix_get命令獲取界面無數據的指標,正常獲取則繼續下一步(若異常,根據報錯進行處理問題)
zabbix_get –s 客戶端IP –k 鍵值 blog
四、目前能夠判斷,數據是能夠正常獲取,但經過客戶端推送時,數據響應時間過長(客戶端agent可配置超時時間默認3s,可配置30s,修改後數據還是前面的狀況,則繼續下一步),致使界面沒法顯示;
在圖形功能找到zabbix的自身監控,查看」Zabbix cache usage.% free」 隊列
在圖形中,咱們能夠看到zabbix自身的性能已達到負載,超過預約閾值,咱們能夠經過調整zabbix-server配置文件參數,加大zabbix性能
StartPollers=160
StartPollersUnreacheable=80
StartTrappers=20
StartPingers=100
StartDiscoverers=120
Cachesize=1024M
startDBSyncers=16
HistoryCacheSize-1024M
TrendCacheSize=1024M
HIstoryTextCacheSize-512M
重啓zabbix-serverget
五、調整參數後,發下zabbix數據採集恢復正常,隊列消失it