網站常常崩潰,企業應該如何作好監控?

近些年,咱們的生活因互聯網發生了翻天覆地的改變。從搜索引擎到即時通信,從電子購物再到文化娛樂,從吃飯住宿到旅遊出行,互聯網已經滲透到咱們生活的方方面面。但網站、應用崩潰的事情彷佛天天都在發生,並且節假日發生系統崩潰的概率更高。html

國慶後第一天上班,深圳市政府的網站所有淪陷。特別是近些年網站崩潰的問題,彷佛時刻都在發生,並且不少都是直接影響民生的重要機構,好比今年6月25日,黑龍江高考查分通道網站崩潰;4月15日,河南沁陽市政府官網訪問激增後臺崩潰;2014年11月27日,12306網站崩潰3小時;2014年2月26日,北京小客車搖號指標系統網站崩潰......ios

究其緣由,很大層面是由於咱們當下的互聯網環境已經變得異常複雜,網絡、服務器、操做系統,還有應用及組件均可能致使網站崩潰問題。即便咱們投入大量的人力物力,作了不少細緻的保障工做,也不免7×24小時100%地保證網站的正常運轉。那麼,如何高效地利用互聯網資源來實時完成線上的監控工做,已經成爲企業運維人員最爲關注的話題。數據庫

內部服務端監控和外部業務可用性監控

通常而言,企業監控的維度主要分兩個方面:內部服務端監控和外部業務可用性監控。針對內部服務端監控,不少公司採用Zebbix、Nagios、Prometheus、Smokping、Grafana、Cacti、PageDuty等工具進行綜合性的數據採集。而分析內容主要包括網絡、操做系統、中間件、應用、數據庫等等。從必定意義上講,內部的監控體系創建的越完善,出現服務問題的機率就越低。後端

可是,內部監控體系只是解決了內部網絡及服務端的問題,當外部訪問監控缺失時,偶發性的故障就會出現,稍有疏忽就會出現相似假日期間網站不能訪問的問題。如何有效地杜絕真實用戶外網訪問的異常問題,及時發現系統故障呢?咱們首先從如下幾個問題分析故障產生的一些常見緣由,同時也會給出一些建議:瀏覽器

網絡擁塞丟包率高

形成網絡擁塞造丟包率高、網絡包重傳頻繁的緣由,通常來講主要是路由器入口帶寬被大量佔用網絡資源不足形成的。併發用戶容量評估不充分應用系統訪問量太高時,致使網絡接入帶寬超載,每逢節假日不少票務網站流量激增,都會出現相似問題,像汽車搖號網站就會出現週期性高峯值阻塞的現象。安全

建議:網站接入帶寬作好充分預估,建議外網接入入口根據歷史同比數據,提早作好資源擴充準備。若是帶寬擴充較困難,建議網絡層入口作好限流準備,保證已鏈接用戶的業務穩定性。服務器

服務端內存泄漏

服務端有較嚴重Bug,當系統長時間使用時會出現細碎的內存泄漏。通常來講,出現此類問題的主要緣由是應用長時間穩定性測試,沒有進行驗證或驗證的不充分。因此當系統長時間使用過程當中,內存資源就會耗盡,最終致使應用崩潰。微信

建議:在系統投產前,咱們建議在外部網絡進行超過72小時的穩定性測試,保證寫入數據和生產一個月左右的數據量相同。主要觀察應用系統是否能夠正常釋放資源,持續穩定的提供服務,若有問題儘早發現儘早解決。網絡

外網DNS劫持

DNS劫持又稱域名劫持,是指在劫持的網絡範圍內攔截域名解析的請求,把真實IP地址映射爲虛假IP地址,從而達到讓訪問用戶分流到虛假的網站。最終目的是分流用戶後從事一系列的非法行爲,如盜取用戶帳號,獲取用戶的隱私信息等。DNS劫持已經超出了內部監測的範疇,應用服務提供商通常沒法阻止或控制影響範圍。併發

建議:採用多域名接入方式,接入域名的解析服務依託兩家以上的服務提供商;採用分佈式DNS監測服務,按期監測服務器DNS解析的效率創建完善的DNS白名單,出現異常訪問時,及時進行告警。

業務系統故障

致使業務系統故障緣由不少,如系統作大範圍更新時,參數配置錯誤致使用戶地址跳轉到非指定地址,雖然HTTP返回碼正確,但業務卻沒法訪問;業務系統的部分模塊異常,致使局部業務沒法正常訪問。如某個證券公司把生產地址配置成了測試庫地址,致使用戶數據所有被污染,交易正常可是業務數據所有錯誤。通常來講,這樣的問題若是沒有外部訪問監測系統很難被發現,監控過程當中須要實時分析服務端返回數據,進而判斷業務是否正常。

其實,在系統投入生產前,咱們建議從如下幾個維度提早考慮應用系統的穩定性及性能問題:

  • 網絡入口帶寬是否充足?
  • 外網應用系統是否使用CDN加速將靜態資源與業務應用分離?
  • 網絡負載均衡是否配置合理,是否可以完成動態的容量擴充?
  • 操做系統及應用參數是否作了針對應用系統的局部或全局優化?
  • 數據庫是否使用讀寫分離,提升了用戶訪問時的併發性能?
  • 數據庫SQL語句是否作過深度調優?
  • 應用系統是否能夠經受3-5倍以上的併發用戶壓力?
  • 應用系統是否支持動態擴容,擴容效率在5分鐘之內完成?

若是在系統上線的測試階段已經作到了以上內容的檢查和優化,那麼系統已經進入了一個比較良性的健康工做狀態。接下來的工做就能夠進入到線上運維的監控期,而針對線上運維監控,建議監控以下的內容:

  • 基礎網絡監控:延時、抖動、丟包、平均響應時間、上傳速率、下載速率;
  • DNS監控:解析時間、解析正確、匹配正確、可用性、錯誤率;
  • CDN監控:總響應時間、重定向時間、DNS時間、創建鏈接時間、SSL時間、後端響應時間、內容下載時間、可用率、錯誤率、下載速度、下載文件大小;
  • API監控:可用性、平都可用率、加載時間、不可用錯誤率、運營商指標、錯誤分類(鏈接超時、響應超時、鏈接失敗、鏈接被斷開)、監控閾值設定;
  • 事務監控:可用性、可用性區域、加載時間、不可用錯誤率、運營商指標、請求詳細信息分析、監控閾值設定;
  • 業務可用性監控:業務響應時間、業務發送速率、業務接收速率、業務成功率、業務失敗率、不一樣區域的業務運行狀態、業務數據錯誤詳細分析等。

綜上所述,監控系統的核心要求就是可以及時對異常數據進行報警,以及對大量數據的秒級收集、分類、分析和展現。所以多維的通知體系和智能的告警通知是保證業務正常持續運行的重要環節。

做爲國內領先的 IT 運維管理軟件廠商。OneAPM始終秉承「讓運維更加智能」的企業使命,致力於爲中國的企業級用戶提供一體化的智能運維解決方案。而業務監測平臺CT就可以很好的幫助企業實現7*24小時監控網站,真正爲企業提供高效、穩定的智能運維管理服務。 業務質量監測平臺核心功能介紹

Ping監控:可以記錄全國各個監控點訪問服務的網絡平均響應時間、可用性以及丟包率。

DNS監控:可以實時記錄全國的監測點訪問DNS服務器性能狀態信息,包括平均響應時間、解析錯誤、DNS劫持狀態等等,能夠從運營商、地域信息不一樣維度進行數據分析。

CDN監控:主要指標包括平均響應時間、可用率、內容加載時間,錯誤監控信息主要包括HTTP錯誤、網絡故障、訪問超時等錯誤,業務質量監測平臺可以智能分析CDN節點信息運行狀態,自動白名單過濾功能可最大限度避免CDN被劫持修改,保證了外部用戶訪問系統的安全性。

API監控:監控全國區域調用API接口的平均響應時間、可用率、網絡鏈接時間、錯誤率等信息。若是在 API 監控的結果裏設置了匹配響應碼,就會進行響應碼內容比對操做,當響應碼不匹配時就會在應答監控中提示錯誤,有效的監控了接口的實時可用性。

事務監控:使用XUL和XPCOM技術及對應組件進行開發,業務質量監測平臺經過模擬瀏覽器,記錄用戶訪問過程當中的操做行爲,最終將採集數據整合,保存爲運行腳本。腳本記錄用戶在瀏覽器中操做的一系列流程,事務監測過程當中可調用不一樣區域的全國節點模擬用戶的真實訪問,記錄每一個步驟的成功失敗狀態和響應時間。

業務可用性監控:可經過錄制或手工編寫業務腳本的方式,生成真實用戶端的全流程業務監測腳本,經過線上多監測點測試生產系統的可用性,監測內容包含業務響應時間、業務吞吐量、業務成功率、業務失敗率、錯誤詳情等信息,詳情分析頁經過服務端的返回報文監測匹配功能可一鍵定位系統錯誤的真實緣由。

報警設置:全部業務類型都可設置報警閾值,閾值內容包括平均響應時間、可用性、錯誤類型等信息,當監測數據符合告警閾值時,告警數據可經過郵件、短信、微信、語音等多種通知方式實時通知運維人員,有效下降處理問題時間窗口,最大限度的下降企業損失。

總結

總的來講,業務質量監測平臺可以實現鏈路級、業務級的主動探測功能,同時可以按時、按需、按地域的定製化監控內容。此外,豐富的閾值設置也便於企業實現靈活、動態、全天候的監控管理,真正作到快速定位問題,精準分析故障,同步推送告警的一體化模式。

值得一提的是,通過近10年的技術積累與沉澱,OneAPM公司的產品和服務在運營商、金融、政府、互聯網、教育、能源、交通、軍工等多個行業得到了普遍應用和一致好評,目前擁有企業客戶超過1000多家,包括中國移動、中國電信、李寧、上汽集團、太平洋保險、國家電網、優信二手車、福田汽車、長城汽車、中泰證券、銀信財富等等。

相關文章
相關標籤/搜索