近些年,咱們的生活因互聯網發生了翻天覆地的改變。從搜索引擎到即時通信,從電子購物再到文化娛樂,從吃飯住宿到旅遊出行,互聯網已經滲透到咱們生活的方方面面。但網站、應用崩潰的事情彷佛天天都在發生,並且節假日發生系統崩潰的概率更高。html
國慶後第一天上班,深圳市政府的網站所有淪陷。特別是近些年網站崩潰的問題,彷佛時刻都在發生,並且不少都是直接影響民生的重要機構,好比今年6月25日,黑龍江高考查分通道網站崩潰;4月15日,河南沁陽市政府官網訪問激增後臺崩潰;2014年11月27日,12306網站崩潰3小時;2014年2月26日,北京小客車搖號指標系統網站崩潰......ios
究其緣由,很大層面是由於咱們當下的互聯網環境已經變得異常複雜,網絡、服務器、操做系統,還有應用及組件均可能致使網站崩潰問題。即便咱們投入大量的人力物力,作了不少細緻的保障工做,也不免7×24小時100%地保證網站的正常運轉。那麼,如何高效地利用互聯網資源來實時完成線上的監控工做,已經成爲企業運維人員最爲關注的話題。數據庫
通常而言,企業監控的維度主要分兩個方面:內部服務端監控和外部業務可用性監控。針對內部服務端監控,不少公司採用Zebbix、Nagios、Prometheus、Smokping、Grafana、Cacti、PageDuty等工具進行綜合性的數據採集。而分析內容主要包括網絡、操做系統、中間件、應用、數據庫等等。從必定意義上講,內部的監控體系創建的越完善,出現服務問題的機率就越低。後端
可是,內部監控體系只是解決了內部網絡及服務端的問題,當外部訪問監控缺失時,偶發性的故障就會出現,稍有疏忽就會出現相似假日期間網站不能訪問的問題。如何有效地杜絕真實用戶外網訪問的異常問題,及時發現系統故障呢?咱們首先從如下幾個問題分析故障產生的一些常見緣由,同時也會給出一些建議:瀏覽器
形成網絡擁塞造丟包率高、網絡包重傳頻繁的緣由,通常來講主要是路由器入口帶寬被大量佔用網絡資源不足形成的。併發用戶容量評估不充分應用系統訪問量太高時,致使網絡接入帶寬超載,每逢節假日不少票務網站流量激增,都會出現相似問題,像汽車搖號網站就會出現週期性高峯值阻塞的現象。安全
建議:網站接入帶寬作好充分預估,建議外網接入入口根據歷史同比數據,提早作好資源擴充準備。若是帶寬擴充較困難,建議網絡層入口作好限流準備,保證已鏈接用戶的業務穩定性。服務器
服務端有較嚴重Bug,當系統長時間使用時會出現細碎的內存泄漏。通常來講,出現此類問題的主要緣由是應用長時間穩定性測試,沒有進行驗證或驗證的不充分。因此當系統長時間使用過程當中,內存資源就會耗盡,最終致使應用崩潰。微信
建議:在系統投產前,咱們建議在外部網絡進行超過72小時的穩定性測試,保證寫入數據和生產一個月左右的數據量相同。主要觀察應用系統是否能夠正常釋放資源,持續穩定的提供服務,若有問題儘早發現儘早解決。網絡
DNS劫持又稱域名劫持,是指在劫持的網絡範圍內攔截域名解析的請求,把真實IP地址映射爲虛假IP地址,從而達到讓訪問用戶分流到虛假的網站。最終目的是分流用戶後從事一系列的非法行爲,如盜取用戶帳號,獲取用戶的隱私信息等。DNS劫持已經超出了內部監測的範疇,應用服務提供商通常沒法阻止或控制影響範圍。併發
建議:採用多域名接入方式,接入域名的解析服務依託兩家以上的服務提供商;採用分佈式DNS監測服務,按期監測服務器DNS解析的效率創建完善的DNS白名單,出現異常訪問時,及時進行告警。
致使業務系統故障緣由不少,如系統作大範圍更新時,參數配置錯誤致使用戶地址跳轉到非指定地址,雖然HTTP返回碼正確,但業務卻沒法訪問;業務系統的部分模塊異常,致使局部業務沒法正常訪問。如某個證券公司把生產地址配置成了測試庫地址,致使用戶數據所有被污染,交易正常可是業務數據所有錯誤。通常來講,這樣的問題若是沒有外部訪問監測系統很難被發現,監控過程當中須要實時分析服務端返回數據,進而判斷業務是否正常。
其實,在系統投入生產前,咱們建議從如下幾個維度提早考慮應用系統的穩定性及性能問題:
若是在系統上線的測試階段已經作到了以上內容的檢查和優化,那麼系統已經進入了一個比較良性的健康工做狀態。接下來的工做就能夠進入到線上運維的監控期,而針對線上運維監控,建議監控以下的內容:
綜上所述,監控系統的核心要求就是可以及時對異常數據進行報警,以及對大量數據的秒級收集、分類、分析和展現。所以多維的通知體系和智能的告警通知是保證業務正常持續運行的重要環節。
做爲國內領先的 IT 運維管理軟件廠商。OneAPM始終秉承「讓運維更加智能」的企業使命,致力於爲中國的企業級用戶提供一體化的智能運維解決方案。而業務監測平臺CT就可以很好的幫助企業實現7*24小時監控網站,真正爲企業提供高效、穩定的智能運維管理服務。 業務質量監測平臺核心功能介紹
Ping監控:可以記錄全國各個監控點訪問服務的網絡平均響應時間、可用性以及丟包率。
API監控:監控全國區域調用API接口的平均響應時間、可用率、網絡鏈接時間、錯誤率等信息。若是在 API 監控的結果裏設置了匹配響應碼,就會進行響應碼內容比對操做,當響應碼不匹配時就會在應答監控中提示錯誤,有效的監控了接口的實時可用性。
總的來講,業務質量監測平臺可以實現鏈路級、業務級的主動探測功能,同時可以按時、按需、按地域的定製化監控內容。此外,豐富的閾值設置也便於企業實現靈活、動態、全天候的監控管理,真正作到快速定位問題,精準分析故障,同步推送告警的一體化模式。
值得一提的是,通過近10年的技術積累與沉澱,OneAPM公司的產品和服務在運營商、金融、政府、互聯網、教育、能源、交通、軍工等多個行業得到了普遍應用和一致好評,目前擁有企業客戶超過1000多家,包括中國移動、中國電信、李寧、上汽集團、太平洋保險、國家電網、優信二手車、福田汽車、長城汽車、中泰證券、銀信財富等等。