鄭昀 最後更新於2015/1/29
知己知彼,百戰不殆,瞭解一下過去那幾年咱們所經歷過的各類不可抗離奇事件吧。html
咱們一而再再而三地跌倒在IDC機房空調機組腳下,那幾年每一年夏天都過得提心吊膽,每次望見漫天楊絮都憂心忡忡。前端
回顧一下歷史:瀏覽器
2011年5月6日緩存
15點~18點,我司所在的世某某聯廊坊IDC機房,空調故障,局部過熱,致使部分主機自動關機。所幸隻影響到CMS的使用,對其餘服務無影響。服務器
2011年6月2日微信
16點~19點,仍然是世某某聯廊坊IDC機房,空調機組故障,形成託管機房溫度太高。網絡
16點10分開始,運維部已將中心區域服務進行了遷移,將核心業務遷移到邊緣區域溫度相對較低的服務器上提供服務。但隨着中心區域溫度的持續升高,17點開始中心區服務器相繼出現工做不穩定和宕機情況。併發
17點50分至18點06分期間,前端服務器陸續宕機,形成20%用戶打不開網頁。運維
因而我司於6月底停服夜奔,從廊坊搬遷服務器回了北京,孩子仍是放在身邊放心。性能
2013年5月18日
16點10分,我司所在的北京互某通IDC機房的空調機組因楊柳絮堵塞室外機而停機。
託管機房某列機櫃內託管服務器超溫保護自動關機。
IDC機房空調機組停機致使的事故,我司每次都是標準處理流程:
1)運維部極速飛車到機房,冰磚啊風扇啊挪機器到外圍區域啊;
2)運維部發函追責;
3)IDC機房認可錯誤,作出賠償;
4)運維部發事件報告以及對方公函。
歷史上其餘公司的空調殃及池魚事件:
2012年12月26日,12306火車票網站因機房空調系統故障而沒法訪問。
2011年11月17日16點40分~18點20分,我司短信通道所在的天津塘沽某IDC機房電纜被剷車挖斷,備用電源堅持不了過久,機房斷電,致使我司沒法使用短信通道,同機房的遨遊、新浪郵箱、豌豆莢等公司的服務也所以中斷。
其實只要你運營時間足夠長,總會撞上一次:
2012年7月25日晚間~21點40分,北京暴雨搶修光纖被挖斷,致使美團網一度不能訪問。
2012年10月18日上午~11點40分,酒仙橋某IDC機房斷電,凡客誠品(恰好遇上凡客五週年生日促銷)、亞馬遜中國等網站沒法訪問。
2013年7月22日上午,因市政道路施工緻使通訊光纜被挖斷,影響了微信服務器的正常鏈接。
硬件形成的網絡中斷,並不鮮見,如2013年4月10日,騰訊微信所在IDC機房的一臺交換機出現硬件故障,致使少部分微信用戶約十分鐘發送消息失敗,還一度轟動了社交網絡。
3.1.上游的硬件問題
2013年6月17日,
20:30分,監控報警提示業務中斷;
20:32分,運維人員和機房值班工程師取得聯繫,確認機房網絡出現異常;
20:35分,運維人員趕往機房現場協調處理;
20:40分,通知公司相關部門人員按緊急預案執行;
20:50分,現場工程師和互某通技術人員確認,長話大樓機房核心設備硬件故障形成網絡中斷,備件已到位,正在更換中;
21:00分,將服務切換到攻擊防禦IP地址段(因該IP段爲單聯通線路,流量出口爲機房本地出口,因此該段未受到影響);
21:00分,機房部分流量恢復,表現爲聯通運營商用戶能夠訪問網站,其餘運營商沒法訪問網站;
21:02分,通知公司相關部門人員故障開始恢復;
21:30分,與互某通技術人員聯繫,設備硬件已經更換完成進行加電;
21:35分,互某通長話機房網絡恢復,其餘運營商用戶能夠訪問網站,全部功能恢復。
本次故障爲互某通機房長話大樓核心設備故障形成,暴露出幾個問題:
長話大樓機房做爲核心機房,核心網絡設備沒有采用在線熱備,採用冷備方式,出現故障後恢復時間過長,
出現長話大樓機房核心設備故障時,能夠選擇將BGP出口切換到同城某核心機房,但對方未進行此操做。
3.2.自身的硬件問題
2014年10月27日,
15:20分,監控報警發現網站銷量異常以及網站沒法正常打開。
15:23分,運維部開始分配工做檢查故障,排除公司網絡、DNS解析、外部網絡攻擊、機房網絡問題等環節,最後判斷是網站外網核心交換機可能出現故障。
15:47分,運維部工程師從公司出發到機房現場進行問題排查。
16:05分,運維部工程師到達現場,使用筆記本接入核心交換機,查看交換機工做狀態,發現有大量報錯,經判斷爲核心交換機堆疊出線故障,形成交換機沒法正常工做。工程師將交換機堆疊線纜從新安裝,並重啓交換機 。
16:15分,核心交換機完成重啓,故障報錯消失,網站開始恢復提供訪問。
DNS 出了問題,誰也跑不了,都受影響。
最近一次DNS事故是,2014年1月21日,繼上午騰訊16項服務出現故障(與我司有關的是QQ聯合登陸登不進網站了)後,下午15點10分~16點30分,全國全部通用頂級域的根出現異常,致使大量國內網民沒法訪問 .com 域名網站,不少網站被解析到 65.49.2.178 這一美國IP地址。因爲公網訪問我司以及支付寶,均須要域名解析,因此損失沒法估計。
據報載,近年來中國大規模的網絡癱瘓事故有五起,包括2006年臺灣地震震斷海底光纜事故、2009年暴風DNS受攻擊致使大範圍斷網、2010年百度域名被劫持事件、2011年中國電信寬帶維修致使大規模網絡故障、以及2014年1月21日DNS域名根服務器故障。
地方電信運營商和流量聯盟都會出手,劫持咱們的域名。
5.1.運營商劫持域名
2013年10月底,淮安銷售反饋當地訪問我司域名以及商戶後臺域名很慢,隨後,運維部發現淮安鐵某通劫持了我司的域名,以下圖所示。
圖3 域名被劫持到另外一個IP上
這種問題只能以消費者身份投訴當地鐵某通客服。
5.2.流量聯盟劫持域名
2014年1月23日,長沙城市經理反饋,在網吧上網發現我司、某800等頁面均直接跳轉到美某團。
運維部遠程協助後發現,IE瀏覽器訪問我司域名以及其餘電商域名時,會跳轉到億某發的經過網易短網址服務縮短後的地址,
而後再跳轉到 h*p://p.ya.com/c?s=1736f800&w=378742&c=5402&i=11642&l=0&e=&t=http://www.mei*.com/ ,
最後跳轉到美某團 hp://chs.mei.com/?source=yqf&utm_campaign=AffProg&utm_medium=yqf&utm_source=p.ya.com&utm_content=p.y**a.com%2Fc&_rdt=1&urpid=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi&utm_term=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi,
運維部懷疑是億某發聯網旗下的站長聯合網吧出口的管理軟件,對團購相關網站作了域名劫持。
那個年代,億某發聯盟的成員在各地劫持各大電商流量,十分常見,花樣百出。
被攔截無外乎被人舉報或無心誤殺。
6.1.殺毒軟件攔截
2013年10月23日淮安城市經理反饋,商家發現用金山毒霸殺毒時會提示說我司商家後臺域名有問題,以下圖所示:
圖4 瀏覽器上的殺毒軟件提示
通過研發人員與金山客服聯繫,很快再也不攔截,但客服拒絕回答緣由。
接下來,咱們又發現,商家在電腦桌面上建立有我司商戶後臺的快捷方式時,馬上彈出金山毒霸的病毒報警,以下圖所示:
圖6 金山毒霸的彈框提示
再一次聯繫金山客服後,金山客服反饋金山後臺已經處理。
金山客服表示,今天處理問題與昨天處理的問題是同一個問題在兩個不一樣軟件中的體現,因此須要進行兩次處理。當被問及是否還會出現第三次或者在金山的其餘平臺出現相似問題時,客服不肯定不會出現,只能保證瀏覽器和快捷方式文件的病毒誤報狀況,不會再出現,若是有大量用戶投訴網站內容,也可能會再次出現病毒報警。
6.2.其餘攔截
2012年時,我司掃碼驗碼的終端設備曾經由於移動運營商攔截 55.com 域名而被迫緊急更換域名並升級設備軟件。
當時幾經周折,也不知道是移動運營商哪個部門負責此事,打探到有人投訴該域名下有非法內容所以被禁,以致於終端設備經過SIM卡上網沒法訪問我司服務。
我司被 DDoS 攻擊過,也被同機房的其餘公司殃及過。
7.1.荒謬的躺槍
2011年8月9日,www.ebao**.com 是杭州一家團購網站,估計在8月8日被人DDoS攻擊了,因此他們本身把域名指向我司IP(?!),還好運維部及時發現及時處理。
2012年2月13日,我司遭遇 SYNC Flood 攻擊,機房對應網段帶寬被打滿。頭一次在我司主站掛出公告。攻擊時,我司一度把域名指向CDN,讓CDN幫忙扛。
7.2.我司被殃及
從2014年1月17日下午18點開始,互某通IDC機房因爲託管用戶觸某科技被 DDoS 攻擊形成大網受到影響,網絡斷斷續續。
故障現象爲:機房內到外 PING 丟包嚴重,丟包最嚴重時丟包率 100%;網站沒法正常訪問。
這種現象在1月1八、1九、20日仍繼續發生,IDC機房採起的措施是,一旦發現觸某科技被打,就關閉它的端口,保證其餘公司業務不受影響,因此每次都是幾分鐘的波動。
7.3.自擺烏龍
高估了我司的服務性能,無線曾經發了一次批量 Push,結果用戶蜂擁而來,洪水而來的請求直接打垮了無線服務器協議端,各個節點雪崩。無線大頭欲哭無淚。
還有一次,2012年4月24日,有人發微博說專賣店頁面訪問 504(Gateway Timeout),還有微博說我司商品圖片打不開了。
經查,是無線在公司內網的服務器在上午9點~12點之間,從CDN大量抓取我司商品圖片。
因爲抓取的大量圖片(畢竟是遍歷商品嘛)在 CDN 中沒有緩存,致使 CDN 回源取數據的流量增長,變相造成 CDN 服務器輕量 DDoS 我司靜態資源服務器的狀況 。
只好告訴你們在對自家主站數據進行任何大規模(併發)抓取前,先想一想後果,不要本身 DDoS 本身。
小結一下,寫了這麼多,就是讓你們瞭解一下線上線下都會面對哪些不可抗因素,作好心理準備。
-THE END-
歡迎您關注微博@鄭昀,歡迎您關注微信訂閱號『老兵筆記』。
贈圖一枚:
相關精彩文章: